[꿍꾸룽] 구조방정식 복습 4

2021. 8. 12. 23:14통계

안녕하세요 꿍꾸룽입니다.

연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. 


mplus이용하기

 

자료파일 만들기

. text  파일의 형태로 따로 준비

- spss파일을 text  파일의 형태로 전환할 수 있음. width(변수가 차지하는 칸), decimals(소수점) 모든 변수의 포멧이 같은 게 편함. mplus에서 변수가 차지하는 칸을 바탕으로 변수를 인지함. 

- save as : fixed ascii 가 제일 안정적임. 

 

. fixed ascii 파일을 mplus로 열어서 한번 확인하기. 첫줄 첫번째에 이상한 문자가 생겨있을 수 있음. 확인하고 삭제하기. 

mplus홈페이지에서 확인한 후기 중에, 오류가 났을 때 첫줄 첫번째에 이상한 문자가 보이지 않았을 때도 있는 척하고 지우고 다시 스페이스로 맞춰주었더니 오류가 해결되었다는 내용이 있었음. 

 

. 자료 이용  1) 요약치 (전통적 구조방정식) 2) 원자료. 

. 기술통계 확인 가능 (강의 자료에 커멘드 있음) 단, 원자료가 필요한. / output 커멘드 sampstat옵션

 

 

요약치를 이용한 자료파일

.공분산 행렬만 있다면 회귀분석, 요인분석 등이 가능하며, 상관계수 행렬만 있어도 가능

. 1) 공분산행렬이 있는 경우 (하삼각행렬). 

2) 상관계수행렬과 표준편차가 있는 경우 

- 상관계수와 표준편차가 있으면, 공분산을 만들어낼 수 있음. Cor + SD = Cov

3) 상관계수 행렬과 표준편차와 평균이 있는 경우 

 


mplus의 구조와 예제

 

.신텍스의 몇가지 규칙

- 대/소문자 영문 구별 안함

- 변수 이름의 길이는 영문 여덟글자(!!) 

- 명령어 줄이 90칸을 넘어가지않음(버전8 기준, 7까지도 그렇고 이전엔 80칸이었음). 이걸 넘어가면 에러메세지가 뜨니까 엔터치고 줄 바꾸면 됨. 

- 커멘트 : / 명령어끝 ;

 

- 인풋과 데이터 파일은 같은 파일에 넣어두어야 추가할 명령문이 줄어듦

 

input 파일.

. 커멘드(command). - 하위커멘드, 옵션을 포함. 연구자의 의도에 따라 input 파일의 신텍스를 작성하면 됨.

. 커멘드종류 및 옵션 (강의 내용 확인) 

 

mplus사용 실제 예

. 실행하려면 저장부터 하고 run. 

. mplus결과 관련

- input reading terminated normally : 인풋을 읽어들이는 데 문제가 없었다 (모델이 적합했다랑 다른 의미임)

- number of dependent V ~ : 독립/종속 정확한 표현이 아님. 외생/내생변수가 더 맞는 표현. 

 

MPLUS 아웃풋에서, number of dependet V : 종속변수의 갯수인데, 실제로는 관찰변수 중! 내생변수를 의미.

number of indepent V : 독립변수의 갯수인데, 프로그램 내에서 의미는, 관찰변수 중! 외생변수를 의미. 예(공변수)

countiuous latent V : 잠재변수를 의미. 이론을 배울 때는 잠재변수 중 설명을 받지 않는 외생변수와 설명을 받는 내생변수로 배웠지만, 프로그램 내에서 잠재변수는 latent V 로 빠져서 계산 됨. 

 

강의 교재 예제에서, 외생 1, 내생 9+2였으나, mplus 아웃풋 파일에서는 잠재변수3 / 내생 9로 계산되어 숫자로 표현됨.

 

- format is 9f8.3 (아홉개의 변수, 8개의 칸, 3개의 소수점자리) : width(변수가 차지하는 칸), decimals(소수점) 지정과 연결되는 것. 

 

.모형적합도 : 모형과 자료가 얼마나 들어맞느냐를 보여주는 수치들. 

.개별모수추정치 : path 를 보여주는 수치들. 

 

mplus에서 결측치 처리

. 하나의 숫자로 넣은 다음, FIML 추정방법을 사용함.

. 자료에 결측치가 있으면 채워넣는 게 좋음. 그대로 두면, 10번에 1번 오류가 생길 수 있음. 그래서 하나의 숫자로 채움. 예를 들어 자료 세트에서 나타나기에 거의 불가능한 숫자인 임의의 숫자로 결측치 값으로 결정 (예 999)

. 그 다음, 최대우도 FIML 추정을 위해 명령어를 더하면 됨. VARIABLE 커맨드에 MISSISNG = ALL(999);

- MISSING 데이터를 MAR로 가정함. MNAR인 경우 적절치 않음. 

 

. SPSS에서 미싱 처리하는 방법

- TRANSFORM > RECODE INTO SAME V. > 모든 변수 선택 후 > OLF AND NEW V > SYSTEM OR USER-MISSING > VALUE 999하고 하면 됨. 

 


경로모형

.구조모형은 동그라미 표현. 서로 어떤 관계가 있는 지 가설에 따라 설정.

.각각 잠재변수를 측정하는 지표변수가 적어도 2개이상이 있어야 됨.  근데 만약 어떤 이유로, 설명하고자 하는 지표변수가 하나라면, 혹은 합산점수를 써야 한다면 > 경로모형. 

 

. 하나밖에 없는 관찰변수를 각각의 구인을 대표하는 변수로 사용해서 사용해서 변수 관계를 보는 것. 

. 관찰변수들 간의 구조관계를 보는 것. 측정모형이 없음. 

 

. 측정오차를 가정하지 않음. 측정오차가 없다는 가정은 현실적으로 달성하기가 거의 불가. 

- 완벽한 측정을 가정한다고 되어버림. 

- 구조방정식 모형보다 열등한 모형. 왜? 측정오차가 당연히 있는 데 가정하지 않으니까. 

 

. 통계모형이라는 건 오차까지 들어가있어야 하는 것. 설명하지 않은 부분을 오차가 설명해주는 것. 

 

. 구조방정식 모형의 단계

- 모형의 설정 > 판별 > 자료수집및 모형의추정, 모형 평가 및 해석 (이 과정에는 모형의 수정이 따름) 

specification, identification, estimation, evaluation (modification)

 


모형의 설정

 

경로모형의 기초

 

. 하나의 외생변수 > 하나의 내생변수. (단순회귀)

. 가정 1) 설명오차의 평균은 0. 오차의 평균은 거의 0으로 가정. 2) 독립변수와 오차 사이에는 상관이 없다고 거짓고립을 함. 이 가정은 내 모형이 옳다 라는 것과 관련. 

 

. 전통적 구조방정식에서는, 공분산 행렬을 사용. 절편을 추정하지 않음. 평균구조를 사용하지 않기때문. 

- 추정하는 모수 (항상 성립)

1) 경로계수 2)오차의 분산 3) 외생변수의 분산 

 

. 척도 상수 : 잠재변수에서 나온 개념. 

- 오차는 관찰되지 않는 잠재변수. 1로 경로계수를 설정. 그러면 y와 d의 단위가 같아짐. 

 

. 두개의 외생변수와 하나의 내생변수 (다중회귀분석)

- 추정하는 모수

1) 경로계수 2 2)오차의 분상 3)외생변수의 분산 및 공분산

 

. 판별 관련

- (s메트릭스 : covariance 메트릭스 ) i 정보 개수, t 추정하고자 하는 모수의 갯수 

- t가 더 많으면 오류가 생김. 

. 회귀분석은 i = t 라서 항상 분석이 가능. 

 

 

하나의 외생변수와 두개의 내생변수가 있는 경우 (구조방정식이 필요한 이유)

. 매개변인이 있는 것. mediator = 매개모형

. 효과분해 1) 직접효과 2) 간접효과 3) 전체효과 = 총 효과 (직접+간접)

 


모수의 종류

1) 자유모수 : 추정하고자 하는 모수

2) 고정모수 : 추정하지 않는 모수. fixed at sth. 어떤 숫자로 고정. 0으로 고정한다는 것은 path가 없다는 것과 같은 의미. 분산을 0으로 고정한다 = 분산이 없다는 것과 같음. 

- 고정모수를 지정함으로써 자유모수를 추가할 수 있게 됨 (설명오차의 상관을 추정할 수 있게 됨) 

3) 제약모수 

- 동일모수제약 페스1 = 페스3 = 페스1. 베타1=베타3. (이걸 많이 씀)

- 비례 모수 제약 베타1 = 2베타3 =2베타1 

 

억제효과와 거짓효과

. 억제효과 suppressor effect <> 거짓효과

- 연구자의 모형 설정에 오류가 있어서 효과가 보이지 않거나 / 억제되는 현상. 

- 간접효과는 + 직접효과는 - 일 때 이런 매개효과를 inconsistent mediation 이라고 함. 

 

재귀모형, 비재귀모형

. 재귀모형 : 모든 경로가 한 방향으로 향하고, 되돌아오지 않음. 설명오차 변수 간에 상관이 존재 않음. recursive. 재귀라는 단어가 적합하지 않음. uni directional model이라고 이해하면 쉬울 것.

- 수학 프로그램 때문에 recursive라는 단어가 생긴 것.  

 

. 비재귀모형 : 변수 들 간에 서로 영향을 주고받고, 설명오차 변수 간에도 상관이 존재. 

- partially recursive model : 서로 영향을 주는 것만 있거나 / 설명오차 변수 간 상관 만 있거나

- 특징

1) 피드백 순환 : 한번 영향을 주고받는 게 아니라 계속 영향을 주는 것. loop. (예. 불안/우울) 수렴할 것인지 발산할 것인지를 모르니, 추정치가 정확하지 않아서 종단으로 자료를 오래 모아야 됨. 경영학과에서는 많이 쓰임. 심리학의 main stream에서는 잘 안씀. 추정이 안될 가능성이 올라감. 필요하면 함. 편향된 추정치. 

 

[연결]

 


5주차.

 

2) 설명오차간의 상관

. 외생변수 간 상관은 전통적으로 추정하는 게 일반적. 경로모형에서는 추정을 안함. 잠재변수일 때는 하는 데, 관찰변수(경로모형)에서는 안함. 

. 내생변수 간 상관은 추정한다는 개념이 존재하지 않음. 상관은 분석되지 않은 관계 즉, 관계방향성은 모르는데 상관이 있다고 하는 것. 내생변수 간의 상관을 추정한다는 게 이상한 것이, 각 변수의 상당변수는 설명을 받고 있음. 그러니 설명을 하지 못하는 부분을 추정한다는 게 이상한 것. 넌센스. 

. 설명오차 변수 간 상관은 선택. 이것을 추정한다는 것이 무슨 의미? 전체 모형의 설정의 오류가 있다는 뜻. 즉, 종속변수에 동시에 영향을 주는 또 다른 변수를 생각하지 못했다는 의미 (공통변수). But 모형을 만들 때 종속변수를 설명하는 모든 변수를 찾는 게 아니라, 주요변수를 찾는 것이니까 설명오차 변수 간의 상관을 허락하는 것이 꼭 오류라는 것은 아님. 즉, 불가능한게 아님. 

 

재귀모형 비재귀모형 판별의 가능성. 

. 모형의 판별에서 재귀모형은 강점이 있음. t rule 통과하면 분석 가능함. 

. 비재귀모형은 t rule 통과해도 분석될 수도 있고 안될 수도 있음. 

 

모형의 판별

. 판별된다 : 추정가능하다. 모형의 모든 모수 추정치를 실수 없이 하나의 값으로 결정 가능 하다. 

. 수학에서의 판별개념, 구조방정식 판별. 

1. i<t 수학에서는 부정. sem에서는 과소판별. 추정이 불가능해짐.

2. i=t 수학에서는 해를 구한 것. sem에선 완전판별 (just-identified). 

- 완전 판별되는 구조방정식 모형 : 포화모형 saturated model. 모수의 개수와 정보가 동일한 모형인 것. 구조방정식에서는 추정할 수는 있으나 모형 적합도를 볼 수가 없음. 이는 완벽한 적합도(perfect fit) 이라고 함. 적합도가 완벽히 좋다는 게 아니라, 기술적으로 카이스퀘어가 0으로 표현되기에, 그렇게 표현. 

- 완벽적합이라고 표현하고, 적합도를 논할 수 없다고 기술. 

3. i>t . 수학에서는 동시에 만족하는 하나의 답이 없는, 해가 없음. 불능. 구조방정식에서는 과대판별. 구조방정식에서 원하는 상태. 정보를 되도록 많이 모았고, 그 상태에서 미지수인 모수를 구하려고 하는 것. 딱 맞는 답을 찾는 게 아니라, 정보 안에서 가장 근사한 값을 찾으려고 하는 것. 

 

대수적 방법

경로모형이 판단이 되는 지 안되는 지 보는 방법 중 하나. 

. 수식을 다 풀어서 모수가 나오는 지 확인하는 것. 

. 수리적으로 완벽하지만, 모형 판별이 어려워서 다른 규칙이 있는 것. 예 t rule.


(실전)

자료파일 만들기

. text  파일의 형태로 따로 준비

- spss파일을 text  파일의 형태로 전환할 수 있음. width(변수가 차지하는 칸), decimals(소수점) 모든 변수의 포멧이 같은 게 편함. mplus에서 변수가 차지하는 칸을 바탕으로 변수를 인지함. 

- save as : fixed ascii 가 제일 안정적임. 

 

. fixed ascii 파일을 mplus로 열어서 한번 확인하기. 첫줄 첫번째에 이상한 문자가 생겨있을 수 있음. 확인하고 삭제하기. 

mplus홈페이지에서 확인한 후기 중에, 오류가 났을 때 첫줄 첫번째에 이상한 문자가 보이지 않았을 때도 있는 척하고 지우고 다시 스페이스로 맞춰주었더니 오류가 해결되었다는 내용이 있었음. 

 

.신텍스의 몇가지 규칙

- 대/소문자 영문 구별 안함

- 변수 이름의 길이는 영문 여덟글자(!!) 

- 명령어 줄이 90칸을 넘어가지않음(버전8 기준, 7까지도 그렇고 이전엔 80칸이었음). 이걸 넘어가면 에러메세지가 뜨니까 엔터치고 줄 바꾸면 됨. 

- 커멘트 : / 명령어끝 ;

 

- 인풋과 데이터 파일은 같은 파일에 넣어두어야 추가할 명령문이 줄어듦

 

mplus에서 결측치 처리

. 하나의 숫자로 넣은 다음, FIML 추정방법을 사용함.

. 자료에 결측치가 있으면 채워넣는 게 좋음. 그대로 두면, 10번에 1번 오류가 생길 수 있음. 그래서 하나의 숫자로 채움. 예를 들어 자료 세트에서 나타나기에 거의 불가능한 숫자인 임의의 숫자로 결측치 값으로 결정 (예 999)

. 그 다음, 최대우도 FIML 추정을 위해 명령어를 더하면 됨. VARIABLE 커맨드에 MISSISNG = ALL(999);

- MISSING 데이터를 MAR로 가정함. MNAR인 경우 적절치 않음. 

 

. SPSS에서 미싱 처리하는 방법

- TRANSFORM > RECODE INTO SAME V. > 모든 변수 선택 후 > OLF AND NEW V > SYSTEM OR USER-MISSING > VALUE 999하고 하면 됨. 

 

모형의 판별

3. i>t . 수학에서는 동시에 만족하는 하나의 답이 없는, 해가 없음. 불능. 구조방정식에서는 과대판별. 구조방정식에서 원하는 상태. 정보를 되도록 많이 모았고, 그 상태에서 미지수인 모수를 구하려고 하는 것. 딱 맞는 답을 찾는 게 아니라, 정보 안에서 가장 근사한 값을 찾으려고 하는 것.

 

 


 

https://dream2run.tistory.com/213

 

[꿍꾸룽] 구조방정식 복습 1

안녕하세요 꿍꾸룽입니다. 연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. 제 식으로 정리할거라, 많이 축약되어있거나, 한 내용이 많이

dream2run.tistory.com

https://dream2run.tistory.com/215

 

[꿍꾸룽] 구조방정식 복습 2

안녕하세요 꿍꾸룽입니다. 연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. https://dream2run.tistory.com/213 [꿍꾸룽] 구조방정식 복습 1 안녕하

dream2run.tistory.com

https://dream2run.tistory.com/217

 

[꿍꾸룽] 구조방정식 복습 3

안녕하세요 꿍꾸룽입니다. 연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. 행렬과 벡터 .행렬은 숫자의 나열. 3X2는 3개의 행, 2개의 열. 6

dream2run.tistory.com

 


자료의 출처는 김수영 교수님의 강의입니다.

책 : 구조방정식 모형의 기본과 확장. 서울 : 학지사.

 

내용이 저작권 등 문제가 된다면, 연락바랍니다. 삭제하겠습니다.


다들 건강한 하루 보내세요~~ :-)

 

반응형