[꿍꾸룽] 구조방정식 복습 6

2021. 8. 15. 00:49통계

안녕하세요 꿍꾸룽입니다.

연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. 


모형을 평가하는 방법으로 유일한 통계적 검정은 카이스퀘어 검정. 

- 한계점이 있음. (대표적인 것은, 표본크기에 영향을 받는 다는 것) 

- 모형에 대한 평가가 좋다/ 나쁘다 이분법적.

 

근사적인 적합도 지수

. 한계들로 인해 모형의 적합도를 평가하기 위한 많은 방법이 제안 됨. 

1. 증분 적합도 지수 incremental fit index

- baseline model 기저모형, 독립/영모형에 비해 연구자 모형이 얼마나 더 향성되었는 지 나타냄. %로 표현. 주로 0-1사이로 움직임. 아닌 것도 있음. 

- 기저모형 : 일반적으로, 경로모형에서의 기저모형은 starting 모델인데, 관찰 변수 간 상관이 존재하지 않는다고 가정하는 모형. 카이스퀘어 값이 매우 큼(모델 fit이 나쁨). 내 모형에서 모수 갯수를 더해가게되면 카이스퀘어 값이 다운 됨. 그래서 얼마나 다운 되는 지 확인하는 게 1. 증분 적합도 지수. 

 

i. NFI : 0-1사이에서 정확히 움직임. 1에 가까운 값을 가지면 좋은 모델 핏.  보통 기준이 0.9 , 0.95

ii. NNIF 또는 TLI (현재 TLI로 많이 씀 ) : 주의. 0과 1사이에서 움직이지 않음. 0보다 작거나 1보다 클 수 있음. 

iii. CFI : 가장 광범위하게 사용되고 있음. 0과 1사이에서 움직임. 

- 모형의 복잡성에 주는 패널티가 충분하지 못함 (간명성) Kenny, 2014

 

. CFI 를 가장 많이 쓰고 담에 TLI

- 이 둘이 상관이 아주 높기 때문에, 이 중에 하나만 보고하는 것이 합당. (kenny, 2014)

- 보통 복잡한 모형에 대해 패널티를 TLI가 주기 때문에, TLI < CFI 값이 됨 (TLI값이 CFI 값보다 작음) . 근데 기준이 0.9 0.95 기준이 되면서 cfi를 많이 씀. 

- CFI가 1이라고 해서 모형의 적합도가 완벽하다는 것은 아님. 1이 넘어갈 거 같으면 1로 수치를 존재함. 

= PERFECT FIT과 다른 의미로, 자유도가 0이면 카이스퀘어가 0인데, 그게 아니어도 CFI가 1이될 수 있음. 

 

2. RMSEA : 모형이 모집단을 완벽하게 반영(카이스퀘어 = 0, 포화모형과는 다른)하기는 불가능에 가까우므로, 근사적으로 적합하다는 가정을 이용 (모형이 모집단에 근사적으로 적합) 하여 지수를 계산.

- 영가설이 옳지 않다는 가정하에 기술을 개발. 

. 내 모형이 영가설을 얼만큼 따르지 않는 것인지 알려줌. 값이 커지면 내 모형이 자료를 잘 반영하지 못하다고 알려주는 것. 

. 만약 카이스퀘어 값이 자유도 보다 작거나 같으면 이 값은 항상 0  

. (제안) brown &  교재에 있음. 0.05 / 0.05 - 0.08 / 0.08 - 0.10 / 0.10. 그래서 0.08이하면 좋은 뜻, 0.1 사이값이면 나쁘지 않다. 0.1 넘어가면 문제가 있는 것. 

. RMSEA가 0 : 완벽한 적합도를 가지고있다 X. 카이스퀘어 값이 자유보다 작거나 같은 것. Perfect fit이면 0이 나오긴 함. 

. 이론적 범위 0~무한대. 1을 넘어가는 경우가 잘 없긴 함. 범위가 0-1이라는 건 틀린 말. 

. 자유도가 작고, 표분크기가 작은 경우 과대추정. 신뢰하기가 힘듦. excuse를 만들 수 있음. 자유도가 작아서 RMSEA가 문제가 될 수 있다. (교재에 citation있으니 확인)

 

3. SRMR : RMR의 표준화된 버전

. RMR 잔차행렬의 모든 요소를 이용해서, 잔차행렬을 이용하여 만든 것. 작을 수록 좋음.

. 0-1사이의 표준화된 지수. 0.05이하면 좋은 적합도 (Byrne, 2012). 그런데 아주 극단적일 때 1이상 나올 수도 있음. 

. hu, bentler(1999) 0.08이하면 좋다고 보기도. 

 

종합하자면, 다각적으로, 여러 다양한 방법으로 모형 평가하여 보고하면 됨. 

추천. (Citation 교재참고) 교재에 적혀있는 이름들은 그대로 갖다쓰면 안됨. 그 분들의 말을 종합했을 때 추천을 하는 것. 

- 카이스퀘어 검정,

- CFI, hu와 benlter (1999)

- RMSEA, browne and 큐덱, 1993 (교재)

- SRMR, hu와 benlter (1999)

* 판단 : cfi rmsea srmr에서 하나가 너~무 안좋으면 비판을 받을 확률이 높지만, 2개가 좋고 하나가 살짝 안좋으면 많이 publish하기도 함. 


모형의 비교지수 : 모형을 비교할 때 씀. 데이터가 있을 때 모형이 다를 수 있는 데, 둘 중에 무엇이 더 좋은 지 비교할 때 쓰는 것임. 

1. 정보준거 (IC)

. 값이 작을 수록 좋음. 

- AIC / BIC가 있음. 

. 대부분의 정보 준거들은 똑같은 자료에 다른 모형이 적용되었을 때, 더 작은 값을 가지는 모형이 더 좋은 모형. 

. 최근 : ADBIC . BIC에 패널티를 수정해서 사용하는 것. SABIC 등 이름이 많음. MPLUS에서 보고함. Mixture model에서 모델을 선택하는 게 아주 중요한데, ADBIC가 잘 작동한다는 연구가 많음. 

. mplus에서 보고하는 건, AIC BIC ADBIC

 

개별 모수의 검정 및 추정치의 해석.

. 영가설 : 임의의 모수 떼라 =0. 대립가설 : 떼라 =/ 0

. 이를 검정하기 위한 검정통계량과 표집분포 : Z = 임의의 모수 떼라 헷(추정치) / 추정치의 표준오차. ~ N(0,1)

-  t-test에서 배운 것. one sample t test. T(n-1). two sample t test는 다름. 

- 이는 studentize 하는 것임. 추정치는 표준오차로 나누는 것. 

. 통계적으로 유의미하다는 것은, z가 특정값보다 작거나, 크다는 것. 영가설 기각 = 상응하는 모수가 통계적으로 0이 아님. (주의) 논문심사 시 영가설이 무엇인가 물어보면 대답할 수 있어야 함. 통계적으로 유의하다는 것이 뭔지 알아야 함. 통계적으로 유의하다 = 영가설 기각 = 내 모수가 0이 아니다 = 효과가 0이 아니다 = 효과가 있다. 

 

. 결과

. 비표준화 추정치 

- 설명오차가 유의하다는 것 : 종속변수가 독립변수 만으로 충분히 설명되지 않았다. 설명오차에 충분한 분산이 남아있다는 것. 설명해야된다는 의미임. 

. R2 설명력. 

- 내생변수 하나당 하나의 설명력이 계산 됨. 종속변수의 분산 분의 설명된 분산. 

 

모형 전체에서 내생변수 간의 상관(분산)은 계산되지 않음. 왜냐하면 내생변수는 이미 설명을 하는 부분이 포함되어있기때문. 근데 R2 설명력이라는 개념에서는 변수 하나당 설명력을 계산한다는 의미로 계산이 되는 듯. 내생변수의 분산 관련 부분은 [구조방정식 복습4]과 해당 강의 확인할 것. 

(복습4. 강의 4 부분). 내생변수 간 상관은 추정한다는 개념이 존재하지 않음. 상관은 분석되지 않은 관계 즉, 관계방향성은 모르는데 상관이 있다고 하는 것. 내생변수 간의 상관을 추정한다는 게 이상한 것이, 각 변수의 상당변수는 설명을 받고 있음. 그러니 설명을 하지 못하는 부분을 추정한다는 게 이상한 것. 넌센스. 

 

 . 표준화 추정치  

- 모슨 변수를 표준화했을 때의 추정치. STDYX 완전 표준화된 결과. (일부분만 표준화하는 게 있음, STDY, STD 가 있음)

- 표준화했으니까 외생변수의 Variances 는 1로 됨. 고정. 결과에 주지는 않지만, 내생변수의 분산도 다 1이 됨. 내생변수의 분산 설명이 없는 이유는 위와 같음

- 이때 설명오차의 분산가 의미를 가지게 됨. R2를 계산하기에 쉬워짐. 1-설명오차의 표준화 된 분산 값. 

. 참고 : 표준화된 추정치 옵션 (교재 확인)

 

. 표준화 계수 추정치 : 비교할 때 사용. 변수 2개가 종속에 영향을 준다면, 둘 중에 어떤 변수의 값이 큰가를 비교 가능. 물론, 그 차이가 유의한가 검정도 가능. 

 


경로모형의 예

. input파일 

- 각 커멘드 설명. (교재 및 강의 참고) analysis, with, on, 분산, 오차의 분산 / model indirect(간접효과) 등. 

OUTPUT 커멘드 : 추가적으로 무엇을 원할 때 사용. STDYX. MODINDICES(0) 나중에 설명. 본 포스팅 수정지수로 설명있음

- model = nomeanstructure; 전통적 구조방정식으로 하라는 뜻.  

최근 SEM은 Mean structure 평균구조를 사용. 최근 경로모형으로 평균구조를 사용해서 외생변수의 분산 및 공분산을 추정하지 않음. 

 

. univariate sample statistics : 한 모형의 관찰변수 안에 분산의 차이가 너무 크면 안됨. KLINE은 10배라고 했으나, 약 50배 정도. ml추정법이 오류가 날 확률이 커짐. (실전) 모형 돌릴 때 확인 하기. 왜도/첨도 확인하기 

 

. loglikeliwood : H0은 내 모형, H1은 내 모형을 포화모형으로 만들었을 때 값 (최대화 값이 좋은 것). 당연히 H1일때가 더 큰 값이지만, 의미가 없음. 왜? 포화모형이니까. 

- IC, Chi-square 등. 모형 적합도 값 나열. (강의 및 교재 참고) : 실전 시 최대우도값과 ic를 볼 일이 많지 않음. 

- RMSEA 자유도 값에 영향 받음. 자유도가 작으면 과대추정됨 (책에 있음). TLI 자유도 값이 작을 때에 대한 패널티가 주어짐. (excuse를 가져올 수 있음 : 실전)

 

. 개별모수 추정치

- 공분산값이 관계크기를 말해주는 건데, 네가티브라고 나와있어도 진짜 인지는 통계적 유의성을 보아야 함. 통계적으로 유의하지 않으면 0인거나 다름 없음. 

- 외생변수의 분산은 sem에서 굳이 해석하지 않음. 통계적으로 유의하다는 것은 그 안에 개인차가 있고 그게 유의하다는 것. MULTILEVEL 모델링에서는 분산의 유의성을 해석하는 전통이 있음. 

- 오차의 분산도 SEM에서 굳이 해석하지 않음. 통계적으로 유의하다는 것은 그 안에 개인차가 있고 그게 유의하다는 것.

 

. 표준화된 개별모수 추정치 

- 외생변수의 분산은 1로 고정 / 5개(외생/내생) 변수의 분산을 1로 고정했으니 추정하지 않은 것. 

- 공분산이 > 상관계수로 바뀜. 표준화 했으니까. 

 

. 비표준화 / 표준화 통계적 유의성 중에 어떤 걸 해석하느냐 : 관습적으로 비표준화 통계적 유의성을 사용. (실전) 

- 다른 분포를 가지기때문에 다른 값임. 결과는 표준화 값을 보고하나, 검정/해석은 비표준화 통계적 유의성을 사용함. 

 

. 간접효과

- 변수1 IND 변수2 : 변수 1에서 2로 가는 모든 경로(간접, 직, 총)을 다 분석해서 보고해줌.  

- 해석 시 화살표는 아래에서 위로 감. 예 : DIRECT ACH IQ 하면, IQ에서 ACH로 가는 경로.

- Total indirect는 간접효과가 여러개 일 때, 그 간접효과들의 합을 추정하고 유의성을 검정함. 

 

. 위에서 언급한 것들은 (검정 방법을) 다변량 델타방법 (과 유사한) Sobel의 검정임. mplus의 디폴트 값.

- 간접효과 추정치가 정규분포를 따른다는 가정 아래서 표준오차를 계산하고 검정. 즉, 각 계수가 아니라 간접효과의 추정치를 보는 것 (B1*B2) 

- 참고 : sobel의 표준오차 계산은 계수들이 독립적인데, 구조방정식 모형에 적합하지 않음.

: 간접효과 추정치가 정규분포를 따르지 않음. (bootstrapping 설명에서 다시 설명예정. 최근의 추세임. )

: 표본의 크기가 충분히 클때는 상당히 잘 작동. but 같은 표본크기라면 부스트랩핑을 쓰는 게 더 나음. 

 

. 수정지수 :  OUTPUT 커멘드 - MODINDICES(0)

- 연구자의 설정 모형에서 하나의 모수를 추가적으로 추정하면 감소하게 되는 카이스퀘어의 값. 모수를 하나 더 추정함으로써 카이스퀘어 값을 많이 떨어뜨려 모형의 적합도를 충분히 좋게할 수 있다면, 모수를 자유롭게 추정하는 것을 고려. 즉, 선택하라~ 

- 자유도는 클수록 좋고, 카이스퀘어는 작은 게 좋음. 자유도가 크다는 것은 적은 모수 갯수를 추정한다는 것. 그 힌트를 주는 것. 모든 모수에 대한 경우의 수를 보여주게 됨. 예측치임. 실제로 모형 추정해보면 조금 달라질 수 있음. @값이 떨어질거다. df=0이되면 포화모형이라서 카이스퀘어 값도 0이 되어버림. (의미없는 0. 포화모형)

- 경로모형보다는, 측정모형에서 많이 참고하고, 모델을 수정할 지 고민하게 됨. 

- MODINDICES(0)에서 0의 의미는, 0보다 큰 mi 값을 다 보여달라는 것. 10으로 바꾸게 되면, 10보다 작은 값은 안보여주게 됨. 10이상만 보여주게 됨. 

- 주의 : 여러개의 수정지수가 가지고 있는 정보는 매우 높은 상관이기때문에, 두 경로를 한번에 수정하는 게 아니라 하나씩 해봐야 함. 모형 수정에서는 실질적 이론이 필요 (내용영역). 샘플 사이즈가 크면, mi 값도 크게 나옴 (카이스퀘어 값과 연결. 그래서 계산방법이 같음). 수정할 때 고민해야하는 것은, 절대적 값이 아니라, 상대적 값을 보아야 함. 

 

. 경로모형 결과 보여주는 방법 (실전)

- 경로와 간접효과를 꼭 포함하여 보여 줌. 

 

. 구조방정식에서의 예측. 

: 회귀분석에서 예측을 중요시 여김. 구조방정식도 할 수 있음. 회귀분석을 확장한 거니까.

: 계산하는 방법은 총효과로 해야 함. *비일관적 매개에 대한 언급있음. 

 

 

 


(실전)

모형적합도 지수에 대한 가이드라인을 안내해주는 부분.

추천. (Citation 교재참고) 카이스퀘어 검정, CFI, RMSEA, SRMR (교재에 CITATION있음) 

 

종합하자면, 다각적으로, 여러 다양한 방법으로 모형 평가하여 보고하면 됨.

추천. (Citation 교재참고) 교재에 적혀있는 이름들은 그대로 갖다쓰면 안됨. 그 분들의 말을 종합했을 때 추천을 하는 것. 

- 카이스퀘어 검정,

- CFI, hu와 benlter (1999)

- RMSEA, browne and 큐덱, 1993 (교재)

- SRMR, hu와 benlter (1999)

* 판단 : cfi rmsea srmr에서 하나가 너~무 안좋으면 비판을 받을 확률이 높지만, 2개가 좋고 하나가 살짝 안좋으면 많이 publish하기도 함. 

 

모형의 비교지수 : 모형을 비교할 때 씀. 

1. 정보준거 (IC) : 값이 작을 수록 좋음. 

- AIC / BIC가 있음. 

 

. univariate sample statistics : 한 모형의 관찰변수 안에 분산의 차이가 너무 크면 안됨. KLINE은 10배라고 했으나, 약 50배 정도. ml추정법이 오류가 날 확률이 커짐. (실전) 모형 돌릴 때 확인 하기. 왜도/첨도 확인하기

 

- IC, Chi-square 등. 모형 적합도 값 나열. (강의 및 교재 참고) : 실전 시 최대우도값과 ic를 볼 일이 많지 않음.

- RMSEA 자유도 값에 영향 받음. 자유도가 작으면 과대추정됨 (책에 있음). TLI 자유도 값이 작을 때에 대한 패널티가 주어짐. (excuse를 가져올 수 있음 : 실전)

 

. 개별모수 추정치

- 공분산값이 관계크기를 말해주는 건데, 네가티브라고 나와있어도 진짜 인지는 통계적 유의성을 보아야 함. 통계적으로 유의하지 않으면 0인거나 다름 없음. 

- 외생변수의 분산은 sem에서 굳이 해석하지 않음. 오차의 분산도 SEM에서 굳이 해석하지 않음. 통계적으로 유의하다는 것은 그 안에 개인차가 있고 그게 유의하다는 것.

 

. 비표준화 / 표준화 통계적 유의성 중에 어떤 걸 해석하느냐 : 관습적으로 비표준화 통계적 유의성을 사용. (실전) 

- 다른 분포를 가지기때문에 다른 값임. 결과는 표준화 값을 보고하나, 검정/해석은 비표준화 통계적 유의성을 사용함.

 

. 경로모형 결과 보여주는 방법 (실전)

- 경로와 간접효과를 꼭 포함하여 보여 줌. 

- 간접효과 추정치의 통계적 검정 방법은, Sobel보다는 bootstrapping. 최근의 추세.

 

(주의)

. 통계적으로 유의미하다는 것은, z가 특정값보다 작거나, 크다는 것. 영가설 기각 = 상응하는 모수가 통계적으로 0이 아님. 논문심사 시 영가설이 무엇인가 물어보면 대답할 수 있어야 함. 통계적으로 유의하다는 것이 뭔지 알아야 함. 통계적으로 유의하다 = 영가설 기각 = 내 모수가 0이 아니다 = 효과가 0이 아니다 = 효과가 있다. (카이스퀘어 검정/모형적합도의 경우 기각하지 않는 게 좋은 것)


자료의 출처는 김수영 교수님의 강의입니다.

책 : 구조방정식 모형의 기본과 확장. 서울 : 학지사.

 

내용이 저작권 등 문제가 된다면, 연락바랍니다. 삭제하겠습니다.


다들 건강한 하루 보내세요~~ :-)

 

 

 

 

 

 

 

반응형

'통계' 카테고리의 다른 글

[꿍꾸룽] 잠재성장모형 기본 내용  (0) 2021.09.01
구조방정식 공부 중 7  (0) 2021.08.23
[꿍꾸룽] 구조방정식 복습 5  (0) 2021.08.13
[꿍꾸룽] 구조방정식 복습 4  (0) 2021.08.12
[꿍꾸룽] 구조방정식 복습 3  (0) 2021.08.11