[꿍꾸룽] 구조방정식 복습 2

2021. 8. 11. 19:02통계

안녕하세요 꿍꾸룽입니다.

연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. 

 

https://dream2run.tistory.com/213

 

[꿍꾸룽] 구조방정식 복습 1

안녕하세요 꿍꾸룽입니다. 연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. 제 식으로 정리할거라, 많이 축약되어있거나, 한 내용이 많이

dream2run.tistory.com


이상값

일반적으로, 아웃라이어는 다른 변수 값들과 어울리지 않게 떨어져있는 값. 

보통 이상값 판단 기준 : Z점수 +- 2~3. (참고 판단 기준일뿐)

 

. 단변량 이상값과 다변량 이상값. 

그래프로 보는 게 더 좋은 방법 (그림). 대부분의 값이 정한 범위를 벗어난 값을 보는 것. 

다변량 즉, 이변량일 때 동시에 확인하면 이상값으로 보이는 것들이 있음. 

그래서 이상값의 경우 다변량 이상값을 확인해야 함. 차원이 높아질 수록 그림으로 판단하기 어려워지기에 Mahalanobis 거리를 이용하게 됨.

.mahalanobis의 거리 : 분산을 고려하여 거리를 찾는 것.  

하지만 sensitive하기때문에 잘 안씀.

 

결론적으로, 다변량 이상값을 심각하게 찾는 다기보다는, 다수의 이변량 이상값을 가지고 판단하게 됨. 

그림으로 판단하는 것을 중요시 여기기도 함.

 

다중공선성

두 변수 간 또는 여러 독립변수 간 높은 상관이 존재하는 문제 (종속변수간 상관은 다중공선성과 상관없음)

공선성 : 두 변수 / 다중공선성 : 여러 독립변 수 

. 선형결합(선형조합) : 벡터에 상수를 곱해주고 그것들을 더해서 이루어지는 새로운 벡터들. 즉, 통계에서는 두 개 이상의 변수에 상수를 곱하고 그것을 더해서 만들어지는 새로운 변수. 

. 다중공선성 : 두 변수씩 쌍을 지으면, 다중공선성이 발생하지 않는 데, 변수의 선형결합들 사이에는 다중공선성이 발생하는 것. 

 

. 다중공선성 확인할 때 분산팽창지수 VIF. 10> 다중공선성이 발생했다고 확인. 먼저 R2(제곱)을 계산함. 한 변수와 나머지 변수들과의 회귀분석을 돌리면 나오는 값. 한 변수가 나머지 선형결합의 변수들과 상관이 높은 지 알 수 있음. R2 > 0.9

 

이를 변형하면 VIF. 

 

. 구조방정식에서 확인을 안하는 데 그 이유는 회귀분석은 추정 때 최소제곱방법을 쓰고, 다중공선성에 민감하지 않아서 결과가 나옴. 그래서 문제가 가려질 수 있기에 확인을 미리 해야함. 그런데 구조방정식은 최대우도방법을 쓰고 다중공선성에 아주 민감. 그래서 문제가 됨. 그래서 미리 확인을 안하기도 함. 

 


신뢰도

.검사/척도를 이용해서 수집한 값이 신뢰도를 확보하지 못하면, 분석이 의미가 없는 것. 

. 어떤 점수들이 무작위적인 측정오차로부터 얼마나 자유로운지의 정도. 일관적인가의 문제. 오차 때문에 발생한 분산의 비율이 30%라면, 신뢰도는 100-30%인 70%

. 진점수 이론(TRUE SCORE THEORY) 

관찰점수 = 진점수 + 무선 오차

진점수는 정확히 모름. 진짜 우울 정도를 영원히 모를 것. 우리는 관찰 점수를 아는 것. 

그래서 신뢰도를 계산하는 것은 이론으로만 존재하기에, 신뢰도를 추정하는 대안이 개발됨. 1) 평행검사 2) 검사 재검사 3) 반분 4) 내적일치도 방법 등

 

1) 평행검사 2) 검사 재검사는 좋은 방법이지만 실용적이지 않고

3) 반분의 경우, 문항의 수가 작아지니까 신뢰도 값의 과소 추정이 됨. 어떻게 나누느냐의 문제도 있음.  

4) 가장 많이 사용하는 Cronbach's 알파. 반분신뢰도의 장점을 사용하면서 문제를 보완. 0.7 이상이면 good. 

Kline(2000), Numally(1978) 

동일한 문항 개수를 지닌 모든 가능한 조합으로 만들수 있는 반분신뢰도의 평균값을 계산 해줌.  

(주의) 일차원성을 가정한 상태에서 그 정도를 측정하는 거지, 일차원적인지 아닌지 (yes or no)의 측정 지수가 아님. 그러니, 1의 값에 가까울 수록, 여러개의 개별문항이 하나의 공통된 차원을 설명하고 있다 (X)는 표현은 틀림.

1의 값에 가까울 수록, 여러개의 개별문항의 신뢰도 정도가 높다? 

 

(주의)

검사가 신뢰롭다 X. 신뢰도가 있다는 것은 문항들이 일관성이 있게 #를 측정하고 있다. 점수가 신뢰로운 것임. 검사의 점수가 신뢰롭다고 하는 것이 맞음. 

. 예. 중학생 상대로 검사를 만들었음. 중학생을 위해 개발된 척도를 노인들에게 시행했을 때 검사 점수가 신뢰롭지 않음. 그래서 검사자체가 신뢰롭다는 것이 아님. 

 

결측치

종속변수에 미싱/결측이 일어났을 때에 한함. 독립변수의 결측이라는 건, 또 다른 문제임. 일반적으로는 케이스를 삭제하게 됨. 

. 완전 무작위 결측 : 거의 아무 문제 없음. 종속변수에 발생한 결측치들이 독립변수의 그 무엇과도 상관이 없음. 

. 무작위 결측 : 가장 일반적으로 가정하는 것. 종속변수의 성질때문에 발생한 결측치는 아니지만, 독립변수의 성질때문에 발생한 것 (예: 수입이 나이, 교육수준에 의해 결측치가 발생). 거의 문제가 없는 방법.

- 위 두가지는 기존에 사용하는 분석방법이 이미 문제를 해결하는 방법으로 setting되어있기때문에 연구자/분석자가 따로 해야할 건 거의 없다고 봐도 무방. 분석방법은 FIML임.

 

. 작위결측 : missing not at random. 이런 상황이 발생하면 안됨. 종속변수에 발생한 결측치가 종속변수의 값때문에 생기는 것. 해결할 수 있는 방법은 해결모형이 있는데, 어려운 내용의 미싱처리방법이 있음. (해당 수업에서 다룰 수 없음). 나의 데이터가 작위결측이 있지 않도록 모으는 게 최선일 수 있음. 교재 56pg 읽어보기. 

 

결측치 처리방법

1. 일률적 삭제 : 하나라도 미싱이 있다면 삭제. 자료의 손실은 있지만, 편향되지 않은 추정치. 단, 살아남는 케이스가 별로 없을 수도 있음. 미싱이 별로 없거나, 케이스가 엄청 많을 때 사용. 

2. 쌍별 삭제 : 두개씩 쌍지어서 미싱이 없는 애들끼리 묶는 거. 1에 비해 더 많은 사례를 이용할 수 있음 (살아남는 케이스가 더 생기니까). 단, 공분산마다 다른 표본 크기임. 왜? 어떤 쌍을 묶느냐에 따라 n수가 달라지니까. spss에서 분석하면 기본 디폴트임. 모든 correlation마다 샘플사이즈가 다를 수 있음. 이건 SEM을 이용못함. 왜냐면 샘플사이즈가 뭔지 애매하니까. 

3. 결측대체 : 미싱된 것을 채워넣음. 

- 단일대체 : 평균(해당변수의 평균으로 미싱된 부분을 채워넣는 것) /회귀분석모형/em알고리즘

- 다중대체 : 수업 시 다루지 않을 것.

4. 완전정보최대우도 FIML : 모든 사례마다 로그우도함수 계산 > 이를 더하여 최종적인 로그우도함수로 사용. RAW 데이터로 추정하는 것. 현대 SEM에서 사용함. 

VS 제한정보 최대우도도있음 : 요약된 데이터(공분산데이터)로 모형 추정 

 

. 결론, 결측치가 있을 때 다중대체, FIML을 사용. 

- FIML 은 결측치가 없어도 사용할 수 있는데, 빛을 발하는 순간이 결측치가 있을 때임. 둘 중에 더 좋은 방법은 FIML이 좋음. 종속변수에 미싱이 발생했을 때만. 독립변수에 미싱이 발생했을 땐 다중대체. 

 

. 그래서, 연구자는 작위결측 MNAR이 발생하지 않도록 자료수집이 먼저. 

그 후, FIML을 사용하는 것이 SEM의 표준관행.


통계기초

. 표집 : 모집단으로부터 하나의 표본을 추출하는 표집의 과정

모집 > 표집의 과정을 거쳐서 > 표본을 뽑음. 

. 기술통계 : X바는 4야. / 추론통계 : X바가 4인거 보니까 뮤도 4일 확률이 아주 높아. 표본의 결과를 가지고, 모집단에 대해 결론을 내리는 것. 

. 우리가 많이 하는 것 : 뮤가 4인지 아닌지 테스트할게 (Z, T 테스트 등) 

- X바, X바의 SE (표준오차). SE는 시그마 나누기 루트 앤. : Z검정

- 시그마 모르면, S로 대체함. : T검정

 

. 표준오차가 X바의 표준오차. 추정치의 표준편차. 표준편차를 계산하려면 여러개의 값이 필요. 그래서 X바 값을 여러개 가지기 위해 표집이론 속에서 구하는 것.

 

. 표집이론 : 모집단으로부터 무한대의 표본을 추출. 표본평균의 분포를 알아내기 위한 이론적인 표집과정. 

- 표본크기 n = sample size 커지면 커질 수록 x바의 분포가 정규분포를 따르게 됨.

- 표본 갯수, 표본 수 number of samples : 무한대 

(주의) 두 가지는 다른 개념임. 표본크기 =/ 표본 갯수, 표본 수

 

최대우도 추정

. 확률변수 또는 변수의 결합밀도함수가 자료의 발생확률 인 것으로 가정. 

주어진 모수(떼라, 구하고자하는 모수) 상태에서 자료의 발생확률을 극대화하는 값을 구하는 게 최대우도 추정. 

= 모수 떼라가 어떤 값일 때 가장 그럴 듯한 데이터이다 = 자료와 연구자의 모형이 주어진 상태에서 가장 그럴듯한 모수를 찾는 것.

- 떼라의 우도함수가 계산하기 힘들기때문에 (어렵다는 것이 아닌) 로그를 취해서 로그우도함수를 이용하게 됨 

- 로그를 취하면, 무조건 negative 값. 

 

. 이 과정에서 부산물로 계산할 수 있는 게 fisher의 정보함수. (information function)

- 관찰변수가 모수에 대하여 얼만큼의 정보를 가지고있느냐에 대한 수량적 표시. 

- 정보함수를 이용하여 추정치의 분산을 구할 수 있음.  

모수가 하나가 아니니까 정보메트릭스를 사용하게 됨. 

 

최대우도추정에서 추정치의 분산을 구하게 되고, 거기에 루트를 씌워서 추정치의 표준오차를 구할 수 있게 됨. 


(기초통계)

Z를 제곱하면, 카이스퀘어 분포를 따름.

 

(주의)

- 검사가 신뢰롭다 X. 신뢰도가 있다는 것은 문항들이 일관성이 있게 #를 측정하고 있다. 점수가 신뢰로운 것임. 검사의 점수가 신뢰롭다고 하는 것이 맞음. 

- 두 가지는 다른 개념임. 표본크기 =/ 표본 갯수, 표본 수. 표본크기 Sample size 가 연구대상의 number을 의미하는 것. 표본수 (X)

 

(실전)

- 신뢰도를 확인하기 위해 가장 많이 사용하는 Cronbach's 알파. 반분신뢰도의 장점을 사용하면서 문제를 보완. 0.7 이상이면 good. Kline(2000), Numally(1978) 

(주의) 일차원성을 가정한 상태에서 그 정도를 측정하는 거지, 일차원적인지 아닌지 (yes or no)의 측정 지수가 아님. 그러니, 1의 값에 가까울 수록, 여러개의 개별문항이 하나의 공통된 차원을 설명하고 있다 (X)는 표현은 틀림.

1의 값에 가까울 수록, 여러개의 개별문항의 신뢰도 정도가 높다? 

- SEM에서는 다중공선성 확인을 미리 하지 않는 것이 일반적


자료의 출처는 김수영 교수님의 강의입니다.

책 : 구조방정식 모형의 기본과 확장. 서울 : 학지사.

 

내용이 저작권 등 문제가 된다면 연락주시면 삭제하겠습니다.


 

 

반응형