2021. 8. 13. 22:19ㆍ통계
안녕하세요 꿍꾸룽입니다.
연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요.
mplus이용하기
모형 판별 결정 관련
t 규칙 ( t rule)
. 필요조건 (이거 하나만으로 충분하지 않음) : 추정하고자 하는 모수 개수 t, 자료의 공분산 행렬이 가지고 있는 독립적 정보의 개수 i 에 의해 제한 받음.
이는 자유도 : df = i - t . df 는 >= 0 .
. 모형 추정 가능하기 위해서는 자유도 0이거나 (완전판별), 양수 (과대판별) 이어야 함.
null b 규칙(베타)
. 충분조건 : 내생변수끼리의 회귀계수 (경로)가 존재하지 않음. but 만족 시키지 못한다고해서 판별이 안되는 건 아님. 충분조건이니까.
재귀규칙
. 재귀모형은 언제나 추정 가능한 충분조건. 화살표의 방향이 한쪽으로만 흐르면,
order condition
. 필요조건
우리에게 필요한것은 필요&충분조건
Rank Condition
. C 라는 행렬을 만들어서 몇가지 확인.
결론. 1번인 t 규칙이 아주 중요하고, 경로모형 설정할 때 보통 재귀모형을 설정.
. 모형판별을 해야하는 시기 > 설정, 판별, 추정. 판별하고 data를 모음.
원칙적인 판별이고, 이걸 통과했다고 해서 판별이 된다는 건 아님. 데이터 문제 등 고려할 게 많기 때문.
. 현실적으로 많은 연구자들이 모형의 추정과정에서 모형 추정 가능성을 확인.
i 판별이 안되는 경우 프로그램 경고 메세지 : 거의 없음. 실수가 아닌 이상.
판별이 되는 데, 추정의 과정에서 오류가 생김 improper solution
ii. 모수 추정치 몇개의 표준오차가 매우 크다면 판별의심
iii. 분산 추정치가 음수 heywood case
. 모형이 판별되지 않거나, 추정과정에서 문제가 생기면 : 모형을 단순하게 (자유도가 크게)
- 관찰변수 추가
- 모수의 일부를 고정하거나 제약.
모형의 추정
. 추정의 흐름
1. 표본이 공분산 행렬 : 데이타 메트릭스 S
2. 모형의 설정과 추정 : MODEL
- 데이터와 모델이 있다.
3. 모수의 추정치들.
4. 추정된 공분산 행렬. 모형함의(모형에 기반한) 공분산 행렬 : 시그마헷. 추정치에 기반된 공분산 행렬.
. S와 시그마헷은 일반적으로 차이가 있음.
- 데이타는 하나인데 모형은 여러개가 있을 수 있고, 추정된 공분산 행렬도 여러개가 있을 수 있음.
- 모형이 데이타를 잘 반영하면, 시그마헷과 S의 차이가 적어짐. 합치.
- 두 공분산 행렬(데이터 공분산행렬과 추정된 공분산행렬)의 차이가 잔차행렬. 이게 차이가 덜 날수록, 모형과 자료의 적합도가 좋다고 할 수 있음.
- 공분산이니까, 큰 값 작은 값 기준이 애매해서 표준화해서 확인. 최근엔 잔차행렬 해석을 안함.
최대우도(ML) 추정
. 가장 기본적이고 햇심적인 구조방정식 모형의 추정방법. ML
. 최대우도 추정의 합치함수.
- 추정을 위해서 식을 만족하는 추정치 값을 구하려고 하는 것. S = 시그마헷의 차이를 하나의 식으로 나타낸 것이 f(ml)
그러므로, 합치함수를 최소화 시키는 모수들을 구함.
- 합치함수에다가 - 붙이고 로그를 붙인 게 로그우도함수. 로그우도함수를 최대화하는 게 합치함수를 최소화하는 것과 같은 것.
- 현재는 최대우도의 방법으로 함.
구조방정식 모형의 추정방법인데, 최대우도를 추정한 다는 것은, 데이터와 추정된 공분산 행렬의 차이를 나타내는 식인 합치함수를 최소화시키는 모수를 구하는 것. 즉, 정리하면, 데이터와 모형의 적합도를 가장 잘 대변하는 모수를 구하는 것.
- 통계적인 준거를 만족시킬 때까지 계속해서 프로그램이 이루어지고 , 준거를 만족하여 반복적 과정이 멈추면, 추정과정이 수렴했다고 함.
- 제한정보 추정 (요약된 데이터. s 데이터) vs 완전정보추정(full 데이터)
- WLS(최소제곱추정)가 대표적 방법 / ML이 대표적 방법. 그렇다고 =은 아님.
(주의) 제한정보추정이 WLS가 아니라, 제한정보추정 중에도 ML이 있음.
최대우도 추정 결과의 검정
여러가지 특징을 가지고 있음.
1. 모형의 적합도 검정이 가능 (가능하지 않은 추정방법이 있음)
- 영가설 : 모형이 자료에 적합하다 (기각하지 않는 게 좋은 것)
- 검정통계량이 나오는 데, 카이스퀘어 분포를 따름.
2. 개별모수의 검정이 가능. z분포 혹은 t분포 를 따르게 됨.
. t분포 : 자유도가 무한대라면, z분포. 통계에서 크게 구분하지 않아도되는.
.최대우도 추정치의 특성 - 불편향, 일관적, 효율적. 장점. 점근적으로 만족함
. 불편향 : 즉, 샘플사이즈n이 무한대로 갈수록 만족. E(테라 헷) = 테라:모수. 즉 추정치의 기대값이 모수가 된다는 것.
. 일관적 : 테라 헷이 테라로 확률적으로 가까워진다.
. 효율적 : var(테라 헷)이 작다. 추정치의 분산이 작다. 표준오차가 작다 = 추정치가 precise라는 것.
최대우도 추정의 문제점
. heywood case : 분산 추정치가 음수. 반복과정에 의해서 이루어지다보니 일어나면 안되는 일이 일어나는 것.
. 비정치 행렬 : range 계산하는 방법 교재에 있음. 메트릭스에서 수리적으로 발생하면 안됨. covariance 행렬에서 correlation행렬을 만들어서 보았을 때 말이 안되는 숫자가 나왔을 때. NPD.
- 두가지 일이 발생하면 OUT PUT를 버려야함.
. 큰 표준오차 : 상대적인 것으로 판단하는 것, 다른 모수들의 표준오차들과 비교하여 보는 것. 다중공선성의 문제가 발생하면 이런 일이 생기게 됨. 어떻게 대처하는 지 앞으로 살펴볼 것.
. 부적절한 결과의 이유 : 잘못된 모형의 설정 등. 교재에 있음. 원인을 예측은 가능하지만 정확하게 알 수는 없음.
최소제곱 추정
1. 비가중 최소제곱 ULS 추정 : 요즘 잘 안씀.
- 잔차행렬의 요소의 제곱의 합을 최소화. S-시그마헷 행렬을 사용.
- 장점 : 불편향성, 일관성, 변수의 분포에 대한 가정이 없음 즉, 정규성에 대한 가정이 없음, 정규성이 깨졌을 때 사용할 수 있는 방법. 등
- 단점 : 모형적합도 검정이 적절치 않음. (추가 내용은 교재 확인)
2. 일반화 최소제곱 GLS
: 더 유명한 말은 WLS 라는 말임.
. WLS 가중 최소제곱 : ML이 가진 장점을 거의 가지고 있음.
- 정규분포를 따르는 연속형이 아닌 이분형, 다분형 및 변수를 사용하는 모형의 추정에 감정.
- 정규성이 깨지면, 추정방법을 바꾸는 것도 방법
. 베이지안 추정
- 정규성 가정이 없음. 최근의 관심 대상.
모형의 평가
. 구조방정식 모형의 전반적인 적합도를 살펴보는 가설 = 카이스퀘어 검정.
. 영가설 : 자료와 모형이 같다. (자료=모집단과 모형에 기반한 자료가 같다)
통계적 검정결과나 근사적인 적합도 지수 확인의 한계
. 완전판별 모형에는 적용할 수 없음.
. 전반적인 모형적합도와 개별적 모수 추정치의 결과는 서로 상승하지 않을 수 있음. 즉, 독립적임. 적합도가 좋다고 유의한 PATH가 있는 거랑 같은 게 아님. 유의하지 않은 게 TURE라는 것일 수도.
. 모형 적합도가 높고, 모수 추정치가 통계적 검정을 통과했다고 해도, 설정한 인과관계나 연구자의 모형이 의미있다는 것을 말해주지는 못함. 인과성은 자료에서 나오는 것.
. 모형적합도를 알려주는 단 하나의 검정방법, 적합도 지수가 존재하지 않음. 그래서 여러가지 방법을 통해서 확인함.
모형의 적합도 검정
. 유일한 통계적 검정 : 카이스퀘어를 따르는 분포에서 일방검정을 이용.
- 중심 카이스퀘어 분포. 비중심 카이스퀘어 분포 (df, 람다). 람다가 = 0일때 중심 카이스퀘어 분포.
(기초통계)
. 카이스퀘어 모수는 DF
. NOMAL 모수는 뮤와 시그마 제곱 (평균, 분산)
. T분포 자유도 모수
. F분포 모수는 2개, 자유도.
. 영가설 (자료와 모형이 같다)가 옳지 않다면 즉, 기각한다면 검정통계량은 모두 비중심 분포를 따르게 됨.
카이스퀘어 검정의 의미
. 교재 확인. 추후 다시 강의.
modelf fit information.
. chi - square test ~ : p-value가 5%보다 작은 값이라면 기각. 모형이 자료를 잘 반영하지 못한다는 것.
. 모형의 카이스퀘어 검정을 mplus로 하는 것을 예제로 보여줌. 강의 확인
- 다변량 통계학의 관습 : 내생변수나 종속변수를 먼저 쓰고 > 외생변수를 마지막. names are에서 적용.
- 모델 커멘드 설명해주심. 강의 및 교재 확인. (경로 지정 on, 변수 이름을 그래도 쓰면, 분산 추정. 내생변수의 분산 및 공분산, 상관을 추정하지 않음. with라고 하면 공분산 추정)
mplus의 평균과 분산을 추정하는 방식
[종속변수] : 평균 계산. 내생변수의 평균은 추정안함. 평균 또는 절편을 추정하는 것.
독립변수 : 외생변수의 분산.
종속변수 : 종속변수(내생변수)의 오차의 분산.
. 카이스퀘어의 한계점
- 과도하게 영가설을 기가하는 경향. 샘플사이즈n에 영향을 받기 때문.
- 이 외 교재 확인.
- kline(2011)
최대우도(ML) 추정
. 가장 기본적이고 햇심적인 구조방정식 모형의 추정방법. ML
모형의 평가
. 구조방정식 모형의 전반적인 적합도를 살펴보는 가설 = 카이스퀘어 검정.
. 영가설 : 자료와 모형이 같다. (자료=모집단과 모형에 기반한 자료가 같다)
(실전)
명령어(syntax) 설명 참고
구조방정식 복습 관련 내용 이전 포스팅
https://dream2run.tistory.com/213
[꿍꾸룽] 구조방정식 복습 1
안녕하세요 꿍꾸룽입니다. 연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. 제 식으로 정리할거라, 많이 축약되어있거나, 한 내용이 많이
dream2run.tistory.com
https://dream2run.tistory.com/215
[꿍꾸룽] 구조방정식 복습 2
안녕하세요 꿍꾸룽입니다. 연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. https://dream2run.tistory.com/213 [꿍꾸룽] 구조방정식 복습 1 안녕하
dream2run.tistory.com
https://dream2run.tistory.com/217
[꿍꾸룽] 구조방정식 복습 3
안녕하세요 꿍꾸룽입니다. 연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. 행렬과 벡터 .행렬은 숫자의 나열. 3X2는 3개의 행, 2개의 열. 6
dream2run.tistory.com
https://dream2run.tistory.com/218
[꿍꾸룽] 구조방정식 복습 4
안녕하세요 꿍꾸룽입니다. 연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요. mplus이용하기 자료파일 만들기 . text 파일의 형태로 따로 준비
dream2run.tistory.com
자료의 출처는 김수영 교수님의 강의입니다.
책 : 구조방정식 모형의 기본과 확장. 서울 : 학지사.
내용이 저작권 등 문제가 된다면, 연락바랍니다. 삭제하겠습니다.
다들 건강한 하루 보내세요~~ :-)

'통계' 카테고리의 다른 글
구조방정식 공부 중 7 (0) | 2021.08.23 |
---|---|
[꿍꾸룽] 구조방정식 복습 6 (0) | 2021.08.15 |
[꿍꾸룽] 구조방정식 복습 4 (0) | 2021.08.12 |
[꿍꾸룽] 구조방정식 복습 3 (0) | 2021.08.11 |
[꿍꾸룽] 표준편차, 표준오차 개념 정리 (0) | 2021.08.11 |