2021. 8. 23. 16:56ㆍ통계
안녕하세요 꿍꾸룽입니다.
연구를 하면서, 통계의 중요성이 수면위로 다시 떠올라서, ㅎㅎ 복습하려고 구조방정식 공부 중이에요.
절편의 추가(mplus 디폴트)
. 전통적 sem을 사용할 일이 크게 없음. 공부를 위해 사용한것. 왜? 우리는 raw 데이터를 보통 가지고있으니까.
. 데이타가 있다면, 요약해서 사용함 (1) 평균벡터 (2) 공분산행렬.
- 전통적SEM에서는 평균벡터 사용하지 않고 이론을 발전시킴. 그래서 MODEL = nomeanstructure; 을 쓰게되면, 전통적 sem을 사용하여 분석하게 되는 것임 (변수들의 평균구조는 사용하지 않겠다). information = expected;가 필수로 같이 들어가야 함. 아니면 오류가 남.
ANALYSIS : MODEL = nomeanstructure; information = expected;
. (전통적 mplus가 아닌) Mplus에서, 경로모형에서는 평균구조를 사용하는 것이 디폴트.
- 전통적 SEM에서는 : 외생변수의 평균 추정. 내생변수의 절편을 추정. / 외생변수의 분산 및 공분산
- 현대 SEM에서는 : 외생변수의 평균 추정 X / 외생변수의 분산 및 공분산 X
(왜?) 공분산 행렬 안에 있으니까 추정을 안함. 자료를 이용할 때 평균벡터를 이용하니까, 평균벡터가 자료에 있는데 또 추정하지 않음.
- 추정하고 싶으면, MODEL 커멘드에 써주어야 함.
+ 공통 : 내생변수의 설명오차의 분산은 추정함.
. 추정을 덜 했으면 자유도가 바뀌어야 하는 데 바뀌지 않음.
DF = i - t.
그런데, 현대sem에서는 추정하기위한 정보도 i에서 제거함. 쓸모없는 정보라고 판단함. 그래서 전통적sem과 같은 df가 계산되어 나옴.
구조방정식 모형에서는 전통 sem을 따르기에, 전통sem의 원리를 배울 필요가 있음.
경로모형의 확장. 부스트래핑
.매개효과를 추정할 때 Delta 방법(Sobel).
.부스트래핑 시대로 가고 있기에, 부스트래핑 활용이 필요. 특히 매개효과에서는 더 중요.
- 연구자가 수집한 표본을 거짓(pseudo) 모집단으로 가정하고, 복원추출로 많은 개수의 표본을 추출하는 방법
- 실질적(경험적)인 표집과정. 개별적인 표본과 추정치의 실제를 밝힐 수 있음.
<>sample 이론에서는 가상의 표집이었음. 이론적인 표집의 과정.
. 부스트래핑은 실제 표집을 함. 10,000번의 표집을 실시하라고 하면, 10,000번.
- 일반적으로 1,000번은 넘어야 신뢰할 수 있다고 밝혀짐.
- 이렇게 하여 얻은 X바의 분포가 유한한 10,000개 X바로 이루어진 표집분포가 있음.
- 정규분포를 따른다고 단정적으로 특정하기 어려움. "어떠한" 분포를 따르게 됨.
. 매개효과 추정을 위한 방법.
- 델타방법은 정규분포를 따른다고 가정하지만 정규분포를 따르지 않는 것이 단점.
- 부스트래핑은 비모수적으로 정해지지 않은 분포를 찾아내어, 표준오차를 계산, 모수에 대한 검정을 실시.
- 간접효과(매개효과)들을 복원추출
> 10,000개의 간접효과 평균. 10,000개의 간접효과의 표준오차.
. 신뢰구간(CIㅎ이용)
- 10,000개의 간접효과를 작은 > 큰 숫자까지 나열 후 상한과 상한을 찾아내고
- 95%의 신뢰구간을 구하고 싶다고 한다면, 아래/위 2.5%. 그 안의 값의 거리가 간접효과의 신뢰구간이 되는 것.
- 95% 신뢰구간이 0을 포함하면, H0 기각 실패 : 효과가 없음 (H0: 매개효과 = 0)
. 편향조정부스트래핑.
- 간접효과의 기대값 = 모수가 안됨. 불편향추정치가 아닌 것.
- 그래서 이를 조정하는 편향 조정하는 게 있음. Output 커맨드에 cinterval(bcbootstrap) 추가.
- 최근, 편향조정을 쓰지 않는 방법이 더 정확하다고 논문이 나오고 있음.
. 그냥 bootstrap을 쓰는 방향임. Output 커멘드 : cinterval(bootstrap)
. 부스트래핑 신뢰구간의 비대칭성. : 기준인 X바를 중심으로 +- 날개가 같다 와 다름. 분포가 다르기 때문. 날개가 다를 수 있음.
. 신텍스
- nomeanstructure이랑 bootstrap은 같이 안씀. error
- Analysis : Bootstrap = 10000;
- Output : CINTERVAL(Bootsrap);
*(주의) 천 단위 구별하는 , 쓰면 안됨. 신텍스에서 ,를 기준으로 끊어서 받아들임.
(실전) 부스트래핑 시 모수의 검정을 추정치/표준오차의 비례(ratio)로 하여 z검정(가정 : 정규분포를 따름)은 하지 않는게. 왜? 정규분포를 따르지 않아서 부스트래핑을 하는 거니까. SO 결론은, 신뢰구간을 이용하여 검정하는 게 추천됨
.매개효과 추정
- 간접효과 추정이 중요
- 직접효과는 이론적으로 부스트래핑으로 하나 안하나 문제가 없음. 하나의 효과는 정규분포를 따름. 그래서 일반적으로 사용하는 방식으로 해도됨. 부스트래핑 방식으로 볼꺼면 CI로 하고.
. 소벨의 방법보다 부스트래핑의 검정력이 더 높음.
- 영가설을 기각할 확률이 더 높음. = 매개효과가 있다.
모형의 비교
. 모형의 수정 1) 모수추가 (더 복잡) 2) 모수제거 (더 단순)
- Model parsimony 모형 간명성.
- 모형의 수정을 했을 때 어떤 모형이 더 나은가 통계적으로 비교해주는 방법 : 카이제곱 차이 검정
. 카이제곱 차이 검정의 전제
위계적으로 내재된 모형의 비교
. 비교하는 두개의 모형이 서로 위계적으로 내재되어있어야 함.
. 원래 모형에서 모수를 제거'만'하거나 추가'만' 한 모형.
위계적으로 내재되지 않은 모형의 비교
. 경로 -1, 공분산 +1 > 모수 하나 제거 + 모수 하나 추가 = 내재되지 않음.
카이스퀘어 차이검정의 원리
. 모형 a에서 모형b로 가는 데 (모수를 한개 추가했을 때=자유도를 하나 희생한 만큼) 충분히 카이스퀘어 값이 감소하였는냐의 정도를 평가.
. 카이스퀘어 검정의 통계적 절차.
가설 : 영가설 : 더 단순한 모형을 선택한다.
계산하는 엑셀 활용. (다운!!)
- p가 a(알파)보다 작으면, reject Ho.
. 완전판별 모형으로의 수정은 없음 : 왜? 모델핏을 논의할 수가 없음. 안하는 게 일반적.
- 어쩔 수 없이 포화모형인 게 있음.
- 그런데 원래 내 모형이 포화모형이 아닌데, 모형의 수정을 통해 포화모형으로 가는 건 하지 않음.
. 차이검정과 모형수정짓(MI)
- 통계적으로 자유도가 1인 카이스퀘어 차이검정이 MI.
위계적으로 내재되지 않은 모형의 비교
. 카이스퀘어 차이 검정을 할 수가 없음.
. 정보준거 (INFORMATION CRITERIA)
- AIC & BIC : 더 낮은 모형을 선택하는 게 일반적인 방법.
- 얼만큼 차이가 나야하나? 가이드라인. 샘플사이즈와 관련이 있음. 샘플사이즈가 커지면 IC값도 커짐. 가이드라인이 딱히 없음.
- BIC가 더 잘 작동하는 것으로 어느정도(다수)의 사람들이 이야기 함.
- 결정은 연구자의 실질적이고 이론적인 배경지식에 기대어 결정해야 할 일
. 주의 : 비교할 수 있는 모형의 비교
- 비교할 수 있는 모형끼리 비교해라!
- 표본의 크기, 변수의 개수.
- 동일한 자료를 사용한 모형의 비교.
(실전)
. 소벨의 방법보다 부스트래핑의 검정력이 더 높음.
- 영가설을 기각할 확률이 더 높음. = 매개효과가 있다.
자료의 출처는 김수영 교수님의 강의입니다.
책 : 구조방정식 모형의 기본과 확장. 서울 : 학지사.
내용이 저작권 등 문제가 된다면, 연락바랍니다. 삭제하겠습니다.
다들 건강한 하루 보내세요~~ :-)

'통계' 카테고리의 다른 글
[꿍꾸룽] LGM분석 전 자료정리 + 결측치처리 (0) | 2021.09.02 |
---|---|
[꿍꾸룽] 잠재성장모형 기본 내용 (0) | 2021.09.01 |
[꿍꾸룽] 구조방정식 복습 6 (0) | 2021.08.15 |
[꿍꾸룽] 구조방정식 복습 5 (0) | 2021.08.13 |
[꿍꾸룽] 구조방정식 복습 4 (0) | 2021.08.12 |