[통계] 카이제곱 검정 :: 마인드스케일

카이제곱 분포

카이제곱 분포: 표준정규분포를 따르는 $Z_i$ 가 있을 때, 이들의 제곱합 $Q = \sum_{i=1}^k Z_i^2$ 는 카이제곱 분포를 따름

주로 비율을 비교할 때 많이 사용

카이제곱 적합도 검정

표본에서 얻은 분포가 귀무가설에서 가정하는 모집단 분포와 잘 맞는지(goodness-of-fit)를 알아보기 위해 사용

귀무가설: 모집단에서 비율은 기대빈도의 비율과 같다

!!! example 예: 브랜드 선호도

50명을 대상으로 설문했을 때, A브랜드를 선호하는 고객 은 31명(62%), B브랜드를 선호하는 고객은 19명(38%) → A 브랜드에 대한 선호도가 통계적으로 유의하게 높은가?

100명을 대상으로 설문했을 때, A브랜드를 선호하는 고객 은 62명(62%), B브랜드를 선호하는 고객은 38명(38%) → A 브랜드에 대한 선호도가 통계적으로 유의하게 높은가?

관찰된 빈도(31:19)와 기대되는 빈도(25:25)를 입력하여 가설검정을 한다

from scipy.stats import chisquare
chisquare([31, 19], [25, 25])

!!! question 한 연구자가 n = 90명으로부터 검사 점수를 얻었다. 검사 점수를 표준점수(z점수)로 변환시켰을 때, 그 분포가 아래와 같았다. 이에 기반하여 검사 점수가 정규 분포를 따른다고 할 수 있을까?

|범위 | z < -1.5 | -1.5 < z < -0.5 | -0.5 < z < 0.5 | 0.5 < z < 1.5 | z > 1.5 | | --------------- | --------------: | -------------: | ------------: | ------: | -------: | |관찰빈도 | 8 | 19 | 31 | 23 | 9 | |정규분포에서 비율 | 6.68% | 24.17% | 38.30% | 24.17% | 6.68% |

교차표

분할표, 피봇표 등 다양한 이름

hr.pivot_table(index='marriage', columns='department', aggfunc='size')

!!! question 안전도 데이터에서 doors와 aspiration의 교차표를 만들어보세요. 가장 많은 사례는 무엇입니까?

four - std
four - turbo
two - std
two - turbo

카이제곱 독립성 검정

expected, observed, stats = pg.chi2_independence(
	x='marriage', y='department', data=hr)
stats

!!! question 안전도 데이터에서 doors와 aspiration의 관계를 카이제곱 검정으로 분석해보세요. 어떤 결론을 내릴 수 있습니까?

doors와 aspiration 사이에는 통계적으로 유의한 관계가 있다
doors와 aspiration 사이에는 통계적으로 유의한 관계가 없다

대응표본의 비율 비교

from statsmodels.stats.contingency_tables import mcnemar
table = [[40,10],[20,30]]
m = mcnemar(table, exact=False, correction=False)