신뢰구간 :: 통계 - mindscale
Skip to content

신뢰구간

추정

통계에서 우리가 관심이 있는 것은 모집단입니다. 그런데 우리가 대부분 관찰하는 것은 그 부분집합인 표본이죠. 그러면 어떻게 모집단에 대해 알 수 있는가? 표본을 가지고 추정(estimation)을 해야겠죠.

추정에는 크게 두 가지가 있는데요. 하나는 점 추정이고 또 하나는 구간 추정입니다.

점 추정(point estimation)은 간단히 말해서 점으로 하나의 값을 찍는 겁니다. 예를 들면 만족도를 1점에서 5점으로 조사를 해보니까, 모집단에서의 고객 만족도 평균은 3.4일 것이다. 이렇게 추정을 했다면, 점 추정입니다.

구간 추정(interval estimation)은 구간으로 추정을 하는 겁니다. 모집단에서 고객 만족도 평균은 3~4점 정도 될 것이다. 이러면 구간 추정입니다.

표집 오차

이런 추정은 정확할 수가 없습니다. 왜냐하면 우리는 모집단이 아니라 표본을 관찰하는데, 이 표본이 모집단을 정확하게 반영하는 것이 아니기 때문입니다. 우리가 표본을 사용하는데서 발생하는 오차를 표집 오차(sampling error)라고 합니다. 예를 들어 여섯면이 나올 확률이 모두 똑같은 주사위가 있다고 해봅시다. 그러면 이 주사위를 30번 던지면, 1이 5번, 2가 5번, 3이 5번 ... 이렇게 고르게 나오나요? 그렇지 않죠. 주사위를 무수히 많이 던지면 모를까 적은 수를 던지면 30번 중에 어떤 눈이 몇 번 나올지는 그때마다 다릅니다. 이런 것이 표집 오차입니다.

Question

측정을 정확하게 한다면 표집 오차는 발생하지 않을 것이다.

  • 아니오

Question

표본에서 발생된 표집 오차의 크기를 정확히 알 수 있다

  • 아니오

신뢰구간

신뢰구간(confidence interval)은 구간 추정의 한 가지 방법입니다. 통계량 ± 오차범위 이런 식으로 모수를 추정합니다. 이름에 '신뢰'라는 말이 들어가는 데, 별 의미는 없습니다. 그냥 여러 가지 구간 추정 방법 중에 널리 쓰이는 한 가지 방법입니다.

Question

신뢰구간은

  • 모수 ± 오차범위
  • 통계량 ± 오차범위
  • 모수 ± 통계량

신뢰수준

오차범위는 좁게 잡을 수도 있고, 넓게 잡을 수도 있습니다. 오차범위를 넉넉하게 넓게 잡으면, 신뢰구간 안에 모수가 들어갈 가능성이 커질 것입니다. 반대로 오차범위를 좁게 잡으면, 모수가 들어갈 가능성이 적겠죠. 이런 가능성을 수치로 표시한 것을 신뢰수준(confidence level)이라고 합니다.

'오차'라는 말과 '신뢰'라는 말은 뜻이 서로 반대기 때문에 조금 이상하게 느껴지실 수 있는데, 여기서 신뢰는 측정치가 믿을 수 있다는 것이 아니고, 우리가 추정한 신뢰구간 안에 모수가 들어가느냐 마느냐를 묻는 것입니다. 오차범위를 넓게 잡으면, 그 안에 모수가 들어갈 가능성이 커지기 때문에 신뢰수준이 높아집니다.

신뢰수준은 보통 퍼센트로 표현합니다. 신뢰수준 95% 이런 식입니다. 이것은 무엇의 비율일까요? 이론적으로 신뢰수준은 "동일한 방법으로 신뢰구간을 추정했을 때, 이론적으로 가능한 표본들 중에 신뢰구간이 모수를 포함하는 표본들의 비율"을 말합니다. 예를 들어 동일한 방법으로 여론조사를 했을 때, 여론조사를 100번 하면 신뢰수준 95%의 경우 95번의 여론조사는 신뢰구간 안에 실제 여론이 포함된다는 것입니다.

물론 이 비율은 일정한 이론적 가정 아래서 계산된 비율입니다. 그 이론적 가정이 정확히 맞는다는 보장이 없기 때문에, 이 비율도 딱 맞으리라고 보장하기는 어렵습니다. 특히 표본이 작을 수록 더 그렇습니다. 대체로 그 정도라고 생각하시면 될 것 같습니다. 어쨌든 신뢰수준 95%인 경우보다 신뢰수준 99%인 경우가 신뢰구간이 더 넓고, 따라서 모수가 신뢰구간 안에 포함될 확률도 더 높기는 높습니다.

Question

신뢰수준이 높을 수록 신뢰구간은

  • 넓다
  • 같다
  • 좁다
  • 관련없음

그러면 신뢰수준을 무한정 높이면 어떨까요? 신뢰수준을 높이면 신뢰구간이 넓어집니다. 그 말은 신뢰구간이 구체적이지 않다는 것이죠. 누군가 올해 주식 가격이 어떻게 되겠냐고 물어봤다고 해봅시다. 0에서 무한대 사이라고 하면 맞기는 맞습니다. 주가가 얼마든지 그 안에 들어가겠죠. 하지만 그런 대답은 주식 투자에 아무 도움이 안됩니다. 100% 맞지만 구체적인 정보를 전달하지 못합니다. 그래서 신뢰구간을 정할 때는 어느 정도 극단적인 경우는 제외하고 정하게 됩니다. 그래서 보통은 신뢰수준은 95%나 99% 정도로 정합니다.

표본의 크기와 신뢰구간

신뢰구간은 신뢰수준에 따라서도 달라지지만, 표본의 크기에 따라서도 달라집니다. 신뢰구간은 통계량에 따라 달라지는데, 표본이 작으면 표본마다 통계량이 들쭉날쭉하고, 모수에서 멀리 떨어진 값이 나올 수 있습니다. 따라서 표본이 작을 때는 오차범위를 넉넉하게 크게 잡아야 신뢰수준을 맞출 수 있습니다.

표본이 커지면 통계량이 대체로 일정하고 모수와 통계량이 비슷합니다. 오차범위를 작게 잡아도 신뢰수준을 맞출 수 있습니다. 따라서 같은 신뢰수준에서도 표본의 크기가 크면 오차범위가 작고, 표본이 작으면 오차범위가 커지게 됩니다.

Question

표본이 클수록 신뢰구간은

  • 넓다
  • 같다
  • 좁다
  • 관련없음

Question

신뢰구간에 대한 설명으로 잘못된 것은?

  • 신뢰구간은 통계량±오차범위이다
  • 신뢰구간이 넓을 수록 신뢰수준이 높다
  • 같은 신뢰수준이면 표본이 클 수록 신뢰구간이 좁다
  • 신뢰구간이 넓을 수록 모수에 대한 정보가 구체적이다

평균의 신뢰구간

모든 모수에는 각각의 신뢰구간이 있습니다. 평균의 신뢰구간, 중간값의 신뢰구간, 분산의 신뢰구간 등등. 이중에서 가장 흔히 구하는 것은 평균의 신뢰구간입니다. 여기에는 두 가지 이유가 있는데요, 첫째로 우리가 보통 평균을 중시합니다. 둘째로, 평균의 신뢰구간이 구하기가 쉽습니다.

통계학에는 중심극한정리(central limit theorem)라는 수학적 정리가 있습니다. 모집단의 분포가 무엇이든지, 평균의 표집오차는 일정한 분포를 따른다는 것입니다. 모집단의 분포는 이렇게 생겼을 수도 있고, 저렇게 생겼을 수도 있습니다. 그런데 거기서 표본을 뽑아 평균을 구하면, 대체로 모집단의 평균 근처에 있게 됩니다. 물론 표본이 작으면 좀 멀리서도 나오고, 표본이 크면 더 가까이 나올 것입니다. 이런 형태를 가지는 t-분포라는 확률 분포가 있습니다. 이 분포를 이용하면 평균의 신뢰구간은 쉽게 구할 수가 있습니다.

중고차 데이터에서 price의 평균의 95% 신뢰구간을 구해봅시다.

import pingouin as pg #(1)!
pg.ttest(df.price, 0, confidence=0.95)
  1. pingouin 모듈이 없으면 pip install pingouin으로 설치한다.
t.test(df$price, conf.level=.95)

Question

HR 데이터를 다운로드 받아 overtime의 95% 신뢰구간과 99% 신뢰구간을 구해보세요.