확률과 데이터 :: 통계의 기본 개념 - mindscale
확률과 데이터
퍼센트(percent)
- per: 나누기
- cent: 100
- 100분의 얼마를 뜻함
- 백발백중
확률
- 확률: 전체 중의 비율
- 모집단: 전체의 경우의 수, 사례
- 표본(sample): 모집단의 일부
- 모집단을 항상 관찰할 수 있는 것은 아님
- 예) 이 강의를 듣고 통계를 잘 이해하게 될 확률을 구한다
- 모집단: 이 강의를 들은 사람 전체
- 확률: 통계를 잘 이해하게 된 사람들의 비율
- 표본: 지금까지 이 강의를 들은 사람
- 만약 모집단에서 반은 강의를 잘 이해하지 못했고 반은 잘 이해했는데 표본 집단이 통계에 감이 있는 사람들이어서 대부분의 사람들이 잘 이해했다고 판단할 수도 있음
- 즉 샘플을 어떻게 뽑느냐에 따라 결과가 달라질 수 있음
- 모집단의 성격이 달라지면 확률에 따라 샘플도 달라짐
- 모집단이 반반이라면 샘플이 강의를 잘 이해한 사람, 잘 이해하지 못한 사람 섞여서 나옴
- 그러나 모집단이 한쪽으로 극단적으로 치우쳤다면 샘플 또한 극단적으로 나올 확률이 높음
- 확률에서부터 데이터가 나옴 -> 데이터를 가지고 확률 찾기
- 우리가 가진 데이터는 대부분 모집단이 아닌 샘플임
- 이 샘플 데이터를 가지고 모집단의 확률 모집단의 성격을 알아내는 것이 목적
추정
- 데이터에서 확률을 얻어내는 것
- 왜 확률을 추정하나?
- 우리가 가진 데이터는 샘플 즉, 일부분이기 때문에 새로운 데이터가 생길 수 있음
- 또는 미래의 데이터가 있을 수 있음
- 확률에서부터 데이터가 나오기 때문에 확률을 알고 있으면 미래의 데이터를 짐작해볼 수 있음
통계의 목적
- 현재의 데이터 -> 확률 추정 -> 미래의 데이터 예측
처음으로