통계

기술통계학; 모집단, 표본집단, sampling, Z검정, t검정, F검정

경희대생 2023. 2. 4. 07:15

통계학

사회 현상통계에 의하여 관찰 및 연구하는 학문 

 

모집단

관측 대상이 되는 전체 집단 

 

표본 

모집단에서 일부만 추출된 자료들의 집합

 

모평균

모집단의 평균, 기댓값 

 

표본평균

표본의 평균, 값이 여러개 -> 확률변수 

 

향후 표본평균들의 값들을 확률변수로 보고, 표본평균 확률변수의 분포를 통해 분석 

 

모분산 

모집단의 분산

 

표본분산

표본집단의 분산

 


통계조사방법

 

대부분의 모집단 분포는 정확한 중싱믜 위치, 산포도 등을 알수 없음

 

모집단 분포를 알기 위해 통계조사가 필요

  1. 전수조사 (모든대상)
  2. 표본조사 (일부만)
  3. 임의추출  (sampling) - 동일한 확률로 추출되는 표본선택 

기술통계학 ?

 

자료를 수집하고 정리해서 표, 도표를 만들거나 

요약하여 변동의 크기나 대표값, 분산 및 평균 등을 구하는 것 

 

ex) 평균값, 최빈수, 최댓값, 최솟값, 범위, 분산 및 표쥰편차 

 


표본분포

 

k개 (무한대)의 모집단으로부터 n개의 표본들을 뽑았을 때, 그 표본집단의 분포를 의미 

 

표본들의

- sample mean: x̄ (x-bar)

- sample standard Deviation: s 

- sample number: n 

 

모집단으로부터 n개씩 random sampling하여 만들어낸 표본집단들 -> sample1, sample2, sample3 

 

sample1의 mean (x̄1) & standard deviation (s1)

sample2의 mean (x̄2) & standard deviation (s2)

sample3의 mean (x̄3) & standard deviation (s3)

 

이때, n개씩 random 하게 sampling한 여러 표본집단들의 mean value 들의

  • 기댓값은 모집단의 기댓값과 같아진다.
  • 분산은 모집단 분산 / n
  • 표준편차는 모집단 표준편차 / 루트n 

이때, n이 30이상이고, 모집단이 정규분포를 따른다는 정보가 있을 시, 

n개씩 random 하게 sampling한 여러 표본집단들의 mean value 들 (x̄1, x̄2, x̄3, x̄4, ....) 들의 분포또한 

기댓값이 M, 분산 δ^2/n인 정규분포를 따른다. ;  x̄~ N (M, δ^2 / n) 

 


 

표본들에 대한 정보(x̄, s, n)을 통해 이루려는 목표 -> 모집단의 추정  (모집단의 M, δ) 

 

우리가 표본을 통하여 모집단을 추정할 시, 보통 1개의 표본집단만을 통해 추정하게 된다. 

따라서, 1개의 표본집단을 통해 추정된 모집단의 변수들에 대한 분포 및 통계치는 모든 case에 정확한 것이 아닌

그 표본집단에 한하여 추정된 모집단에 대한 정보임을 기억해야한다. 

 

 

 


한 모집단 M 추정

 

 

sample들의 분포/정보를 통해 모집단의 평균과 표준편차를 추정한다. 

 

모집단의 M 추정방식으로는, 먼저 모집단의 표준편차를 알때와 모를때로 나뉜다. 

 

모집단의 표준편차를 알고 있을 때는, z 검정을 통해, 모를때는 t 검정을 통해 모집단의 M이 어느 구간에 몇% 신뢰를 가지고 들어오는지를 판단한다. 

 

 

 

 

1. 모집단의 분산 given or n >= 30  : Z검증

  • 모집단의 분산을 알 때, 모집단의 변수(X)들이 X ~ N (M, δ^2) 의 정규분포를 따른다고 가정 
  • 이에 모집단의 M를 추정하기 위하여 Z- 검정을 사용

 

Z-검정?

  • 모집단을 정규분포로 가정하여, 추출된 n개의 표본들이 동일 모집단에 속하는지 가설 검증하기 위해 사용

 

  • Null Hypothesis (귀무가설) : 표본평균 = 모집단 평균 (가정) 
  • Alternate Hypothesis (대립가설) : 표본평균 != 모집단 평균 (가정) 

 

  • 귀무가설 기각시 표본들을 통해 모집단의 평균을 추정할 수 없음 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α (유의수준)

  • 귀무가설이 참인데도 기각할 확률

 

귀무가설이 참인데 기각? 

-> 실제로 표본평균 = 모집단 평균인데, 그렇지 않다고 판단하여 기각하는 것 

 

 

z-distribution 

  • 평균은 0, 표준편차는 1인 정규 분포

 

 

유의수준 -> z-distribution의 critical point를 파악 

 

 

 

  • 양측검정 
  • -Z1/2α & Z1/2α -> critical points 
  • z-statistic 이 [- Z1/2α, Z1/2α ] 안에 ->귀무가설 채택 
  • z-statistic 이 [- Z1/2α, Z1/2α ] 안에 ->귀무가설 기각, 대립가설 채택

 

 

 

 

 

 

 

 

2.모집단의 분산 not given and n < 30  : t-검정

 

모집단의 분산을 모를때는 모집단의 분산 대신 표본집단의 sample standard deviation을 사용하여 t 검정을 진행한다. 

 

T- 검정

  • 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법
- 독립된 두 집단 (또는 대응표본t검정의 경우에는 한 집단)의 평균 차이가 있는지를 검사

- 30개 이하의 비교적 적은 수의 표본에 대해 활용한다.  
(표본의 수가 31 이상이면 정규분포와 비슷해지기 때문)

- 모집단의 표준편차를 알 수 없을 때 사용한다. 모집단의 표준편차 σ 대신 표본의 표준편차 s 를 사용한다.
 

 


두 모집단의 M1, M2 추정 (M1, M2의 차가 1, 2의 차와 같은지; 모집단 평균비교 by 표본집단 평균비교)

 

 


 

한 모집단의 분산 추정

 

 

  • Null Hypothesis (귀무가설) : 표본분산 = 모집단 분산 (가정) 
  • Alternate Hypothesis (대립가설) : 표본분산 != 모집단 분산 (가정) 

 

카이제곱 분포?

카이제곱 분포 또는 χ2분포 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포

 

 

 

카이제곱 분포의 확률밀도함수 (PDF)

 

 

 

 


두 모집단의 분산1, 분산2 추정 (분산1, 분산2의 차가 s1, s2의 차와 같은지; 모집단 분산비교 by 표본집단 분산비교)

 

 

 

 

F 분포?

통계학에서 사용되는 연속확률분포로, F 검정(F test) 분산분석(ANOVA,변량분석) 등에서 주로 사용

 

 확률변수 V1,V2가 각각 자유도 k1,k2이고 서로 독립 카이제곱 분포를 따른다고 할 때,

다음과 같이 정의되는 확률변수 F는 자유도가 (k1,k2)인 F-분포를 따른다고 한다