수학 강좌 | 고등학교 > 통계 > 모비율과 표본비율, 표본비율의 평균과 분산

모비율과 표본비율

모집단에서 어떤 사건에 대한 비율을 모비율이라 해요. 기호로 $ p $와 같이 나타냅니다. ($ p $는 proportion의 첫글자입니다.)

예를 들어 $ 100 $개의 제품 중 불량품이 $ 10 $개 있다고 할 때, 불량품인 사건의 모비율 $ p $는

\begin{gather*}
p = \frac{10}{100} = 0.1
\end{gather*}

입니다.

모집단으로부터 임의추출한 표본에서 어떤 사건에 대한 비율을 표본비율이라 해요. 기호로 $ \hat{p} $과 같이 나타냅니다. ($ \hat{p} $은 피햇으로 읽습니다.)

예를 들어 $ 100 $개의 제품 중 $ 10 $개를 임의추출했을 때 불량품이 $ 2 $개 있다면, 불량품인 사건의 표본비율 $ \hat{p} $은

\begin{gather*}
\hat{p} = \frac{2}{10} = 0.2
\end{gather*}

입니다.

표본비율

크기가 $ n $인 표본에서 어떤 사건이 일어나는 횟수를 확률변수 $ X $라고 할 때, 이 사건에 대한 표본비율 $ \hat{p} $은

\begin{gather*}
\hat{p} = \frac{X}{n}
\end{gather*}

표본비율의 평균과 분산

표본비율 $ \hat{p} = \dfrac{X}{n} $에서 확률변수 $ X $는 크기가 $ n $인 표본에서 어떤 사건이 일어날 수 있는 횟수입니다.

$ X $가 가질 수 있는 값은 $ 0 $, $ 1 $, $ 2 $, $ \cdots $, $ n $이고, 모집단에서 하나를 선택할 때 그 사건이 일어날 확률은 $ p $입니다. 여러번 시행했을 때 특정 사건이 발생하는 횟수가 확률변수이므로, $ X $는 이항분포 $ B(n, \ p) $를 따릅니다. 따라서 $ X $의 평균과 분산은 다음과 같이 구할 수 있어요.

\begin{gather*}
\mathrm{E}(X) = np, \ \ \mathrm{V}(X) = npq \ (q = 1-p)
\end{gather*}

이것을 가지고 표본비율 $ \hat{p} $의 평균을 구하면

\begin{gather*}
\mathrm{E}( \hat{p} ) = \mathrm{E} \left( \frac{X}{n} \right) = \frac{1}{n} \mathrm{E}(X) = \frac{1}{n} \times np = p
\end{gather*}

이고, 분산을 구하면

\begin{gather*}
\mathrm{V}( \hat{p} ) = \mathrm{V} \left( \frac{X}{n} \right) = \frac{1}{n^2} \mathrm{V}(X) = \frac{1}{n^2} \times npq = \frac{pq}{n}
\end{gather*}

입니다.

표본비율 $ \hat{p} $은 $ n $이 충분히 클 때 정규분포를 따른다고 해요. 고등학교 과정에서는 왜 정규분포를 따르는지, $ n $이 얼마가 되어야 충분히 큰 건지 알 수 없어요. $ \hat{p} $이 나오면 그냥 정규분포라고 생각하면 돼요.

예를 들어 모비율이 $ p=0.1 $이고 표본의 크기가 $ n=100 $일 때, 표본비율 $ \hat{p} $은 정규분포

\begin{gather*}
\mathrm{N} \left( 0.1, \ \frac{0.1 \times 0.9}{100} \right)
\end{gather*}

를 따릅니다.

표본비율의 분포

모비율이 $ p $이고 $ n $의 값이 충분히 클 때, 표본비율 $ \hat{p} $의 분포는 정규분포

\begin{gather*}
\mathrm{N} \left( np, \ \frac{pq}{n} \right)
\end{gather*}

에 가까워진다.