개정판 1과 4 사이의 차이점 (3번의 변경사항을 펼침)

중심극한정리 (Central Limit Theorem)

한줄 요약

모집단에서 샘플을 랜덤 추출하여 평균값을 구하는 것을 n번 반복하면, n개의 평균값이 생긴다.
이 때 n이 충분히 크다면, n개의 평균값은 정규분포(Normal Distribution)를 보이고,
그 정규분포의 평균은 모집단의 모평균 µ과 같고, 표준편차는 𝛒/sqrt(n)을 따른다 (σ=모집단의 모표준편차).

n이 얼마나 커야 충분히 큰 것인가?

n > 30 이면 크다고 인정
n < 10 이면 절대적으로 작음
그 사이는 케바케: 정규성 검정을 해 보면 암.

모집단이 어떤 모양(분포)인지는 중요하지 않다

가정해보자:

1에서 100까지 숫자가 써진 카드가 1장씩 있다.
- 이 분포는 그냥.. 평범한 일자형 분포이다.
- x축에 1~100까지 눈금을 그리면 y축은 모두가 1인 그냥 균등분포이다.
여기서 랜덤으로 카드 10장을 골라 평균을 내면,
- 우연히 낮은 수만 10개 뽑아서 평균이 1~10 사이가 나올 수도 있고 (극단적으로 1도 가능!),
- 우연히 높은 수만 10개 뽑아서 평균이 90~100 사이가 될 수도 있지만 (극단적으로 100도 가능!),
- 적당히 골고루 뽑았다면 평균은 50 근처가 될 것이다.
이 과정을 무한대로 반복하면,
- 우연히 낮은 수만 뽑거나 우연히 높은 수만 뽑는 경우보다 적당히 골고루 뽑을 확률이 더 크고,
- 평균값의 histogram을 찍어보면 평균 50 근처가 볼록한 정규분포를 보일 것이다.

Simulation

수학 이론은 어려우니 R로 시뮬레이션 해 보자.

함수를 하나 만들어서 CLT라고 이름을 붙힌다.
CLT 함수는 numRepeat, numPick, maxVal 세 가지 변수를 input으로 받는다.
함수가 하는 일은 0에서 maxVal 사이에서 중복허용으로 numPick 개의 숫자를 고른 후, 그 평균을 구하는 것을 numRepeat 반복하여 histogram을 그리는 것이다.
input value를 생략하면 세 변수의 default값은 각각 50, 10, 100이다.

   1 CLT <- function(numRepeat = 50, numPick = 10, maxVal = 100) {
   2  data <- rep(NA,numRepeat)
   3  for (i in 1:numRepeat) {
   4    data[i] <- mean(sample(0:maxVal, size = numPick, replace=T))
   5  }
   6  hist(data)
   7 }

CLT 함수를 호출해보자. numRepeat이 증가할수록 histogram이 정규분포곡선에 가까와지는 것을 알 수 있다.

   1 CLT()
   2 CLT(numRepeat = 500)
   3 CLT(numRepeat = 5000)

동전 10개를 던져 앞면이 나오는 경우의 기대값을 구하고, 이를 5000번 반복하여 histogram을 그려라.

추가 자료

http://dermabae.tistory.com/146

-  ⇤ ← 2015-09-25 05:37:05에 수정된 1번째 판 → 
  크기: 1160
  수정한 사람: gehoon
  설명:
+   ← 2020-09-09 01:15:50에 수정된 4번째 판 → ⇥
  크기: 3179
  수정한 사람: gehoon
  설명:
-지워진 줄은 이렇게 표시됩니다.
+추가된 줄은 이렇게 표시됩니다.
 줄 1:
-== Central Limit Theorem ==
 * [[WikiPedia:Asymptotic analysis]]
 * Central Limit Theorem (CLT):
  * sample size가 크다면 distribution of averages of iid variables (properly normalized) = a standard normal distribution
  * Normalization: ( X - ''μ'' ) / ( ''σ'' / sqrt(n) ) = Z ~ N( 0, 1 )
   * When population SD ''σ'' is unknown, the standard error of the sample mean (SEM) = SD of those sample means over all possible samples
   * SEM = SD / sqrt(n)
   * ''σ'' / sqrt ( ''n'' ) = the standard error of the sample mean
 * Suppose X_1, X_2, ... X_n are independent, identically distributed random variables from an infinite population with mean ''μ'' and variance ''σ''^2^.
  * if n is large, the mean of the X's, call it X', is approximately normal with mean ''μ'' and variance ''σ''^2^ / n.
  * 則, X'~ N( ''μ'', ''σ''^2^ / n ).
+#acl +All:read
#format wiki
#language ko
#pragma description 기초의학통계학 및 실험;
= 중심극한정리 (Central Limit Theorem) =
-줄 13:
+줄 7:
- * 예시1: 동전 던지기, 앞면 확률 P(h)= ''p'' 라면, E(h) = ''p'', variance = ''p'' ( 1 - ''p'' )
  * 동전 던지기를 n 번씩 했을 때, 그 결과의 평균값이 ''μ''이라면,
  * normalization: ( ''μ'' - ''p'' ) / SD = ( ''μ'' - ''p'' ) / sqrt ( ''p'' ( 1 - ''p'' ) / n )
+== 한줄 요약 ==
 1. 모집단에서 샘플을 랜덤 추출하여 평균값을 구하는 것을 n번 반복하면, n개의 평균값이 생긴다.
 1. 이 때 n이 충분히 크다면, n개의 평균값은 정규분포([[WikiPedia:Normal Distribution]])를 보이고,
 1. 그 정규분포의 평균은 모집단의 모평균 µ과 같고, 표준편차는 𝛒/sqrt(n)을 따른다 (σ=모집단의 모표준편차).

=== n이 얼마나 커야 충분히 큰 것인가? ===
 * n > 30 이면 크다고 인정
 * n < 10 이면 절대적으로 작음
 * 그 사이는 케바케: 정규성 검정을 해 보면 암.

=== 모집단이 어떤 모양(분포)인지는 중요하지 않다 ===
가정해보자:
 1. 1에서 100까지 숫자가 써진 카드가 1장씩 있다.
  * 이 분포는 그냥.. 평범한 일자형 분포이다.
  * x축에 1~100까지 눈금을 그리면 y축은 모두가 1인 그냥 균등분포이다.
  {{https://support.minitab.com/ko-kr/minitab/18/central_limit_theorem_images_uniform_1.png}}
 1. 여기서 랜덤으로 카드 10장을 골라 평균을 내면,
  * 우연히 낮은 수만 10개 뽑아서 평균이 1~10 사이가 나올 수도 있고 (극단적으로 1도 가능!),
  * 우연히 높은 수만 10개 뽑아서 평균이 90~100 사이가 될 수도 있지만 (극단적으로 100도 가능!),
  * 적당히 골고루 뽑았다면 평균은 50 근처가 될 것이다.
 1. 이 과정을 무한대로 반복하면,
  * 우연히 낮은 수만 뽑거나 우연히 높은 수만 뽑는 경우보다 적당히 골고루 뽑을 확률이 더 크고,
  * 평균값의 histogram을 찍어보면 평균 50 근처가 볼록한 정규분포를 보일 것이다.
  {{https://support.minitab.com/ko-kr/minitab/18/central_limit_theorem_images_uniform_subgroups_2.png}}

=== Simulation ===
수학 이론은 어려우니 R로 시뮬레이션 해 보자.
 * 함수를 하나 만들어서 CLT라고 이름을 붙힌다.
 * CLT 함수는 numRepeat, numPick, maxVal 세 가지 변수를 input으로 받는다.
 * 함수가 하는 일은 0에서 maxVal 사이에서 중복허용으로 numPick 개의 숫자를 고른 후, 그 평균을 구하는 것을 numRepeat 반복하여 histogram을 그리는 것이다.
 * input value를 생략하면 세 변수의 default값은 각각 50, 10, 100이다.

{{{#!highlight r
CLT <- function(numRepeat = 50, numPick = 10, maxVal = 100) {
 data <- rep(NA,numRepeat)
 for (i in 1:numRepeat) {
   data[i] <- mean(sample(0:maxVal, size = numPick, replace=T))
 }
 hist(data)
}
}}}

CLT 함수를 호출해보자. numRepeat이 증가할수록 histogram이 정규분포곡선에 가까와지는 것을 알 수 있다.
{{{#!highlight r
CLT()
CLT(numRepeat = 500)
CLT(numRepeat = 5000)
}}}

{{{
동전 10개를 던져 앞면이 나오는 경우의 기대값을 구하고, 이를 5000번 반복하여 histogram을 그려라.
}}}

----
==== 추가 자료 ====
 * [[http://dermabae.tistory.com/146]]
 <<Navigation(siblings,1)>>