Home ChungLab Wiki
    • 설명
    • 못 고치는 문서
    • Menu
      • Navigation
      • RecentChanges
      • FindPage
      • 사이트맵
      • Help
      • HelpContents
      • HelpOnMoinWikiSyntax
      • 보기
      • 첨부
      • 정보
      • 원문 보기
      • 인쇄용 화면
      • 수정
      • 로드
      • 저장
    • 로그인

    Navigation

    • FindPage
    • HelpContents
    • FunReading
    2020-09-09 01:15:50에 수정된 4번째 판
    • Class
    • Statistics
    • CentralLimitTheorem

    중심극한정리 (Central Limit Theorem)

    한줄 요약

    1. 모집단에서 샘플을 랜덤 추출하여 평균값을 구하는 것을 n번 반복하면, n개의 평균값이 생긴다.
    2. 이 때 n이 충분히 크다면, n개의 평균값은 정규분포(Normal Distribution)를 보이고,

    3. 그 정규분포의 평균은 모집단의 모평균 µ과 같고, 표준편차는 𝛒/sqrt(n)을 따른다 (σ=모집단의 모표준편차).

    n이 얼마나 커야 충분히 큰 것인가?

    • n > 30 이면 크다고 인정

    • n < 10 이면 절대적으로 작음

    • 그 사이는 케바케: 정규성 검정을 해 보면 암.

    모집단이 어떤 모양(분포)인지는 중요하지 않다

    가정해보자:

    1. 1에서 100까지 숫자가 써진 카드가 1장씩 있다.
      • 이 분포는 그냥.. 평범한 일자형 분포이다.
      • x축에 1~100까지 눈금을 그리면 y축은 모두가 1인 그냥 균등분포이다.

        https://support.minitab.com/ko-kr/minitab/18/central_limit_theorem_images_uniform_1.png

    2. 여기서 랜덤으로 카드 10장을 골라 평균을 내면,
      • 우연히 낮은 수만 10개 뽑아서 평균이 1~10 사이가 나올 수도 있고 (극단적으로 1도 가능!),
      • 우연히 높은 수만 10개 뽑아서 평균이 90~100 사이가 될 수도 있지만 (극단적으로 100도 가능!),
      • 적당히 골고루 뽑았다면 평균은 50 근처가 될 것이다.
    3. 이 과정을 무한대로 반복하면,
      • 우연히 낮은 수만 뽑거나 우연히 높은 수만 뽑는 경우보다 적당히 골고루 뽑을 확률이 더 크고,
      • 평균값의 histogram을 찍어보면 평균 50 근처가 볼록한 정규분포를 보일 것이다.

        https://support.minitab.com/ko-kr/minitab/18/central_limit_theorem_images_uniform_subgroups_2.png

    Simulation

    수학 이론은 어려우니 R로 시뮬레이션 해 보자.

    • 함수를 하나 만들어서 CLT라고 이름을 붙힌다.
    • CLT 함수는 numRepeat, numPick, maxVal 세 가지 변수를 input으로 받는다.
    • 함수가 하는 일은 0에서 maxVal 사이에서 중복허용으로 numPick 개의 숫자를 고른 후, 그 평균을 구하는 것을 numRepeat 반복하여 histogram을 그리는 것이다.
    • input value를 생략하면 세 변수의 default값은 각각 50, 10, 100이다.

       1 CLT <- function(numRepeat = 50, numPick = 10, maxVal = 100) {
       2  data <- rep(NA,numRepeat)
       3  for (i in 1:numRepeat) {
       4    data[i] <- mean(sample(0:maxVal, size = numPick, replace=T))
       5  }
       6  hist(data)
       7 }
    

    CLT 함수를 호출해보자. numRepeat이 증가할수록 histogram이 정규분포곡선에 가까와지는 것을 알 수 있다.

       1 CLT()
       2 CLT(numRepeat = 500)
       3 CLT(numRepeat = 5000)
    

    동전 10개를 던져 앞면이 나오는 경우의 기대값을 구하고, 이를 5000번 반복하여 histogram을 그려라.


    추가 자료

    • http://dermabae.tistory.com/146

      /CentralLimitTheorem   /ChiSquared   /Clustering   /InstallR   /InstallRStudio   /Lies   /NormalDistribution   /RBasic   /RBasic1   /RBasic2   /RBasic3   /RCloud   /RIntro   /RKorean   /T-Test  
    Copyright © ChungLab. Built on MoinMoin and Bootstrap. All Rights Reserved.