Home ChungLab Wiki
    • 설명
    • 못 고치는 문서
    • Menu
      • Navigation
      • RecentChanges
      • FindPage
      • 사이트맵
      • Help
      • HelpContents
      • HelpOnMoinWikiSyntax
      • 보기
      • 첨부
      • 정보
      • 원문 보기
      • 인쇄용 화면
      • 수정
      • 로드
      • 저장
    • 로그인

    Navigation

    • FindPage
    • HelpContents
    • FunReading

    Upload page content

    You can upload content for the page named below. If you change the page name, you can also upload content for another page. If the page name is empty, we derive the page name from the file name.

    File to load page content from
    Page name
    설명

    2020-09-09 01:15:50에 수정된 4번째 판
    • Class
    • Statistics
    • CentralLimitTheorem

    중심극한정리 (Central Limit Theorem)

    한줄 요약

    1. 모집단에서 샘플을 랜덤 추출하여 평균값을 구하는 것을 n번 반복하면, n개의 평균값이 생긴다.
    2. 이 때 n이 충분히 크다면, n개의 평균값은 정규분포(Normal Distribution)를 보이고,

    3. 그 정규분포의 평균은 모집단의 모평균 µ과 같고, 표준편차는 𝛒/sqrt(n)을 따른다 (σ=모집단의 모표준편차).

    n이 얼마나 커야 충분히 큰 것인가?

    • n > 30 이면 크다고 인정

    • n < 10 이면 절대적으로 작음

    • 그 사이는 케바케: 정규성 검정을 해 보면 암.

    모집단이 어떤 모양(분포)인지는 중요하지 않다

    가정해보자:

    1. 1에서 100까지 숫자가 써진 카드가 1장씩 있다.
      • 이 분포는 그냥.. 평범한 일자형 분포이다.
      • x축에 1~100까지 눈금을 그리면 y축은 모두가 1인 그냥 균등분포이다.

        https://support.minitab.com/ko-kr/minitab/18/central_limit_theorem_images_uniform_1.png

    2. 여기서 랜덤으로 카드 10장을 골라 평균을 내면,
      • 우연히 낮은 수만 10개 뽑아서 평균이 1~10 사이가 나올 수도 있고 (극단적으로 1도 가능!),
      • 우연히 높은 수만 10개 뽑아서 평균이 90~100 사이가 될 수도 있지만 (극단적으로 100도 가능!),
      • 적당히 골고루 뽑았다면 평균은 50 근처가 될 것이다.
    3. 이 과정을 무한대로 반복하면,
      • 우연히 낮은 수만 뽑거나 우연히 높은 수만 뽑는 경우보다 적당히 골고루 뽑을 확률이 더 크고,
      • 평균값의 histogram을 찍어보면 평균 50 근처가 볼록한 정규분포를 보일 것이다.

        https://support.minitab.com/ko-kr/minitab/18/central_limit_theorem_images_uniform_subgroups_2.png

    Simulation

    수학 이론은 어려우니 R로 시뮬레이션 해 보자.

    • 함수를 하나 만들어서 CLT라고 이름을 붙힌다.
    • CLT 함수는 numRepeat, numPick, maxVal 세 가지 변수를 input으로 받는다.
    • 함수가 하는 일은 0에서 maxVal 사이에서 중복허용으로 numPick 개의 숫자를 고른 후, 그 평균을 구하는 것을 numRepeat 반복하여 histogram을 그리는 것이다.
    • input value를 생략하면 세 변수의 default값은 각각 50, 10, 100이다.

       1 CLT <- function(numRepeat = 50, numPick = 10, maxVal = 100) {
       2  data <- rep(NA,numRepeat)
       3  for (i in 1:numRepeat) {
       4    data[i] <- mean(sample(0:maxVal, size = numPick, replace=T))
       5  }
       6  hist(data)
       7 }
    

    CLT 함수를 호출해보자. numRepeat이 증가할수록 histogram이 정규분포곡선에 가까와지는 것을 알 수 있다.

       1 CLT()
       2 CLT(numRepeat = 500)
       3 CLT(numRepeat = 5000)
    

    동전 10개를 던져 앞면이 나오는 경우의 기대값을 구하고, 이를 5000번 반복하여 histogram을 그려라.


    추가 자료

    • http://dermabae.tistory.com/146

      /CentralLimitTheorem   /ChiSquared   /Clustering   /InstallR   /InstallRStudio   /Lies   /NormalDistribution   /RBasic   /RBasic1   /RBasic2   /RBasic3   /RCloud   /RIntro   /RKorean   /T-Test  
    Copyright © ChungLab. Built on MoinMoin and Bootstrap. All Rights Reserved.