夕蛙のなく頃に

データアナリストとして学んだことや趣味で勉強し始めたIoTをアウトプットする

中心極限定理により正規分布に収束する様子をjupyterで描画する

中心極限定理とは

中心極限定理(ちゅうしんきょくげんていり、英: central limit theorem, CLT)は、確率論・統計学における極限定理の一つ。

大数の法則によると、ある母集団から無作為抽出した標本の平均は標本の大きさを大きくすると母平均に近づく。これに対し中心極限定理は標本平均と母平均との誤差を論ずるものである。多くの場合、母集団の分布がどんな分布であっても、その誤差は標本の大きさを大きくしたとき近似的に正規分布に従う。

N = 10,000人を母集団とし、その身長を考える。
Nの身長の平均 = 母平均

Nからサンプル(標本) n = 1,000人を取り出す。
nの身長の平均 = 標本平均

大数の法則
大数の法則によると、この標本nを母集団Nに近づけていくと標本平均は母平均に近付く。

中心極限定理
では、標本平均自体はどれくらいの誤差を含んでいるのか。
nを一定として、母集団から標本を抽出しその標本平均を記録することを繰り返し、その標本平均の分布を観測すると正規分布に近付く。

ソースコード

jupyterで正規分布に収束する様子を描画する

指数分布

f:id:frogdusk:20190404162805p:plain

リサンプリング回数を変えて標本平均分布を描画する

リサンプリング回数 = 100

f:id:frogdusk:20190404162928p:plain 数が少なく、分布がまだ荒い。

リサンプリング回数 = 1000

f:id:frogdusk:20190404163020p:plain 正規分布に近付いてきた。

リサンプリング回数 = 10000

f:id:frogdusk:20190404163055p:plain 正規分布っぽくなりました。