1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ

前回の「ゲームプログラマからデータサイエンティストに転職しました」の記事でもお話したとおり、5月からデータ解析する人になりました。

とはいえ、データ解析に関しては未経験。少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。

今回はおすすめしてもらった中で読んで良かった本の紹介、そして読んだ本の簡単なまとめを書いて行きたいと思います。

※前提: 4月時点の自分の知識に関して

自分は大学は情報科学を専攻していたが、難しい数式は苦手
統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい

まず一番最初に読みたい本「完全独習統計学入門」

「簡単に統計学の全体像がつかめる入門書はないか」とTwitterで相談したら、こちらの本を数名の方が薦めて下さった。

完全独習統計学入門

作者: 小島寛之
出版社/メーカー: ダイヤモンド社
発売日: 2006/09/28
メディア: 単行本（ソフトカバー）
購入: 215人クリック: 3,105回
この商品を含むブログ (115件) を見る

☆読み終えるまでの時間: 4時間

「数式がでてこない」がコンセプトな、算数程度の知識で読める入門書。
とてもわかりやすく、統計学をざくっと知るにはとてもよい本。

これから勉強しようとする人がまず最初に全体像を把握しようとする目的においてもお勧めできる。

私はこれを読みながらもっと詳しく統計学を知りたい！という気持ちを作ることができた。

完全独習統計学入門、途中でお昼寝したりした時間含めて4時間で読み終えた。とりあえず今から自分が何を学ばなきゃいけないかの全体像は見えた。かるーくよめてよい本だった。
— くー@( o･ω･)ﾉデータあるけみすと (@cocodrips) 2017年4月3日

統計学をどうやってビジネスに応用する？「ビジネス活用事例で学ぶデータサイエンス入門」

ビジネス活用事例で学ぶデータサイエンス入門

作者: 酒巻隆治,里洋平
出版社/メーカー: SBクリエイティブ
発売日: 2014/06/25
メディア: 単行本
この商品を含むブログ (1件) を見る

☆読み終えるまでの時間: (サンプルを読み飛ばして) 3時間

勉強したデータ解析や統計手法をどのように実際のビジネスに繋げていくかという話。統計学の本を読んだだけでは、どうやって活用していくのかが見えにくいので、そのあたりのイメージがつかめる良い本だった。

Rでサンプルがかかれているが、私は活用事例をしっかり読んで、データ加工の部分のサンプルコードは全部読み飛ばした。

ビジネス活用事例で学ぶデータサイエンス入門(https://t.co/gM7j8NEZl2)コードのサンプルの部分はすっとばして3時間で読み終えた。知ってる分析手法(や、一部知らない手法)のビジネスへの活用の仕方を学ぶ導入としてよい本だった。分析手法についてもっと勉強したくなった
— くー@( o･ω･)ﾉデータあるけみすと (@cocodrips) 2017年4月6日

「サンプルを実際に手で動かさないと意味が無いよ！」とアドバイスをいただいたので、後ほどPythonバージョンでサンプルデータを動かしてみることにする。

たしかに実際データで実践しようとしたら、「やり方が色々有ることはわかるが、どうするのがより良いのか」みたいなのがつかめず苦戦した。このデータならこういう風に加工するのがいい、というのを身につけておくのが作業を時短するために大事そうだと思った。

しっかり統計学を学ぶ「統計学入門(通称:赤本)」

統計学入門 (基礎統計学?)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (79件) を見る

☆読み終えるまでの時間: 35時間

これまで得た知識をふまえ、さらに基礎がしっかり学べる本。

数式がめちゃくちゃ出て来るが、最初に記号の紹介ページがあるためとても読みやすかった。
(記号表がないと、間をあけて途中から読み始めたときに前回までの記号の意味を忘れがちなので)

1冊目にこの本を手に取ると挫折しかねないので、個人的には2冊目以降にオススメしたい。

基礎をしっかり学びたい人向けであって、「実践向けではない」と、この本を読んでいると人に話すとよく言われた。私は基礎をしっかり知ってから応用・実践したい派なのでじっくり読んだ。

※持論: 基礎を先に時間を書けて学んだほうが、応用・実践で吸収出来ることが多い。

1日5時間読むようにしていて、大体7日間ほど(計35時間程度)で読んだ。この本の知識が役に立つかどうかはまだわからないので、実際業務のどんなときにこの知識が役に立ったかわかったら、また追記したい。個人的には少なくともクライアントに「こいつ統計の基礎わかってないな」って思われないための基礎知識をつけたいという気持ちで読んだ。

※追記 2017/11/07(書いてから半年) やはり赤本レベルの知識は分析を仕事にする上最低限知っておきたい知識だった。入社前にそこそこちゃんと勉強しておいてよかった。このあたりの知識がないと適当な感覚で分析する羽目になる(乂'ω')。あとこれ読んだ記憶で統計検定2級の過去問やったら8割方理解できたのでやはりしっかり網羅されてて良い本だ。

これから読む本

他にもお勧めされている本があるので、こちらの本はこれから読んで行きたいと思っている。

※最後に書いていたのですが、次の節が長すぎるのでこちらに移動しました。

マンガでわかる統計学

作者: 高橋信,トレンドプロ
出版社/メーカー: オーム社
発売日: 2004/07/01
メディア: 単行本
購入: 156人クリック: 1,757回
この商品を含むブログ (203件) を見る

とても有名で評判の良い本。赤本の前にこちらを読むべきだったかな、という感じのレベル感だと思われる。 (電子書籍で出てくれれば良いのだけど)

データ解析のための統計モデリング入門

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者: 久保拓弥
出版社/メーカー: 岩波書店
発売日: 2012/05/19
メディア: 単行本
購入: 16人クリック: 163回
この商品を含むブログ (29件) を見る

こちらも有名な本。かなり重そうなので、余裕ができたら読みたい。

統計学入門(赤本)まとめ

統計学入門については内容量が多く、読んだだけでは身につかなそうだったので、以下に後から見直す用に、統計学入門の内容をまとめた。

これを見たからと行って統計学がわかるようなものではなく、読んだ人が後から見直して「あ〜、そうだった」って思うためのもの。また、まだ知識がないので読み間違えている部分がある可能性がある。見つけ次第・追記修正していきたい。

絶対に覚えておきたい統計学で使われる基本的な記号

記号	意味
$\mu$	母平均
$\overline{x}$	標本( $x_1 , x_2 \cdots x_n$ )の平均
$\sigma^{2}$	母分散
$s^{2}$	標本分散
$r_{xy}, r$	標本相関係数
$r_{xy \cdot z}$	偏相関係数
$\Omega$	全事象・標本空間

一次元データ

階級数 $k$ の目安 (※スタージェスの公式より)

$\displaystyle k = 1+ \log_{2} n$

※棒グラフとかを書くときに、棒の数(=階級数)の目安をこれくらいにしようという話。

データの代表値

算術平均(mean)
- 一般的に「平均」と呼ばれるもの。外れ値の影響を受けるため、感覚とはズレやすい。
幾何平均
- $\sqrt[n]{x_1 \cdot x_2 \cdot \cdots \cdot x_n}$
調和平均
中央値(median)
- 極端な外れ値の影響を受けづらい。100のデータがあれば下から50番目(真ん中)のデータの値。
最頻値(mode)

データの散らばり具合を示す指標

分散 $\displaystyle s^{2}=\frac{1}{n} \{ (x_1 - \overline{x})^{2} + \cdots + (x_n - \overline{x})^{2} \}$

標準偏差 $s = \sqrt{s^{2}}$

二次元データ

相関

積率相関係数

いわゆる相関係数と呼ばれるもの。

$\displaystyle r_{xy}=\frac { \frac{\sum(x_i - \overline{x})(y_i - \overline{y})} {n} } { \frac{\sqrt{\sum{(x_i - \overline{x}) }^{2}}}{n} \frac{\sqrt {\sum{(y_i - \overline{y}) }^{2}}}{n} } = \frac {\sum(x_i - \overline{x}) (y_i - \overline{y}) } {\sqrt {\sum{(x_i - \overline{x}) }^{2}} \sqrt {\sum{(y_i - \overline{y}) }^{2}}}$

分子の部分 $\frac {\sum(x_i - \overline{x}) (y_i - \overline{y}) }{n}$ は、偏差積の平均で、共分散(covariance, $C_{xy}$ )と呼ばれる。
分母の部分はxの標準偏差 $S_{x}$ とyの標準偏差 $S_{y}$ の積。
$-1 \leq r_{xy} \leq 1$ で、1に近い時正の相関/-1に近い時負の相関がある
相関係数が0に近くても、因果関係がないとは限らない

偏相関係数

$|r_{xy}|$ が1に近くても、実はzを通して $|r_{xz}|$ と $|r_{yz}|$ が大きく、 $r_{xy}$ には直接的な関係がない場合がある。
こういった場合に判断を間違えてしまうことが多い。

そんなときは偏相関係数と言って、xyzがあるときにzの影響を除いたxyの相関関係を求める。 zの影響を除いたxyの偏相関係数を $r_{xy \cdot z}$ と書き、以下の用に定義する。

$\displaystyle r_{xy \cdot z} = \frac {r_{xy} - r_{xz} \cdot r_{yz}} {\sqrt {1 - {r_{xz}}^{2}} \sqrt {1 - {r_{yz}}^{2}}}$

順位相関係数

２つの質的基準がある場合の、iの順位 $R_{i}$ と $R'_{i}$ の順位の相関を表す基準を順位相関係数という。
(※例: 男性/女性ごとのなにかのランキングの順位の相関関係)

順位相関係数はスピアマンとケンドールによる定義があるが、ケンドールの方はここにかくのはめんどくさいので省く。

スピアマンの順位相関係数は以下のように定義される

$\displaystyle r_{s} = \frac{6}{n^{3} - n} \sum {(R_{i} - R'_{i})^{2}}$

時系列と自己相関

時系列を1時点ずつずらした $(x_1, x_2), (x_2, x_3), \cdots , (x_{n-1}, x_n)$ の相関を
遅れ(lag)1の自己相関係数と言う。

遅れ $h$ の自己相関係数は以下のように定義できる。

$\displaystyle r_h = \frac {\sum_{i=0}^{n-h} {(x_i - \overline{x})(x_{i+h} - \overline{x}) / (n - h)}} {\sum_{i=0}^{n} {(x_i - \overline{x})^{2}} / n}$

例: 一月ごとの売上のデータがあり、毎年同じ月には似た傾向ある場合、 $r_{12}$ の自己相関係数が大きくなる

回帰

直線回帰

2変数x,yで、一方のxが他方のyを左右する関係がある時、 xを独立変数 yを従属変数という。

その時 x と y には $y=bx+a$ という関係式が成立することが想像される。最小二乗法によって最適なa,bを求める。

$\displaystyle b = \frac { \sum {x_i y_i - n \overline{x} \overline{y}}} { \sum {{x_i}^{2} - n {\overline{x}}^{2}}}$

$a = \overline{y} - b \overline{x}$

この $b$ は偏回帰係数もしくは回帰係数と呼ばれる。また、回帰係数は以下のようにも表される。

$\displaystyle b = \frac {\sum{(x_i - \overline{x}) (y_i - \overline{y})}} {\sum{(x_i - \overline{x})^{2}} }$

さらに、 bとxとyの相関係数 $r_{xy}$ の間には、 $b=r_{xy} \frac{S_y}{S_x}$ という関係が成立する。

重回帰

独立変数が２つ以上の場合、重回帰という。

独立変数の数が2だった場合、 $y = b_1 x_1 + b_2 x_2 + a$ となり、直線ではなく三次元空間における平面への当てはめとなる。

確率

条件付確率

既にBの条件を満たすことがわかっている場合のAの確率を、
Bを条件とするAの条件付確率( $P(A|B)$ )と言い、以下で表される

$\displaystyle P(A|B) = \frac { P(A \cap B) } { P(B) }$

ベイズの定理

A を得られた結果、 $H_1, H_2, \cdots , H_k$ を原因とする。一般に得られるのは原因があった場合の結果の確率、つまり $P(A|H_i)$ で有る場合がほとんど。ベイズの定理は、結果からの原因 $P(H_i|A)$ を求める定理である。

$H_1, H_2, \cdots, H_k$ が互いに排反で $H_1 \cup H_2 \cup \cdots \cup H_k = \Omega$ である時、以下の規則が成り立つ。 $\displaystyle P(H_i|A) = \frac { P(H_i) \cdot P(A|H_i) } { \sum{P(H_j) \cdot P(A|H_j)} }$

この時、 $P(H_i)$ は $H_i$ の事前確率、 $P(H_i|A)$ は事後確率と呼ばれる。
※事前、事後は事象Aが起こることを基準としている

確率変数

基本的な変数

期待値 $E(X)$

$E(X) = \sum xf(x)$ (離散)
$E(X) = \int_{-\infty}^{\infty} xf(x) dx$ (連続)

分散 $V(X)$

$V(X) = E{(x - \mu)^2} = E(X^{2}) - (E(X))^{2}$

標準偏差

$D(X) = \sqrt {V(X)}$

歪度(わいど)と尖度(せんど)

歪度

確率分布の左右の非対称性の指標

$\displaystyle \alpha_3 = \frac{E(x - \mu)^{3}}{\sigma^{3}} = \frac{E(X^{3}) - 3 \mu E(X^{2}) + 2 \mu^{3}}{\sigma^{3}}$

$|\alpha_3|$ の大きさが、歪みの大きさ。 $\alpha_3 \lt 0$ なら左の裾が長く、 $\alpha_3 > 0$ ならば右の裾が長い。

尖度

尖りの程度を示す指標

$\alpha_4 = E(X - \mu)^{4} / \sigma^{4}$

ふつうは $\alpha_4 = 3$ と比較する。
$\alpha_4 - 3 \lt 0$ ならば正規表現よりも丸く鈍い形をしており、
$\alpha_4 - 3 \gt 0$ ならば正規表現よりも尖っている。

モーメント

以下をXの $\gamma$ 次のモーメント(積率)という。
$\mu_\gamma = E(X^{\gamma})$

以下を期待値(平均)まわりの $\gamma$ 次のモーメントという。
$\mu'_\gamma = E(X - \mu)^{\gamma}$

$\mu_1 = E(X)$ は期待値
$\mu'_2 = E(X - \mu)^{2}$ は分散
$\mu_0 \equiv 1, \mu'_1 \equiv 0,$

また、
以下は $\gamma$ 次の標準化モーメントと呼ばれる。
$\alpha_\gamma = E{ (X - \mu) / \sigma}^{\gamma}$

※ 歪度の $\alpha_3$ , 尖度の $\alpha_4$

チェビシェフの不等式

$E(X), V(X)$ のみがわかっている時、一般に以下が成り立つ。

$P(|X - \mu| \ge k\sigma) \le \frac{1}{k^{2}}$

つまり、平均から $n\sigma$ 以上離れた値は、全体の $\frac{1}{n^{2}}$ を超えることはないということである。

確率分布

このあたりは完全に理解できてはいないのでメモ程度。また復習し直したい。

二項分布

2種類の結果がありそれが起こる確率が $p, 1-p$ であるような試行をn回繰り返したときの確率分布。 $Bi(n, p)$ で表す。

また、 $Bi(1, p)$ をベルヌーイ分布ということがある。

ポアソン分布

二項分布において、pが小さく、nが大きい場合

$\displaystyle f(x) = \frac{e^{-\lambda}\lambda^{x}}{x!}$

ポアソン分布は $Po(\lambda)$ で表す。
- 確率変数Xがポアソン分布 $Po(\lambda)$ に従うとき期待値と分散が等しく $\lambda$ となるのが、大きな特徴である。

正規分布

$\displaystyle f(x) = \frac{1}{ \sqrt{2\pi} \sigma } exp{ -(x - \mu)^{2} / 2\sigma^{2} }$

正規分布は $N(\mu, \sigma^{2})$ で表す(※平均 $\mu$ , 分散 $\sigma^{2}$ )
N(0, 1)を標準正規分布という
正規分布はガウス分布とも呼ばれる

指数分布とガンマ分布

指数分布

$f(x) = \lambda e^{-\lambda x}$

$E(X) = 1/\lambda, V(X) = 1 / \lambda^{2}$

ガンマ分布

ガンマ分布は指数分布を一般化*1したものであり、以下の確率密度関数で表される。

期間 $\gamma$ ごとに1回起こるランダムな事象がn回起こるまでにどれだけかかるかの分布。

$f(x) = \displaystyle \frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}$

$\Gamma(\alpha)$ で割られているのは規格化のためである。 ※ $\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} e^{-x}dx$

$\Gamma(\alpha)$ は $\alpha$ が正整数なら $(\alpha - 1)!$ に一致する。また、 $\Gamma (\frac{1}{2})= \sqrt{\pi}$

で指定されるガンマ分布をと表す。
- 特に $Ga( \frac{n}{2}, \frac{1}{2})$ は自由度nのカイ二乗分布と言われる。
$E(X) = \alpha/\lambda, V(X) = \alpha / \lambda^{2}$

ベータ分布

$\alpha \gt 0, \beta \gt 0$ のとき、ベータ分布は $Be(\alpha, \beta)$ で表す。

$B(\alpha, \beta)$ は積分して1にするための規格化定数である。 $B(\alpha, \beta) = \int_{0}^{1} x^{\alpha - 1}(1-x)^{\beta-1}dx = \Gamma(\alpha)\Gamma(\beta) / \Gamma(\alpha+\beta)$

その他の確率分布

以下はまた必要になったときに調べようと思う。

コーシー分布
対数正規分布
パレート分布
ワイブル分布

多次元の確率分布

共分散

$Cov(X, Y) = E \{ (X - E(X)) (Y-E(Y)) \} = E(XY) - E(X)E(Y)$

$Cov(X, Y) \lt 0$ ならXYは大小が反対傾向、 $Cov(X, Y) \gt 0$ なら同傾向。

E(XY)の計算方法:

離散型 $E(XY) = \sum_{x} \sum_{y} xy \cdot f(x, y)$
連続型 $E(XY) = \int \int_{S} xy f(x, y) dxdy$

相関係数

$\rho_{xy} = Cov(X, Y) / \sqrt{V(X)} \cdot \sqrt{V(Y)}$ $( -1 \le \rho_{xy} \le 1)$

大数の法則と中心極限定理

大数の法則

標本を増やせばほとんど母集団と同じ様なデータ分布になるよね、というような話。読むのがよい。

中心極限定理

母集団が何であってもnが十分に大きければ和 $X_{1} + \cdots + _{n}$ の確率分布の形は、だいたい正規分布になる、というような話。読むのがよい。

標本分布

パラメトリックとノンパラメトリック

言葉としてよく出てくる。

パラメトリックの場合: 母集団の分布についてすべて知ることが出来る場合のこと
ノンパラメトリックの場合: 母集団の分布の具体的な形が事前にわからない場合のこと(正規分布に従うのか？他の分布に従うのか？等)

母数と統計量

標本: サンプルデータのこと
母集団: 全体のデータのこと

標本平均

$\displaystyle E(\overline{X}) = \frac{X_1 + \cdots + X_n}{n}$

データが正規分布に従う時 $\overline{X} = \mu$
標本数が十分に大きい場合 $E(\overline{X}) = \mu$

標本分散

$\displaystyle s^{2} = \frac{1}{n - 1} \{ (X_{1} - \overline{X})^{2} + \cdots + X_{n} - \overline{X})^{2} \}$
※標本分散は n - 1 で割ったものであることに注意！この n - 1を自由度という。

データが正規分布に従う時、 $s^{2} = \sigma^{2} / n$
標本数が十分に大きい場合、 $E(s^{2}) = \sigma^{2}$

推定

最尤法

パラメトリック(どんな分布に従うのかがわかる)な場合、「現実の標本は確率最大の物が実現した」と仮定し、分布のパラメータを推定することが出来る。

分布fに従う独立なn個の標本がある場合、同時確率は以下である。(※fはデータの確率分布関数)

$L(\theta) = \prod f(x_i)$

計算のしやすさのために対数をとり、

$l(\theta) = log L(\theta)$

の $l(\theta)$ の値が最大になるfのパラメータを求めることで、パラメータの推定を行う。

モーメント法

母モーメント=標本モーメントとして推定を行う。
ノンパラメトリックな場合にも使える

区間推定

※この区間推定の節は2017/11/06追記

正規母集団の母平均の区間推定

母平均 $\mu$ の信頼係数 $1 - \alpha$ の信頼区間は

$\displaystyle \left[ \overline{X} - Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} ,\ \overline{X} + Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right]$

※Zは標準正規分布に従う変数

また、 $\sigma^{2}$ がわからない時は、

$\displaystyle \left[ \overline{X} - t_{\alpha/2}(n - 1) \cdot s / \sqrt{n} ,\ \overline{X} + t_{\alpha/2}(n - 1) \cdot s / \sqrt{n} \right]$

※ $t_{\alpha}(n)$ はt分布に従う変数

正規母集団の母分散の区間推定

母分散 $\mu$ の信頼係数 $1-\alpha$ の信頼区間は

$\displaystyle \left[ \frac {(n-1)s^{2}} { \chi^{2}_{2/\alpha} (n-1) }, \ \frac {(n-1)s^{2}} { \chi^{2}_{1- 2/\alpha} (n-1) } \right]$

※ $\chi^{2}_{\alpha}(n)$ は $\chi^{2}$ 分布に従う変数

２つの正規母集団の母平均の比の区間推定

$N(\mu_{1}, \sigma_{1}^{2}), N(\mu_{2}, \sigma_{2}^{2})$ の２つ集団から、 [tex: X_{1} \cdots X_{m}, Y{1} \cdots Y{n}]を抽出したときの、 $\mu_{1},\mu_{2}$ の差の区間推定

２つの母分散が等しく $\sigma_{1}^{2} = \sigma_{2}^{2} = \sigma^{2}$ である場合、２つの標本分散は $\displaystyle s^{2} = \frac {1}{m + n - 2} \left\{ \sum_{m}^{i=1} (X_{i} - \overline{X})^{2} + \sum_{n}^{j=1} (Y_{j} - \overline{Y})^{2} \right \}$

2標本のt統計量 $\displaystyle t = \frac{(\overline{X} - \overline{Y}) - (\mu_{1} - \mu_{2})} {s \sqrt{1/m + 1/n}}$

は自由度は $m + n - 2$ に従う。したがって信頼係数 $1-\alpha$ の信頼区間は

$\displaystyle \left[ \overline{X} - \overline{Y} - t_{\alpha/2}(m+n-2) s \sqrt{ \frac{1}{m} + \frac{1}{n} }, \ \overline{X} - \overline{Y} + t_{\alpha/2}(m+n-2) s \sqrt{ \frac{1}{m} + \frac{1}{n} } \right]$

仮説検定

母集団について仮定された命題を標本に基いて検証すること。

帰無仮説と対立仮説

帰無仮説(たてた仮説)と、帰無仮説と反対の対立仮説をたてる。有意水準(5%や1%等)を決めて、棄却域に入らなかった場合に有意水準n%で帰無仮説を棄却しない、入らなかった場合に棄却する。

Aという帰無仮説が採択されても、それは「Aは矛盾しない」ということが分かっただけであり、正しいと証明されるわけではない。

様々な検定

検定対象	検定方法
母平均に関する検定	t検定
母分散に関する検定	$\chi^{2}$ 検定
母平均の差の検定	ウェルチの検定
母分散の比の検定	F検定

実際の検定のやり方については必要なときに調べる。

回帰分析

X : 説明変数／独立変数 Y : 目的変数／従属変数

回帰: 「YをXで説明」すること

Xが単独の場合、単回帰分析
Xが複数の場合、 重回帰分析

さいごに

いろんな本を読んでみての感想

統計学はビジネスサイドの人、研究者の人、エンジニアの人等色んなが学ぼうとする分野です。そのため、いろんな人を対象とした本がでています。統計学を学ぼうと思ったときは「統計学の有名な本」ではなくて、「自分にとっての良いレベルの本」を選ぶのがとても大事だと思いました。

学んでいてとても興味深い分野だったので、これからもっと学んでいきたいですヽ(=´▽`=)ﾉ

追記2(2018/01)

ここにかいた情報おさえていったら、2017/12の統計検定2級に無事合格できました( ᐢ˙꒳˙ᐢ )わーい！

まず一番最初に読みたい本「完全独習統計学入門」
統計学をどうやってビジネスに応用する？「ビジネス活用事例で学ぶデータサイエンス入門」
しっかり統計学を学ぶ「統計学入門(通称:赤本)」
これから読む本
- マンガでわかる統計学
- データ解析のための統計モデリング入門
統計学入門(赤本)まとめ
さいごに

*1: $x^{\alpha-1} e^{-\lambda x}$ の部分は $\alpha = 1$ なら、指数分布になる。

まず一番最初に読みたい本 「完全独習 統計学入門」

統計学をどうやってビジネスに応用する？ 「ビジネス活用事例で学ぶ データサイエンス入門」

しっかり統計学を学ぶ 「統計学入門(通称:赤本)」