前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。
とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。
今回はおすすめしてもらった中で読んで良かった本の紹介、そして読んだ本の簡単なまとめを書いて行きたいと思います。
※前提: 4月時点の自分の知識に関して
まず一番最初に読みたい本 「完全独習 統計学入門」
「簡単に統計学の全体像がつかめる入門書はないか」とTwitterで相談したら、こちらの本を数名の方が薦めて下さった。
- 作者: 小島寛之
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2006/09/28
- メディア: 単行本(ソフトカバー)
- 購入: 215人 クリック: 3,105回
- この商品を含むブログ (115件) を見る
☆読み終えるまでの時間: 4時間
「数式がでてこない」がコンセプトな、算数程度の知識で読める入門書。
とてもわかりやすく、統計学をざくっと知るにはとてもよい本。
これから勉強しようとする人がまず最初に全体像を把握しようとする目的においてもお勧めできる。
私はこれを読みながらもっと詳しく統計学を知りたい!という気持ちを作ることができた。
完全独習 統計学入門、途中でお昼寝したりした時間含めて4時間で読み終えた。とりあえず今から自分が何を学ばなきゃいけないかの全体像は見えた。 かるーくよめてよい本だった。
— くー@( o・ω・)ノデータあるけみすと (@cocodrips) 2017年4月3日
統計学をどうやってビジネスに応用する? 「ビジネス活用事例で学ぶ データサイエンス入門」
- 作者: 酒巻隆治,里洋平
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2014/06/25
- メディア: 単行本
- この商品を含むブログ (1件) を見る
勉強したデータ解析や統計手法をどのように実際のビジネスに繋げていくかという話。 統計学の本を読んだだけでは、どうやって活用していくのかが見えにくいので、そのあたりのイメージがつかめる良い本だった。
Rでサンプルがかかれているが、私は活用事例をしっかり読んで、データ加工の部分のサンプルコードは全部読み飛ばした。
ビジネス活用事例で学ぶデータサイエンス入門(https://t.co/gM7j8NEZl2)コードのサンプルの部分はすっとばして3時間で読み終えた。知ってる分析手法(や、一部知らない手法)のビジネスへの活用の仕方を学ぶ導入としてよい本だった。分析手法についてもっと勉強したくなった
— くー@( o・ω・)ノデータあるけみすと (@cocodrips) 2017年4月6日
「サンプルを実際に手で動かさないと意味が無いよ!」とアドバイスをいただいたので、 後ほどPythonバージョンでサンプルデータを動かしてみることにする。
たしかに実際データで実践しようとしたら、「やり方が色々有ることはわかるが、どうするのがより良いのか」みたいなのがつかめず苦戦した。 このデータならこういう風に加工するのがいい、というのを身につけておくのが作業を時短するために大事そうだと思った。
しっかり統計学を学ぶ 「統計学入門(通称:赤本)」
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (79件) を見る
これまで得た知識をふまえ、さらに基礎がしっかり学べる本。
数式がめちゃくちゃ出て来るが、最初に記号の紹介ページがあるためとても読みやすかった。
(記号表がないと、間をあけて途中から読み始めたときに前回までの記号の意味を忘れがちなので)
1冊目にこの本を手に取ると挫折しかねないので、個人的には2冊目以降にオススメしたい。
基礎をしっかり学びたい人向けであって、「実践向けではない」と、この本を読んでいると人に話すとよく言われた。 私は基礎をしっかり知ってから応用・実践したい派なのでじっくり読んだ。
※持論: 基礎を先に時間を書けて学んだほうが、応用・実践で吸収出来ることが多い。
1日5時間読むようにしていて、大体7日間ほど(計35時間程度)で読んだ。 この本の知識が役に立つかどうかはまだわからないので、実際業務のどんなときにこの知識が役に立ったかわかったら、 また追記したい。 個人的には少なくともクライアントに「こいつ統計の基礎わかってないな」って思われないための基礎知識をつけたいという気持ちで読んだ。
※追記 2017/11/07(書いてから半年) やはり赤本レベルの知識は分析を仕事にする上最低限知っておきたい知識だった。入社前にそこそこちゃんと勉強しておいてよかった。このあたりの知識がないと適当な感覚で分析する羽目になる(乂'ω')。あとこれ読んだ記憶で統計検定2級の過去問やったら8割方理解できたのでやはりしっかり網羅されてて良い本だ。
これから読む本
他にもお勧めされている本があるので、こちらの本はこれから読んで行きたいと思っている。
※最後に書いていたのですが、次の節が長すぎるのでこちらに移動しました。
マンガでわかる統計学
- 作者: 高橋信,トレンドプロ
- 出版社/メーカー: オーム社
- 発売日: 2004/07/01
- メディア: 単行本
- 購入: 156人 クリック: 1,757回
- この商品を含むブログ (203件) を見る
データ解析のための統計モデリング入門
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
こちらも有名な本。 かなり重そうなので、余裕ができたら読みたい。
統計学入門(赤本)まとめ
統計学入門については内容量が多く、読んだだけでは身につかなそうだったので、 以下に後から見直す用に、統計学入門の内容をまとめた。
これを見たからと行って統計学がわかるようなものではなく、読んだ人が後から見直して「あ〜、そうだった」って思うためのもの。 また、まだ知識がないので読み間違えている部分がある可能性がある。見つけ次第・追記修正していきたい。
絶対に覚えておきたい 統計学で使われる基本的な記号
記号 | 意味 |
---|---|
母平均 | |
標本()の平均 | |
母分散 | |
標本分散 | |
標本相関係数 | |
偏相関係数 | |
全事象・標本空間 |
一次元データ
階級数の目安 (※スタージェスの公式より)
※棒グラフとかを書くときに、棒の数(=階級数)の目安をこれくらいにしようという話。
データの代表値
- 算術平均(mean)
- 一般的に「平均」と呼ばれるもの。外れ値の影響を受けるため、感覚とはズレやすい。
幾何平均
調和平均
中央値(median)
- 極端な外れ値の影響を受けづらい。100のデータがあれば下から50番目(真ん中)のデータの値。
- 最頻値(mode)
データの散らばり具合を示す指標
分散
二次元データ
相関
積率相関係数
いわゆる相関係数と呼ばれるもの。
- 分子の部分 は、偏差積の平均で、共分散(covariance,)と呼ばれる。
- 分母の部分はxの標準偏差とyの標準偏差の積。
- で、1に近い時正の相関/-1に近い時負の相関がある
- 相関係数が0に近くても、因果関係がないとは限らない
偏相関係数
が1に近くても、実はzを通してとが大きく、には直接的な関係がない場合がある。
こういった場合に判断を間違えてしまうことが多い。
そんなときは偏相関係数と言って、xyzがあるときにzの影響を除いたxyの相関関係を求める。 zの影響を除いたxyの偏相関係数をと書き、以下の用に定義する。
順位相関係数
2つの質的基準がある場合の、iの順位との順位の相関を表す基準を順位相関係数という。
(※例: 男性/女性ごとのなにかのランキングの順位の相関関係)
順位相関係数はスピアマンとケンドールによる定義があるが、ケンドールの方はここにかくのはめんどくさいので省く。
スピアマンの順位相関係数は以下のように定義される
時系列と自己相関
時系列を1時点ずつずらしたの相関を
遅れ(lag)1の自己相関係数と言う。
遅れの自己相関係数は以下のように定義できる。
例: 一月ごとの売上のデータがあり、毎年同じ月には似た傾向ある場合、の自己相関係数が大きくなる
回帰
直線回帰
2変数x,yで、一方のxが他方のyを左右する関係がある時、 xを独立変数 yを従属変数という。
その時 x と y には という関係式が成立することが想像される。 最小二乗法によって最適なa,bを求める。
この は偏回帰係数もしくは回帰係数と呼ばれる。 また、回帰係数は以下のようにも表される。
さらに、 bとxとyの相関係数の間には、 という関係が成立する。
重回帰
独立変数が 2つ以上の場合、重回帰という。
独立変数の数が2だった場合、 となり、直線ではなく三次元空間における平面への当てはめとなる。
確率
条件付確率
既にBの条件を満たすことがわかっている場合のAの確率を、
Bを条件とするAの条件付確率()と言い、以下で表される
ベイズの定理
A を得られた結果、 を原因とする。 一般に得られるのは原因があった場合の結果の確率、つまりで有る場合がほとんど。 ベイズの定理は、結果からの原因を求める定理である。
が互いに排反でである時、以下の規則が成り立つ。
この時、 は の事前確率、 は事後確率と呼ばれる。
※事前、事後は事象Aが起こることを基準としている
確率変数
基本的な変数
期待値
- (離散)
- (連続)
分散
標準偏差
歪度(わいど)と尖度(せんど)
歪度
確率分布の左右の非対称性の指標
の大きさが、歪みの大きさ。 なら左の裾が長く、ならば右の裾が長い。
尖度
尖りの程度を示す指標
ふつうは と比較する。
ならば正規表現よりも丸く鈍い形をしており、
ならば正規表現よりも尖っている。
モーメント
以下をXの次のモーメント(積率)という。
以下を期待値(平均)まわりの次のモーメントという。
- は期待値
- は分散
また、
以下は次の標準化モーメントと呼ばれる。
※ 歪度の, 尖度の
チェビシェフの不等式
のみがわかっている時、一般に以下が成り立つ。
つまり、平均から以上離れた値は、全体のを超えることはないということである。
確率分布
このあたりは完全に理解できてはいないのでメモ程度。 また復習し直したい。
二項分布
2種類の結果がありそれが起こる確率がであるような試行をn回繰り返したときの確率分布。で表す。
また、をベルヌーイ分布ということがある。
ポアソン分布
二項分布において、pが小さく、nが大きい場合
正規分布
指数分布とガンマ分布
指数分布
ガンマ分布
ガンマ分布は指数分布を一般化*1したものであり、以下の確率密度関数で表される。
期間ごとに1回起こるランダムな事象がn回起こるまでにどれだけかかるかの分布。
で割られているのは規格化のためである。 ※
は が正整数ならに一致する。また、
- で指定されるガンマ分布をと表す。
- 特に は自由度nのカイ二乗分布と言われる。
ベータ分布
のとき、ベータ分布はで表す。
は 積分して1にするための規格化定数である。
その他の確率分布
以下はまた必要になったときに調べようと思う。
- コーシー分布
- 対数正規分布
- パレート分布
- ワイブル分布
多次元の確率分布
共分散
ならXYは大小が反対傾向、なら同傾向。
E(XY)の計算方法:
- 離散型
- 連続型
相関係数
大数の法則と中心極限定理
大数の法則
標本を増やせばほとんど母集団と同じ様なデータ分布になるよね、というような話。 読むのがよい。
中心極限定理
母集団が何であってもnが十分に大きければ和 の確率分布の形は、だいたい正規分布になる、というような話。 読むのがよい。
標本分布
パラメトリックとノンパラメトリック
言葉としてよく出てくる。
- パラメトリックの場合: 母集団の分布についてすべて知ることが出来る場合のこと
- ノンパラメトリックの場合: 母集団の分布の具体的な形が事前にわからない場合のこと(正規分布に従うのか?他の分布に従うのか?等)
母数と統計量
- 標本: サンプルデータのこと
- 母集団: 全体のデータのこと
標本平均
- データが正規分布に従う時
- 標本数が十分に大きい場合
標本分散
※標本分散は n - 1 で割ったものであることに注意!この n - 1を自由度という。
- データが正規分布に従う時、
- 標本数が十分に大きい場合、
推定
最尤法
パラメトリック(どんな分布に従うのかがわかる)な場合、「現実の標本は確率最大の物が実現した」と仮定し、 分布のパラメータを推定することが出来る。
分布fに従う独立なn個の標本がある場合、同時確率は以下である。(※fはデータの確率分布関数)
計算のしやすさのために対数をとり、
のの値が最大になるfのパラメータを求めることで、パラメータの推定を行う。
モーメント法
母モーメント=標本モーメントとして推定を行う。
ノンパラメトリックな場合にも使える
区間推定
※この区間推定の節は2017/11/06追記
正規母集団の母平均の区間推定
母平均 の 信頼係数 の信頼区間は
※Zは標準正規分布に従う変数
また、 がわからない時は、
※ はt分布に従う変数
正規母集団の母分散の区間推定
母分散 の信頼係数の信頼区間は
※は分布に従う変数
2つの正規母集団の母平均の比の区間推定
の2つ集団から、 [tex: X_{1} \cdots X_{m}, Y{1} \cdots Y{n}]を抽出したときの、の差の区間推定
2つの母分散が等しく である場合、 2つの標本分散は
2標本のt統計量
は自由度は に従う。したがって信頼係数の信頼区間は
仮説検定
母集団について仮定された命題を標本に基いて検証すること。
帰無仮説と対立仮説
帰無仮説(たてた仮説)と、帰無仮説と反対の対立仮説をたてる。 有意水準(5%や1%等)を決めて、棄却域に入らなかった場合に 有意水準n%で帰無仮説を棄却しない、入らなかった場合に棄却する。
Aという帰無仮説が採択されても、それは「Aは矛盾しない」ということが分かっただけであり、 正しいと証明されるわけではない。
様々な検定
検定対象 | 検定方法 |
---|---|
母平均に関する検定 | t検定 |
母分散に関する検定 | 検定 |
母平均の差の検定 | ウェルチの検定 |
母分散の比の検定 | F検定 |
実際の検定のやり方については必要なときに調べる。
回帰分析
X : 説明変数/独立変数 Y : 目的変数/従属変数
回帰: 「YをXで説明」すること
- Xが単独の場合、単回帰分析
- Xが複数の場合、 重回帰分析
さいごに
いろんな本を読んでみての感想
統計学はビジネスサイドの人、研究者の人、エンジニアの人等色んなが学ぼうとする分野です。 そのため、いろんな人を対象とした本がでています。 統計学を学ぼうと思ったときは「統計学の有名な本」ではなくて、「自分にとっての良いレベルの本」を選ぶのがとても大事だと思いました。
学んでいてとても興味深い分野だったので、これからもっと学んでいきたいですヽ(=´▽`=)ノ
追記2(2018/01)
ここにかいた情報おさえていったら、2017/12の統計検定2級に無事合格できました( ᐢ˙꒳˙ᐢ )わーい!
目次
最後の最後だけど、今回の目次です。
- まず一番最初に読みたい本 「完全独習 統計学入門」
- 統計学をどうやってビジネスに応用する? 「ビジネス活用事例で学ぶ データサイエンス入門」
- しっかり統計学を学ぶ 「統計学入門(通称:赤本)」
- これから読む本
- 統計学入門(赤本)まとめ
- さいごに
*1:の部分はなら、指数分布になる。