データサイエンスのお奨め教科書。統計屋さん的視点から

知人に、確率・統計を勉強するにはどんなん読んだら良いんかね?と聞かれたので、まとめる。

線形代数

統計を勉強しようと思ったら、先ず、線形代数を勉強するのが良いと思う。回帰分析とか主成分分析とか多次元尺度構成法とか、こういう有名ドコロが一発で分かる。線形代数を知らずに統計の本で「コレコレの計算で出てきた値が第一主成分だよ」みたいな説明を何回くり返し読んでも、多分、一生理解出来無いと思う。対称行列は直交行列で対角化出来るよね、とか、これは射影行列の形だね、とかが自然に分かるようになってから、統計の本を読むとよく理解出来る。

で、線形代数のお奨めはこれ。

プログラミングのための線形代数

プログラミングのための線形代数

プログラミングのための…とあるんだけど、確か、殆どプログラミングの話は出てこなかった気がする。唯一覚えているのは、線形代数の計算は世界中のガチ勢が凌ぎを削っている世界であり素人が手を出したら火傷確実なので、ライブラリを使いなさい、という忠告である。この他に、
統計のための行列代数 上

統計のための行列代数 上

というのもある。これも、統計のための…とあるんだけど、統計の話は全然出て来ない。なんてこっちゃ。

数理統計学

数理統計学の教科書は、もの凄く沢山出ているし、多分、入門書の内容というのがほぼ確立されているので大抵の本で同じような内容なんだけど、私のお奨めは、これである。

数理統計学 (数学シリーズ)

数理統計学 (数学シリーズ)

とにかく何かしら数理統計学の本を一冊呼んで、統計屋さんがどういう風に問題を設定しているのかを把握しておくと、良いと思う。その他に、
数理統計学―データ解析の方法

数理統計学―データ解析の方法

現代数理統計学 (創文社現代経済学選書)

現代数理統計学 (創文社現代経済学選書)

というのも良い本である。

ベイズ統計

パターン認識と機械学習 上

パターン認識と機械学習 上

みんな大好きPRML。この本の良い所は、練習問題がとにかく沢山ある事である。この本の練習問題を全部解いたら、あなたも今日からデータサイエンティスト!
Information Theory, Inference and Learning Algorithms

Information Theory, Inference and Learning Algorithms

この本は名著だと思う。話題の選び方も面白いし、単なる数学的な説明だけでなくて直観的な説明が豊富である。これも練習問題が沢山ある上に、一部には解答が付いているので、自習し易いかもしれない。著者は物理学者なので、統計の門外漢にも読み易いのではないかと思う。個人的にはPRMLよりも推しであるんだけど、勉強会やってますみたいな話は見たことないな。

おまけ:解析と確率論

統計をやるには、微分積分=解析も必要である。解析学も、大抵の入門的教科書で似たような内容なんだけど、次の本は凄く特徴的で変わったアプローチで、内容もとても面白い。昔の人がどういう風に考えていたかが、少し分かる気がする。

解析教程・上 新装版

解析教程・上 新装版

統計学は確率論に基いているので、当然、厳密な確率論を知らないよりは知っていた方が良い。が、厳密な確率論=測度論的確率論はメチャクチャ難しい。もし、勉強するならば、易しいんだけどキチンと誤魔化さずに書いている次の本がお奨め。
A First Look at Rigorous Probability Theory

A First Look at Rigorous Probability Theory