web系に関わる情報を 専門家が毎日発信!

データサイエンスに必要な数学知識レベル別まとめ【数学最重要説】

 

最近データサイエンスに関して思うところを発信している僕ですが、先日こんなツイートをしました。

 

データサイエンスに必要な前提となる数学知識は、確率統計、線形代数、プラスαで最適化ですかね。そこから徐々に、高度な統計モデルを個別テーマで興味のあるところから掘り下げるといいかと。前提となる数学は、大学の講義で習えるのでデータサイエンティスト狙う大学生は有利な環境でいいなあと思う

 

データサイエンティストになりたい、データサイエンスを学んで仕事に活かしたい、こんな希望のある人や大学生は、まずはデータサイエンスの基礎的な前提知識となる数学から学習していく必要がありますね。今回はデータサイエンスに必要な数学を紹介しつつ、現場でどの数学知識がどう活用されているかまで紹介したいと思います。なぜなら、僕も当時そうでしたが数学がどう実務レベルのデータサイエンスに活かされるか想像できず勉強が捗らなかったため。

 

参考:データサイエンティストの将来性と仕事内容【シンプルに凄い】

 

この記事の信頼性ですが、僕は大学院時代からネットワーク解析を使った研究をしていて、今では大手インターネットサービス企業で働いており、データサイエンティストとも働いているので、ある程度知識や知見はあるかなと思っています。

 

データサイエンスに必要な数学

 

まずはデータサイエンスに必要な数学のレベル感を分けると、前提知識レベル、データサイエンティスト的な何か分析や解析を行う際に最低限となる数学知識レベル、そして中級者以上を目指す数学知識レベルで分けてみました。自分がどのラインにいるかもチェックするといいかもしれません。

 

前提知識

まずデータサイエンティストやデータサイエンス的な何か分析などをするための数学を学ぶために、前提となるレベルでの数学知識は大学初頭教育レベルの統計学です。この統計学の理解なくしては、後々の確率統計や最適化の数学知識を吸収するのは非現実的なので、ここから始めると良いです。

 

統計学

 

統計学ですが、基本的な統計量についての理解や、分布についての基本的な理解を目指しつつ、検定などの理解も行なっていくといいですね。基本的とはいえども、実際に働いてみると検定がこの仕事でこんな風に活かされるんだなあと感慨深いものがあります。統計においては、以下の3冊を興味のある分野の好みに応じて学習するといいですね。

 

統計学入門

 


言わずと知れた赤本です。統計学であれば、大学で学ぶのに使っている本でもいいですし、なければこの統計学入門がおすすめです。いろんなデータサイエンティストもおすすめしている著名な本です。

 

自然科学の統計学

 


先ほどの統計学入門で基本的な統計学を学べたら、次はあなたが自然科学分野に関心があれば自然科学の統計学がおすすめです。こちらも同じ東京大学出版なので、先ほどの統計学入門と連続感を持たせて学習できるのも高評価なポイント。

 

人文・社会科学の統計学

 


ラストは、人文・社会科学の統計学です。こちらは人文系、社会科学系が関心対象の方向けの統計学の本です。レベル感的には、難易度が高い順に、自然科学の統計学>人文・社会科学の統計学>統計学入門でして、とはいえ、自然科学の統計学と人文・社会科学の統計学は重複しなくていいかなというイメージですかね。

 

線形代数

続いては、線形代数ですね。線形代数も、大学の初等教育で習う数学なので、手元にあればそれを元に学習するでOKかと思います。

プログラミングのための線形代数

 


線形代数に関しては、こちらのプログラミングのための線形代数がおすすめでしかないですね。タイトル通り、プログラミングのためのなので、単純に線形代数が学ぶのではなくて、学びながらもそのさきに待っている世界を知りながら学習が可能なので、データサイエンスのために数学を学習したい方に最適です。

 

最低限ライン

 

データサイエンスのための数学を学習して理解できる前提となる数学知識を先ほどの本などで学習できたら、次はいよいよデータサイエンスを実践するにあたって最低限となる数学を学んでいきます。確率統計と最適化の2つが最低限ラインかなと感じています。

 

確率統計

確率統計ですが、前提となる数学知識で統計学入門や自然科学の統計学などを学習済みであれば、ある程度すんなり理解できるかと思います。確率統計なので、データサイエンスで活用される予測や実践的な統計において数学理解が深まります。

プログラミングのための確率統計

 


こちらのプログラミングのための確率統計は、先ほどのプログラミングのための線形代数と同じ出版社です。コンセプトも同じなので、難解な確率統計をそのさきに待っている物をイメージしながら数学の学習が可能なので、モチベーションが維持しやすいのがいいところ。

 

最適化(プラスα)

 

データサイエンスで最低限となるもう1つ学んでおきたい数学は、最適化ですかね。なぜかというと、ビジネスのデータサイエンスの活用で最適化は結構多い印象だからです。後述する事例を読むとわかりますが、何か複数の選択肢に投下されているコストの効率化をする場合とか最適化が対象になりますし、データサイエンスで活用多いですよね、この分野。

 

これなら分かる最適化数学

 


こちらのこれなら分かる最適化数学が最適化ではおすすめです。ただ、これまで紹介したデータサイエンスに役立つ数学の中では、一番難しいかもしれません。ただ、一歩抜きん出るためには必須なのでデータサイエンスしたいなら学んでおきたいところです。

 

中級以上ライン

ではこれまでが最低限ラインとなるデータサイエンスの数学でしたが、中級以上では、ベイズ統計を学ぶといいかなと思います。ベイズ統計もデータサイエンスで活用事例が多いですし、頻出なので学びたいところ。

ベイズ統計

 

ベイズ統計は、スパムメール判定や機械学習に使われるので、なかなか学ぶと得られるものが大きい数学知識です。ぜひ脱初心者したい方は、ベイズ統計も学習しておきましょう。

 

完全独習 ベイズ統計学入門

 


ベイズ統計もなかなか難しいので、ベイズ統計の入門書的な本を紹介します。ベイズ統計学入門は、文字通りベイズ統計の入門書なので、初めてベイズ統計を学ぶ場合はこちらで十分です。もっとレベルの高い本では、統計モデルの本などでより難易度の高い数学を学べるので、最初はこちらにしておくといいかと。

 

Udemyでデータサイエンスのための数学も学ぶのもいい

 

これまでは本での学習をおすすめしましたが、本だと味気ないとか高いよ!であれば、Udemyのデータサイエンスのための数学の動画もおすすめですね。普通は1万円くらいするのですが、日によって1000円とか謎に破格値で視聴可能です。

 

Udemyで学べるデータサイエンスの数学
内容

・Pythonの基礎
・数学の基礎
・線形代数の基礎
・確率統計の基礎
・微分の基礎
・人工知能への応用

 

こんな感じでかなり幅広いです。全部で5時間くらいですし、本より安く済むのでありかと思います。僕はすでに本で学んでいたので、視聴はしてませんが動画サービスもいいコンテンツが出てくる時代でいいですね。

 

データサイエンスで学んだ数学はどう活用されているか

 

では、先ほど紹介してきたデータサイエンスで学んだ数学はどのようにビジネスで活用されているかを紹介していきます。大きくは、予測系、最適化系、説明系で大別できそうです。

 

分野例えば
予測系これから需要がどうなるかなどを予測
最適化系広告などの投資効果を最適化するなど
説明系現状の事象がどう統計的に解釈してアクションすべきかを説明

 

予測系

予測系は、ベイズ統計とかが数学でいうと関連するのですが、どう活用されているかでいうと、例えば有名なのはスパムメール判定とかですね。あとは、何か数値的なもので将来予測したいものが該当します。これは売り上げとかじゃなくて、価格をどう変動させると売り上げが最大化されるかとかそういうものです。Airbnbとかがやってそうな分野。

 

最適化系

2番目のデータサイエンスで使われる数学では、最適化も該当します。最適化は先ほどの最適化数学で学べます。最適化で多いのは、莫大な広告予算をどう現状の対象に投下するとROI最大化されるかとかが多いかなと思います。

 

各社広告予算が多い会社なんかはやってるんじゃないかと思いますね。そして、レバレッジが機器やすい=インパクトが出やすいのもこの分野かと。データサイエンスでビジネスインパクトだす秘訣は、現状でかなりお金使っているけど科学されてなくて最大化や効率化、最適化の余地が残っているところを狙う、だと思います。データの質と量もあるとさらに親和性高い。

 

説明系

最後のデータサイエンスで活用できる数学の事例は、説明系でしょう。説明系は、現状の事象を統計的にどう説明できるかが多いかと思います。イメージしやすい事例は、ABテストの結果が統計的に有意な差があるのかどうかを検定するとかですね。

 

そのほか各種意思決定にも使えるのが、説明系です。説明系は、最初の統計学で数学理解が深まると活かせるスキルです。ぜひデータサイエンスしていきたい方は学習しましょう。第1種の過誤とか、基本的な統計や数学知識もほとんどの会社員は理解してないのでこれが分かるだけでも会社員という括りでは結構差別化できます。データサイエンティストだと当たり前数学知識ですけどね。

 

データサイエンスで専門性高めたいなら数学だと思う

 

最後にデータサイエンスで数学はどこまで重要なスキルかを考えたいと思います。巷では、公式があるから実は重要じゃないとか言われたりしますが、データサイエンティストの専門性の源泉は数学だと思っているので、僕はあえて数学が一番重要だと思っています。

 

というのもそもそも、データサイエンティストに必要なスキルは、ビジネス、データサイエンス(数学)、プログラミングの3つとされています。この中でデータサイエンス(数学)以外は、実は会社によっては他の人の方がスキルあったりして(プログラミングは違うけど)、役割分担されていることもあるからです。しかし、データサイエンス(数学)はデータサイエンティストの拠り所です。

 

参考:データサイエンティストに必要なスキル【事業会社目線で解説】

 

事業会社とかだと、ビジネスサイドの人間が課題設定(ビジネススキル)をして、データサインティストと協業することも多いですし、プログラミングはまあエンジニアよりの人が行うことも多いです。今後、役割分担などが組織として進んだ時にデータサイエンティストとして力を発揮できるのは数学で行う、だと思います。

 

まとめ

 

ということでデータサイエンスで必要な数学知識をレベル別で紹介しつつ、それぞれの数学がどのように活用されているかも紹介しました。データサイエンティストになりたい方は、数学から始めるといいかと思います。

 

参考:データサイエンススクール厳選3社【現状スキルに合わせた選び方も解説】

最新情報をチェックしよう!