「統計学が最強の学問である[実践編]」を学習しました
近年ビッグデータなどの言葉が流行るように、データ分析について大変注目が集まっています。特にITを活用したデータ分析が容易になった現代社会では、今後はビジネスの現場で誰もが何らかのデータ分析を求められるようになるのではないかと思います。
しかしながら、データ分析をする上では、統計学的な思考方法が求められており、ビジネスにおいてデータ分析をするにしても、統計学的なリテラシーを身につける必要があります。そこで、データサイエンティストの知人が、ビジネスマンが統計学を学習する場合にお勧めしてくれた本の中で、「統計学が最強の学問である[実践編]、西内啓(著)」という本を学習することにしました。
この本は、著者が「統計学が最強の学問である」という本を先に出版した後に、「統計学が現代社会で大変活用されていることは分かったが、この本を読んでも統計学を使えるようにはならない」という感想を受けて、実際にビジネスの現場で統計学を実践できるようにという目的で執筆されました。したがって、統計学の基礎的な理論の説明だけではなく、ビジネスではどのような場面でどのような分析方法を使用すればよいかについても解説されています。
また、統計学の基礎的な理論についても、身近なビジネスケースを使って説明されているので、その理論がどのように役に立つのかも理解がしやすかったです。
統計学の理論の詳細な説明に関しては、数学的な考え方が求められる部分があるので、正直なところ理解が十分ではない箇所がありますが、この本を学習して重要だと思う点を上げてみます。
- ある程度のデータ数があれば、平均値というのはそのデータの代表値としてふさわしいので、安心して仕事に活用できる。
- データの分布範囲は、だいたい平均値から+-標準偏差の2倍の範囲あたりに存在する。
- データのグループ間で平均値に標準偏差2つ分以上の違いが生じた場合は、偶然のばらつきとは考えにくい。つまり、偶然ではなくグループ間には何らかの違いが存在する。
- グループ間の差が偶然なのかどうかを判断するために、検定という手法がある。
- データの間の関係性を分析する場合には、回帰分析などの手法がある。
これまでデータ分析を行いグループ間で何らかの差が生じた場合には、直感だけでその差が偶然なのかどうかを判断していましたが、本来は検定という手法を用いて判断するべきだったと勉強になりました。また、ビジネスで何らかの施策を検討する場合も、予め回帰分析などでデータの関連性を分析しておけば、ある程度有効と思われるデータを絞り込むこともできただろうと思います。
なお、上記の検定や回帰分析という手法については、数学的な計算を自分で行わなくても、Rやエクセルなどのツールの機能を使って計算できるので、すぐに実践できます。このようにビジネスでデータ分析を行う場合にも、統計学の基礎知識を習得しておけば、ツールで出てくる数字が何を意味しているのか理解できますので、そのような意味でもたいへん参考になる本でした。