Pythonデータサイエンス
─可視化、集計、統計分析、機械学習─
ライブラリの使い方と分析手法がよくわかる
杜 世橋 著 B5変型判 152ページ 定価:1,980円(税込) 2016年10月下旬刊行
電子書籍
「データサイエンス」と聞くと複雑な数式や高価なソフトウェアパッケージが必要と考えるかもしれませんが、近年では「R」や本書で紹介する「Python」など、データ分析に適した様々なオープンソースのソフトウェアやプログラミング言語が公開されており、必要な知識さえあれば誰でも簡単に高度な分析を行う環境が整ってきています。本書はIT エンジニアの読者を対象とし、データサイエンスの入門としてPython を使用してデータ集計や機械学習などのデータ分析手法を習得することを目的としています。 効率的なデータ分析を実践し、自らのサービスにフィードハックを加えたいエンジニアにとって、必読の一冊です。
内容詳細

■著者プロフィール
東京工業大学 大学院 生命理工学研究科を卒業し、バイオ・インフォマティクスを学ぶ。現在は機械学習を用いたサービスのシステム設計や様々なサービスのデータ分析に従事している。趣味は家庭菜園であり、自宅のベランダは様々な植物で占拠されている(別な意味でもサイエンティスト)。

■サンプルコードのダウンロードはこちら

■[本書の主な内容]

第1章 データサイエンスの概要
1.1 メンデルもケプラーもデータサイエンティストだった
1.2 データサイエンスの手法の要点
1.3 データサイエンスの実業務への適用
1.4 本書の内容
第2章 Pythonとデータサイエンス
2.1 データサイエンスで用いられるソフトウェア
2.2 データサイエンスに使えるPythonのライブラリ
2.3 Pythonの環境構築
2.4 numpy、pandasの基本操作
2.5 Pandas
第3章 データの読み込み、可視化、集計
3.1 データの読み込み
3.2 matplotlibによる可視化
3.3 集計
3.4 RDBMSとの連携
第4章 様々な統計分析
4.1 ヒストグラム分析
4.2 2つのグループを比較する(検定)
4.3 分散分析
第5章 回帰分析
5.1 線形回帰分析
5.2 単回帰分析
5.3 重回帰分析
第6章 教師なし学習
6.1 次元削除
6.2 クラスタリング
第7章 教師あり学習
7.1 データセットの準備
7.2 k最近傍法
7.3 ナイーブベイズ
7.4 ロジスティック回帰
7.5 各種法の比較
第8章 機械学習のWeb API
8.1 Webサービスの基本とFlask
8.2 線形回帰API
8.3 Webアプリのソースコード
付録1 基本的な統計量
1.1 平均値
1.2 分散、標準偏差
1.3 共分散、相関係数
1.4 中央値
1.5 NumPyを使用した計算
付録2 機械学習の手法の分類
2.1 クラス判別
2.2 回帰分析
2.3 クラスタリング