Pythonデータサイエンス
─可視化、集計、統計分析、機械学習─
─可視化、集計、統計分析、機械学習─
「データサイエンス」と聞くと複雑な数式や高価なソフトウェアパッケージが必要と考えるかもしれませんが、近年では「R」や本書で紹介する「Python」など、データ分析に適した様々なオープンソースのソフトウェアやプログラミング言語が公開されており、必要な知識さえあれば誰でも簡単に高度な分析を行う環境が整ってきています。本書はIT エンジニアの読者を対象とし、データサイエンスの入門としてPython を使用してデータ集計や機械学習などのデータ分析手法を習得することを目的としています。
効率的なデータ分析を実践し、自らのサービスにフィードハックを加えたいエンジニアにとって、必読の一冊です。
内容詳細
■著者プロフィール |
第1章 データサイエンスの概要 |
1.1 メンデルもケプラーもデータサイエンティストだった 1.2 データサイエンスの手法の要点 1.3 データサイエンスの実業務への適用 1.4 本書の内容 |
第2章 Pythonとデータサイエンス |
2.1 データサイエンスで用いられるソフトウェア 2.2 データサイエンスに使えるPythonのライブラリ 2.3 Pythonの環境構築 2.4 numpy、pandasの基本操作 2.5 Pandas |
第3章 データの読み込み、可視化、集計 |
3.1 データの読み込み 3.2 matplotlibによる可視化 3.3 集計 3.4 RDBMSとの連携 |
第4章 様々な統計分析 |
4.1 ヒストグラム分析 4.2 2つのグループを比較する(検定) 4.3 分散分析 |
第5章 回帰分析 |
5.1 線形回帰分析 5.2 単回帰分析 5.3 重回帰分析 |
第6章 教師なし学習 |
6.1 次元削除 6.2 クラスタリング |
第7章 教師あり学習 |
7.1 データセットの準備 7.2 k最近傍法 7.3 ナイーブベイズ 7.4 ロジスティック回帰 7.5 各種法の比較 |
第8章 機械学習のWeb API |
8.1 Webサービスの基本とFlask 8.2 線形回帰API 8.3 Webアプリのソースコード |
付録1 基本的な統計量 |
1.1 平均値 1.2 分散、標準偏差 1.3 共分散、相関係数 1.4 中央値 1.5 NumPyを使用した計算 |
付録2 機械学習の手法の分類 |
2.1 クラス判別 2.2 回帰分析 2.3 クラスタリング |