機械学習のための 「前処理」入門
機械学習の成否を分かつ「前処理」 実務に直結するテクニックを習得
足立 悠 著 B5変型判 304ページ 定価:3,080円(税込) ISBN:978-4-86594-196-8 2019年6月上旬刊行
電子書籍
データ分析技術の中心には、分析アルゴリズムやモデリング手法があります。しかし実務の現場では、むしろ「前処理」の重要性に直面します。その方法は「分析目標」と「データ形式」によって異なり、そこからどのように特徴量を作り出すかで、機械学習の成否が左右されます。 本書では、構造化データ、画像データ、時系列データ、自然言語について、機械学習における前処理の手順を紹介。演習問題を経て、Pythonによる実装までを体験します。データ分析のフレームワークCRISP-DMに沿って実装を進めるので、実務に近い形で前処理のテクニックが身に付きます。
内容詳細
■サンプルコードのダウンロードはこちら

機械学習は自動化しても
前処理はエンジニア頼み

 きれいに整形されたデータを使った分析の経験はあっても、「実務で扱う生データをどのように前処理すればよいのか」と、お悩みではないでしょうか。前処理は課題ごとに、都度オーダーメイドで設計・実装していくものです。本書では4種類のデータを対象とし、機械学習で予測を行う場合の前処理の基本ノウハウを学び、Pythonによる実装を体験します。本書で扱った技術は、そのまま実務にも活かせます。
 機械学習における分析モデルの作成は自動化されつつありますが、その時に投入する特徴量は、人の手で前処理して作成する状況が続くでしょう。これからデータ分析に携わる方々にとって、前処理の力を高めることは、きっと大きな助けとなるでしょう。
(本書「あとがき」から抜粋・編集)

■著者プロフィール

足立 悠(あだち はるか)

BULB株式会社所属のデータサイエンティスト。
過去にメーカーのSE やデータサイエンティスト、IT ベンダーのデータアナリスト等を経て現職。数々のデータ分析プロジェクトのほか、実務者教育にも従事。個人的な活動として、記事や書籍の執筆、セミナー講師なども行っている。著書に『初めてのTensorFlow』と『ソニー開発のNeural Network Console 入門』がある。
多感な時期に高専で5年間を過ごしてしまったせいか、周囲から変人や外れ値と評されている。趣味はお地蔵さんが密集している場所に佇むこと。近いうちに、日本を北から南へ移動しながら仕事し、パフォーマンスを測定してみたい。


■読者フォローアップサイトはこちら

■本書の主な内容
第1章 データ分析・活用を始めるために
1 データドリブンな時代へ
2 データ分析プロジェクトに必要な要素
3 データ分析人材のスキル
第2章 データ分析のプロセスと環境
1 ビジネス理解
2 データ理解
3 データ準備
4 モデル作成
5 評価
6 展開・共有
7 データ分析環境の選択
8 Jupyter Notebook の使い方
第3章 構造化データの前処理
1 データ理解
2 データ準備
3 モデル作成
4 再びデータ準備へ
5 再びモデル作成へ
練習問題の解答
第4章 構造化データの前処理(2)
1 顧客の特性を知る
2 顧客のグループ化
3 潜在ニーズの抽出
第5章 画像データの前処理
1 データ理解
2 機械学習のためのデータ準備
3 深層学習のためのデータ準備
練習問題の解答
第6章 時系列データの前処理
1 データ理解
2 データ準備
3 教師データの作成
練習問題の解答
第7章 自然言語データの前処理
1 データ理解
2 機械学習のためのデータ準備
3 深層学習のためのデータ準備
4 トピック抽出のためのデータ準備
付録
1 JupyterLab ローカル環境の構築
2 画像認識モデルの作成
3 記事分類モデルの作成
4 記事トピックの抽出
5 様々な可視化ツール