機械学習のための
「前処理」入門
データ分析技術の中心には、分析アルゴリズムやモデリング手法があります。しかし実務の現場では、むしろ「前処理」の重要性に直面します。その方法は「分析目標」と「データ形式」によって異なり、そこからどのように特徴量を作り出すかで、機械学習の成否が左右されます。
本書では、構造化データ、画像データ、時系列データ、自然言語について、機械学習における前処理の手順を紹介。演習問題を経て、Pythonによる実装までを体験します。データ分析のフレームワークCRISP-DMに沿って実装を進めるので、実務に近い形で前処理のテクニックが身に付きます。
内容詳細
■サンプルコードのダウンロードはこちら 機械学習は自動化しても きれいに整形されたデータを使った分析の経験はあっても、「実務で扱う生データをどのように前処理すればよいのか」と、お悩みではないでしょうか。前処理は課題ごとに、都度オーダーメイドで設計・実装していくものです。本書では4種類のデータを対象とし、機械学習で予測を行う場合の前処理の基本ノウハウを学び、Pythonによる実装を体験します。本書で扱った技術は、そのまま実務にも活かせます。 ■著者プロフィール 足立 悠(あだち はるか) BULB株式会社所属のデータサイエンティスト。 ■読者フォローアップサイトはこちら ■本書の主な内容 |
第1章 データ分析・活用を始めるために |
1 データドリブンな時代へ 2 データ分析プロジェクトに必要な要素 3 データ分析人材のスキル |
第2章 データ分析のプロセスと環境 |
1 ビジネス理解 2 データ理解 3 データ準備 4 モデル作成 5 評価 6 展開・共有 7 データ分析環境の選択 8 Jupyter Notebook の使い方 |
第3章 構造化データの前処理 |
1 データ理解 2 データ準備 3 モデル作成 4 再びデータ準備へ 5 再びモデル作成へ 練習問題の解答 |
第4章 構造化データの前処理(2) |
1 顧客の特性を知る 2 顧客のグループ化 3 潜在ニーズの抽出 |
第5章 画像データの前処理 |
1 データ理解 2 機械学習のためのデータ準備 3 深層学習のためのデータ準備 練習問題の解答 |
第6章 時系列データの前処理 |
1 データ理解 2 データ準備 3 教師データの作成 練習問題の解答 |
第7章 自然言語データの前処理 |
1 データ理解 2 機械学習のためのデータ準備 3 深層学習のためのデータ準備 4 トピック抽出のためのデータ準備 |
付録 |
1 JupyterLab ローカル環境の構築 2 画像認識モデルの作成 3 記事分類モデルの作成 4 記事トピックの抽出 5 様々な可視化ツール |