Kaggleで磨く 機械学習の実践力
──実務xコンペが鍛えたプロの手順
──実務xコンペが鍛えたプロの手順
●Kaggleは楽しい!
Kaggleは誰でも気軽に参加できるデータ分析の競技コンペです。
コンペで試した技を、実務に応用する──そのシナジーにより、みるみる実力が付きます。
Kaggleマスターの著者自身がそうして得たノウハウを、惜しげもなく本書では公開します。
しかし、本書を通じてお伝えしたいのは、何よりKaggleのワクワク感です!
内容詳細
データ分析/AI/機械学習の領域に入っていきたい社会人や学生が増えていますが、どうやって取り組んだらいいか、迷っている人が少なくありません。そこで、データ分析の実務経験に加え、様々な分析コンペティションに参加してきた著者の経験を活かし、業務に活かせる機械学習の技術や考え方をまとめました。
●本書が目指すこと
・分析コンペのプラットフォームで「Kaggle」を活用し、手を動かしながら、機械学習を用いたデータ分析の基本的な進め方を修得する
・分析設計を行ない、Pythonを使って「自身の力で」分析スクリプトを作成する
・実際に手を動かして、分析の楽しさを感じてもらう
・分析コンペのプラットフォームで「Kaggle」を活用し、手を動かしながら、機械学習を用いたデータ分析の基本的な進め方を修得する
・分析設計を行ない、Pythonを使って「自身の力で」分析スクリプトを作成する
・実際に手を動かして、分析の楽しさを感じてもらう
●対象読者
スキルレベルとしては「データ分析の初級者」を対象とし、実務で役立つ基本スキルの獲得を目指します。
・社会人・学生を問わず、データサイエンティストになりたい方
・データサイエンティストのスキルを磨きたい方(脱初級者を目指す方)
・Kaggleに興味のある人、趣味で分析をしている方
スキルレベルとしては「データ分析の初級者」を対象とし、実務で役立つ基本スキルの獲得を目指します。
・社会人・学生を問わず、データサイエンティストになりたい方
・データサイエンティストのスキルを磨きたい方(脱初級者を目指す方)
・Kaggleに興味のある人、趣味で分析をしている方
●前提知識
データ分析や機械学習の知識があまりなくても構いません。必要なことは読み進めながら理解していけば大丈夫です。なお、必須ではありませんが、以下のスキルがあることが望ましいです。
・プログラミングの経験(特にpython言語)
・中学レベルの数学の知識
データ分析や機械学習の知識があまりなくても構いません。必要なことは読み進めながら理解していけば大丈夫です。なお、必須ではありませんが、以下のスキルがあることが望ましいです。
・プログラミングの経験(特にpython言語)
・中学レベルの数学の知識
●分析ツール
分析ツールとして、Kaggleが提供している分析環境を利用します。プログラミング言語には、現在の機械学習の主流言語である「Python」を使用します。
分析ツールとして、Kaggleが提供している分析環境を利用します。プログラミング言語には、現在の機械学習の主流言語である「Python」を使用します。
●本書の構成
本書は3部構成になっています。体系的にスキルを理解するために、1章から順番に読み進めてください。飛ばして読んでも構いませんが、順番に読むことで理解度が高まる構成となっています。
本書は3部構成になっています。体系的にスキルを理解するために、1章から順番に読み進めてください。飛ばして読んでも構いませんが、順番に読むことで理解度が高まる構成となっています。
○第I部 分析実務とKaggle
データサイエンティストに必要なスキルや、学習ツールとしてのKaggleの活用方法を説明します。Kaggleのアカウントの作成方法(2章に記載)や、分析環境(3章に記載)なども紹介します。
データサイエンティストに必要なスキルや、学習ツールとしてのKaggleの活用方法を説明します。Kaggleのアカウントの作成方法(2章に記載)や、分析環境(3章に記載)なども紹介します。
○第II部 機械学習の進め方
機械学習の全体の進め方や、各ステップにおけるやり方をサンプルデータとスクリプトを使って説明します。説明にはKaggleの練習問題である「Titanic」を使用します。
機械学習の全体の進め方や、各ステップにおけるやり方をサンプルデータとスクリプトを使って説明します。説明にはKaggleの練習問題である「Titanic」を使用します。
○第III部 実践例
Kaggleで実際に行なわれた2つのコンペを例にして、第II部で説明した手順を使った解き方の例を説明します。
・Home Credit Default Risk
・MLB Player Digital Engagement Forecasting
Kaggleで実際に行なわれた2つのコンペを例にして、第II部で説明した手順を使った解き方の例を説明します。
・Home Credit Default Risk
・MLB Player Digital Engagement Forecasting
【以上、本書「まえがき」より】
■著者プロフィール
東北大学大学院卒(理学研究科 物理学専攻)。1999年に日立製作所へ入社。2012年にデータ分析部署(その年度に新設)に異動し、データ分析を使って顧客課題を解決する業務に従事。分析経験ゼロからスタートし、約10年間の実務経験を経て今に至る。
分析コンペ歴は約6年。Kaggle称号はMaster(2022年1月現在のメダル獲得数は金1個、銀6個、銅3個)。またSIGNATEの創薬コンペで優勝、Nishikaのレコメンドコンペで2位入賞。趣味は「卓球」と「ゲーム(主に対戦格闘)」、そして「分析」。
東北大学大学院卒(理学研究科 物理学専攻)。1999年に日立製作所へ入社。2012年にデータ分析部署(その年度に新設)に異動し、データ分析を使って顧客課題を解決する業務に従事。分析経験ゼロからスタートし、約10年間の実務経験を経て今に至る。
分析コンペ歴は約6年。Kaggle称号はMaster(2022年1月現在のメダル獲得数は金1個、銀6個、銅3個)。またSIGNATEの創薬コンペで優勝、Nishikaのレコメンドコンペで2位入賞。趣味は「卓球」と「ゲーム(主に対戦格闘)」、そして「分析」。
■本書の主な内容
第I部 分析実務とKaggle
第1章 実務に必要なスキルとは
第2章 Kaggleの概要
第3章 Kaggleを学習ツールに
第2章 Kaggleの概要
第3章 Kaggleを学習ツールに
第II部 機械学習の進め方
第4章 ベースライン作成
第5章 特徴量エンジニアリング
第6章 モデルチューニング
第5章 特徴量エンジニアリング
第6章 モデルチューニング
第III部 実践例
第7章 2値分類のコンペ
第8章 回帰問題のコンペ
第9章 データサイエンティストの未来
第8章 回帰問題のコンペ
第9章 データサイエンティストの未来