ChatGPT 大規模言語モデルの進化と応用
ChatGPTの話題は巷に溢れていますが、多くはプロンプトの例示だったり、断片的・揮発的な技術情報だったりします。一方、本書はデータサイエンティストをはじめ、AIの研究者や開発者を対象とし、大規模言語モデルの進化の過程を踏まえたうえで、ChatGPTの適用技術、応用の仕方、限界まで、重要ポイントを絞り込んで解説。さらにマイクロソフトの関連サービスや機能を詳解します。
ChatGPTは大規模言語モデルの頂点にあり、進化の到達点に位置します。AIやNLPのパラダイムが転換しない限り、今後さらに大規模な言語モデルが登場しても、それはChatGPTの延長線上にあり、本書の内容は長く有効であり続けるでしょう。
内容詳細
【想定読者】
本書は主に次のような方々に向けて書かれています。
・データサイエンティストの方々
・ChatGPTの仕組みや特徴を他のモデル作成に活かしたい方々
・構文解析や感情分析などの伝統的なNLPタスクに携わる方々
・深層学習による汎用大規模言語モデル、その応用先や評価に興味を持つAIの研究者
本書は主に次のような方々に向けて書かれています。
・データサイエンティストの方々
・ChatGPTの仕組みや特徴を他のモデル作成に活かしたい方々
・構文解析や感情分析などの伝統的なNLPタスクに携わる方々
・深層学習による汎用大規模言語モデル、その応用先や評価に興味を持つAIの研究者
【前提とする知識】
言語モデルの学習や推論、またコーパスから得られる単語や文のベクトル表現など、NLPの基本的な概念を理解していれば大丈夫です。数式に馴染みがあり、トランスフォーマーやBERTの知識や経験があれば一層結構ですが、本書の中でも説明しているので、必須ではありません。
言語モデルの学習や推論、またコーパスから得られる単語や文のベクトル表現など、NLPの基本的な概念を理解していれば大丈夫です。数式に馴染みがあり、トランスフォーマーやBERTの知識や経験があれば一層結構ですが、本書の中でも説明しているので、必須ではありません。
【本書の特徴と工夫】
本書は、理論と応用の両方を充実させました。
ChatGPTの背景や原理は、最新の理論に基づき体系的に整理しました。サンプル開発やチューニングでは実際のコードを示し、手を動かしながら理解を深めることができます。また、データサイエンティストの方々には文系出身者も多いので、難易度が高い理論や数式は図説や脚注で補足しています。
応用面では、マイクロソフトのサービス実装など、実務に役立つ最新情報を提供。実際に直面する課題の解決や、応用先の拡大も図れるよう工夫しました。
本書は、理論と応用の両方を充実させました。
ChatGPTの背景や原理は、最新の理論に基づき体系的に整理しました。サンプル開発やチューニングでは実際のコードを示し、手を動かしながら理解を深めることができます。また、データサイエンティストの方々には文系出身者も多いので、難易度が高い理論や数式は図説や脚注で補足しています。
応用面では、マイクロソフトのサービス実装など、実務に役立つ最新情報を提供。実際に直面する課題の解決や、応用先の拡大も図れるよう工夫しました。
【本書に期待できること】
データサイエンティストの方々は、大規模言語モデルの作成方法が分かり、検索エンジンやチャットボットなど、ターゲットアプリに合わせたチューニングができるようになります。また、データ拡張を通じた改善や、プロンプトエンジニアリングの手法など、ChatGPTをサービスに利用するための必須知識が得られます。そして将来、未知の新しい応用先を開拓するための基本知識が身につきます。
研究者の方々は、大規模言語モデルの現状と限界、応用事例や実用性がわかり、研究方向の探索に役立ちます。特にNLPの研究者は、ChatGPTの登場によって今後の研究テーマが鋭く問われているので、本書が重要な手掛かりになるでしょう。
いずれの方も、ChatGPTのファインチューニングや、学習から評価に至る言語モデルの構築を経験することで、他の類似モデルのファインチューニングや対策の工夫ができるようになるでしょう。
データサイエンティストの方々は、大規模言語モデルの作成方法が分かり、検索エンジンやチャットボットなど、ターゲットアプリに合わせたチューニングができるようになります。また、データ拡張を通じた改善や、プロンプトエンジニアリングの手法など、ChatGPTをサービスに利用するための必須知識が得られます。そして将来、未知の新しい応用先を開拓するための基本知識が身につきます。
研究者の方々は、大規模言語モデルの現状と限界、応用事例や実用性がわかり、研究方向の探索に役立ちます。特にNLPの研究者は、ChatGPTの登場によって今後の研究テーマが鋭く問われているので、本書が重要な手掛かりになるでしょう。
いずれの方も、ChatGPTのファインチューニングや、学習から評価に至る言語モデルの構築を経験することで、他の類似モデルのファインチューニングや対策の工夫ができるようになるでしょう。
◆「AI/Data Science実務選書」とは…
機械学習やAIの計算モデルは、システム開発のパラダイムを覆しつつあります。「AI/Data Science実務選書」は、AI開発とデータサイエンスのプラクティスを集め、実務家のスキル獲得/向上を力強く支援します。
機械学習やAIの計算モデルは、システム開発のパラダイムを覆しつつあります。「AI/Data Science実務選書」は、AI開発とデータサイエンスのプラクティスを集め、実務家のスキル獲得/向上を力強く支援します。
■著者・協力者プロフィール
シン アンドリュー(Andrew Shin):第8章を除く本書全般を執筆
現 慶應義塾大学デジタルメディアコンテンツ研究センター特任助教。東京大学大学院情報理工学系研究科博士課程修了。株式会社ソニーグループのR&Dセンターを経て、2022年現職に着任。目下の研究分野は画像認識と自然言語処理の融合。
現 慶應義塾大学デジタルメディアコンテンツ研究センター特任助教。東京大学大学院情報理工学系研究科博士課程修了。株式会社ソニーグループのR&Dセンターを経て、2022年現職に着任。目下の研究分野は画像認識と自然言語処理の融合。
小川 航平(Ogawa Kouhei):第8章を執筆
現 KEEN株式会社ソフトウェアエンジニア兼書道家。香川高等専門学校 情報工学科を卒業後、筑波大学情報学群へ3年次編入学。博士前期課程修了までデジタルネイチャー開発研究センターにて、3Dプリンティング、3Dセンシング、身体性等を追求したHuman Computer Interactionの研究に従事。新卒で日本マイクロソフト株式会社へ入社し、Cloud Solution Architect(Data&AI)として、エンタープライズ企業のお客様に対して、データ分析、MLOps、ディジタルツイン基盤、LLMシステムプロジェクトなどの導入・実装支援を行う。特にAI 分野では、テクニカルエバンジェリズム活動に深く関与し、一般社団法人日本ディープラーニング協会やGreen Software Foundation主催のGlobal Summit等多数のイベント登壇、AIを社会実装するためのデベロッパーコミュニティのLead、日本最大級のビジネス、ハッカソンコンテストのメンター統括Lead、ビジネス・テクニカルメンター、審査員等を務める。
現 KEEN株式会社ソフトウェアエンジニア兼書道家。香川高等専門学校 情報工学科を卒業後、筑波大学情報学群へ3年次編入学。博士前期課程修了までデジタルネイチャー開発研究センターにて、3Dプリンティング、3Dセンシング、身体性等を追求したHuman Computer Interactionの研究に従事。新卒で日本マイクロソフト株式会社へ入社し、Cloud Solution Architect(Data&AI)として、エンタープライズ企業のお客様に対して、データ分析、MLOps、ディジタルツイン基盤、LLMシステムプロジェクトなどの導入・実装支援を行う。特にAI 分野では、テクニカルエバンジェリズム活動に深く関与し、一般社団法人日本ディープラーニング協会やGreen Software Foundation主催のGlobal Summit等多数のイベント登壇、AIを社会実装するためのデベロッパーコミュニティのLead、日本最大級のビジネス、ハッカソンコンテストのメンター統括Lead、ビジネス・テクニカルメンター、審査員等を務める。
谷合廣紀(Taniai Hiroki):本書全般を精査・助言
日本将棋連盟の棋士(四段)。吉本興業文化人。東京大学情報理工学系研究科修士課程修了。将棋AIの研究と普及に注力しており、2022年には自作の将棋AIであるpreludeが世界コンピュータ将棋選手権で独創賞を受賞。著書に『Pythonで理解する統計解析の基礎』、『AI解析から読み解く 藤井聡太の選択』がある。
日本将棋連盟の棋士(四段)。吉本興業文化人。東京大学情報理工学系研究科修士課程修了。将棋AIの研究と普及に注力しており、2022年には自作の将棋AIであるpreludeが世界コンピュータ将棋選手権で独創賞を受賞。著書に『Pythonで理解する統計解析の基礎』、『AI解析から読み解く 藤井聡太の選択』がある。
■本書の主な内容
第1章 ChatGPTの概要
1.1 ChatGPT登場の背景と社会的反響
1.2 言語モデルの歴史
1.2 言語モデルの歴史
第2章 ChatGPTの動作原理
2.1 トランスフォーマー
2.2 BERT
2.3 GPT-3
2.4 RLHF
2.2 BERT
2.3 GPT-3
2.4 RLHF
第3章 他の大規模言語モデル
3.1 LaMDAとBard
3.2 PaLM
3.3 LLaMA
3.2 PaLM
3.3 LLaMA
第4章 ChatGPTのAPI
4.1 ChatGPTのAPIとは?
4.2 アクセス取得及び最初の呼び出し
4.3 入力及び応答のフォーマット
4.4 アドバンスドな利用方法
4.2 アクセス取得及び最初の呼び出し
4.3 入力及び応答のフォーマット
4.4 アドバンスドな利用方法
第5章 APIを用いたファインチューニング
5.1 ファインチューニングの準備
5.2 ファインチューニングの実行
5.3 推論の実行
5.2 ファインチューニングの実行
5.3 推論の実行
第6章 HuggingFaceを用いたファインチューニング
6.1 Pythonスクリプトによる学習の準備
6.2 モデルの学習
6.3 推論
6.4 RLHFの再現
6.2 モデルの学習
6.3 推論
6.4 RLHFの再現
第7章 プロンプトエンジニアリング
7.1 プロンプトエンジニアリングの概要
7.2 プロンプトのパターン
7.3 日本語のプロンプトエンジニアリング
7.2 プロンプトのパターン
7.3 日本語のプロンプトエンジニアリング
第8章 Microsoftのサービスで始めるLLMシステム
8.1 本章に書くこと・書かないこと
8.2 LLMを組み込んだMicrosoft製品
8.3 Azure OpenAI Serviceという選択肢
8.4 RAGアーキテクチャ
8.5 研究者のためのクイックなRAG環境構築:Azure OpenAI Serviceとカスタム実装
8.6 本章の最後に
8.2 LLMを組み込んだMicrosoft製品
8.3 Azure OpenAI Serviceという選択肢
8.4 RAGアーキテクチャ
8.5 研究者のためのクイックなRAG環境構築:Azure OpenAI Serviceとカスタム実装
8.6 本章の最後に
第9章 ChatGPTの限界を越えて
9.1 ChatGPTの限界
9.2 外部APIを用いたChatGPTの改善
9.3 ChatGPT生成文章の識別
9.4 ChatGPTとAGI
9.2 外部APIを用いたChatGPTの改善
9.3 ChatGPT生成文章の識別
9.4 ChatGPTとAGI
第10章 マルチモーダル大規模モデルの数々
10.1 テキストによる画像生成
10.2 テキストによる動画生成
10.3 テキストによる音声・音楽生成
10.2 テキストによる動画生成
10.3 テキストによる音声・音楽生成
第11章 今後の課題
11.1 言語モデルの現状
11.2 言語モデルの今後
11.3 結語
11.2 言語モデルの今後
11.3 結語