トランスフォーマー(深層生成モデル1)
2023 年までの「基盤モデル」と呼ばれるような大規模な深層学習モデルは,ほとんど全て同一のアーキテクチャを持つ.これがトランスフォーマーである.その構造を,主に言語の分野に注目して概説する.最後に画像と動画の分野にも触れる.
近年の発展のまとめ
ぷに
2/20/2024
Meta AI が 7/18/2023 に LLM LLaMA (Touvron et al., 2023) を公開した.そして API を通じて利用する形ではなく,そのモデルのウェイトが公開されたため,Stanford 大学の Alpaca など,モデルの改良と研究が促進されている.
特に事後調整のための公開データセットの整備が進んでおり,Alpaca では Self-Instruct (Wang et al., 2023) による効率的な alignment 技術が採用されている.
産業界でも影響は大きい.ELYZA は 12/27/2023 に日本語に特化した LLM である ELYZA-japanese-Llama-2-13b を公開している.Stockmark も 10/27/2023 に Stockmark-13b を公開している.
いずれも,開発費と開発時間が大幅に圧縮されたという.1
IBM は 9/12/2023 に LLM Granite を発表している.加えて,プラットフォーム watsonx
も提供しており,その上で RAG など独自の事後調整を可能にしている.
IBM と Meta の2社が発起人となり,12/5/2023 に AI Alliance が発足し,オープンイノベーションを推進している.
Stable Diffusion (Rombach et al., 2022) もソースコードとウェイトが 一般公開 されている.
(Tamkin et al., 2021) は早い段階での OpenAI と Stanford 大学 HAI (Human-centered AI) との対談録である.
OpenAI はコード生成能力の経済的な影響を重要なアジェンダとしている (Manning et al., 2022).
Open AI の Codex (Chen et al., 2021) はプログラム言語を扱うトランスフォーマーであり,GitHub Copilot の元となっている.これが社会に与える影響も,新たな評価フレームワークと共に提案されている (Khlaaf et al., 2022).
LLM の労働市場へのインパクトも推定している (Eloundou et al., 2023).これによると,アメリカの労働者の 80% が,LLM の導入により少なくとも仕事の 10% に影響が生じるとしている.さらに全体の 20% は仕事の半分以上が影響を受けるとしている.
社会的なシミュレーションを LLM 内で行うことで,社会科学やビジネスの場面での意思決定を支援することが期待されている.
LLM は人間の心の理論を理解し,その心情・意図を(ある程度)シミュレートすることが出来るようである (Andreas, 2022).
LLM でのシミュレーションを通じて,社会科学的な知識を引き出そうとする試みもある (Leng and Yuan, 2023).
LLM が事実と異なる物語を生成することを 幻覚 (hallucination) と呼び,一部の応用では問題になることがある.
これを解決するにあたって,等角推測 (conformal prediction) と組み合わせ,出力の不確実性を評価することで幻覚を防止する手法が提案されている (Mohri and Hashimoto, 2024).
一般に意思決定の場面において AI を活用するには,不確実性の定量化が必要不可欠である.
GPT-3 を Bayesian にし,自身の確証度合いを言表するように事後調整する研究が OpenAI で行われている (Lin et al., 2022).
ウォーターマークを開発することで,LLM から出力された文章であることを高確率で検出できるようにする方法が,統計的仮説検定の技術を応用して提案されている (Kuditipudi et al., 2023).
生成 AI は,一国の政府が特定のプロパガンダを流布するための効果的な手段として選ばれることになる.その際の考え得る使用例と,それに対する対策が考えられてる (Goldstein et al., 2023).
特に,2022 年に始まったロシアによるウクライナ侵攻は,最初の本格的な AI による情報戦と認識されつつある (Sobchuk, 2024).
これに対する対抗手段として,ウクライナのスタートアップ Osavul や Mantis Analytics によって使われているのもやはり LLM である.
(Anderljung et al., 2023) は先端的な AI を Frontier AI と呼び,これの開発過程におけるあるべき規制を模索している.監督当局に執行権を付与することやフロンティアAIモデルのライセンス制度などが議論されている.
(Shoker et al., 2023) は LLM と国家安全保障との関係を議論している.信頼構築措置 (CBMs: Confidence-Building Measures) とは,国家間の敵意を減少させることで,衝突のリスクを減らす措置の全般をいう.元々は冷戦時代に提案された概念であるが,これを LLM 開発に適用することが具体的に提案されている.
LLM の登場により個人がエンパワーメントを受けており,生物学的脅威を作る障壁が低下していることは間違いない.
(Patwardhan et al., 2024) では,生物学的リスクに焦点を当てて,AI による安全リスク評価の手法と事前警鐘システムを模索している.この研究では,LLM によりリスクが増加するという統計的に有意義な証拠は得られていないが,この方面の研究の草分けとなっている.
大規模言語モデルとトランスフォーマーに関するより詳しい内容は,次の記事も参照: