ゼロショット学習とフューショット学習: ユースケースと制限事項

機械学習モデルが進化するにつれて、データ効率の高い手法に対する需要が高まり続けています。従来の教師あり学習には膨大な量のラベル付きデータが必要ですが、これは高価で時間がかかり、ニッチな領域では実行不可能なことがよくあります。ゼロショット学習パラダイムと少数ショット学習パラダイムを導入して、ラベル付きの例をほとんどまたはまったく使用せずに、モデルを新しいタスクやクラスに一般化できるようにします。この記事では、実世界の AI システムにおけるゼロショット学習と少数ショット学習の概念、ユースケース、アーキテクチャ、および重大な制限について説明します。

1. はじめに

1.1 ゼロショット学習 (ZSL) とは何ですか?

ゼロショット学習とは、トレーニング中にラベル付けされたサンプルがなくても、目に見えないカテゴリまたはドメインでタスクを認識または実行するモデルの能力を指します。代わりに、意味論的な関係、埋め込み、またはテキストの説明や属性などの補助情報を利用します。

1.2 フューショット学習 (FSL) とは何ですか?

フューショット学習により、モデルは通常 1 ～ 100 の範囲の非常に限られた数のラベル付きサンプルを使用してタスクを実行できます。FSL は、医療画像や低リソース言語など、ラベル付きデータが不足している場合に特に役立ちます。

1.3 なぜ重要なのか

大規模なラベル付きデータセットへの依存を軽減する
新しいドメインへの迅速な適応を可能にする
注釈のコストと時間を削減
まれな、または特殊な学習シナリオをサポートする

2. 中心となる概念と技術

2.1 埋め込みと意味空間

ZSL では、入力データとラベルの両方が、埋め込みを使用して共有意味空間に投影されます。類似性は、目に見えないデータ点とラベル表現 (単語ベクトルなど) の間で計算されます。

2.2 転移学習

FSL は多くの場合、大規模なデータセット (ImageNet、GPT など) で事前トレーニングされたモデルを活用し、正則化とパラメーター効率の高い調整戦略を使用して小規模なターゲットデータセットでモデルを微調整します。

2.3 メタ学習（「学習すること」）

メタ学習アルゴリズムは、少ない例で新しいタスクに迅速に適応できるように、複数のタスクでトレーニングされます。一般的なアプローチには次のようなものがあります。

MAML (モデルに依存しないメタ学習)
プロトタイプネットワーク
シャムネットワークス
関係ネットワーク

2.4 迅速なエンジニアリング

GPT-4 や PaLM などの大規模言語モデル (LLM) は、プロンプトベースの条件付けを介して少数ショット学習を実行します。例は入力テキストに埋め込まれています (コンテキスト内学習)。

3. ゼロショットおよびフューショット学習を可能にするアーキテクチャ

3.1 大規模言語モデル (LLM)

GPT-3、GPT-4、LLaMA、Claude、PaLM などのモデルは、テキスト生成、分類、翻訳、要約などのタスクにおいて、ゼロショットおよび少数ショットの優れた能力を示しています。

3.2 CLIP (対照言語イメージ事前トレーニング)

CLIP は視覚的埋め込みとテキスト埋め込みを共同で学習し、画像の特徴をラベルテキストの説明に一致させることでゼロショット画像分類を可能にします。

3.3 T5 と FLAN-T5

これらのテキストツーテキストモデルは、すべてのタスクをテキスト生成として扱い、マルチタスクと命令のチューニングにより、少数ショットおよびゼロショットの強力なパフォーマンスを示しています。

3.4 マルチモーダル変圧器

Flamingo や Gato などのモデルは、ゼロショット/数ショット機能をビジョン、テキスト、ロボットアクションなどの複数のモダリティに拡張します。

4. 現実世界の使用例

4.1 ゼロショットテキスト分類

新しいテキストカテゴリに手動でラベルを付けるのはコストがかかります。 LLM は、ラベル名または説明を条件付けすることにより、再トレーニングせずにゼロショット分類を実行できます。

4.2 レアクラスにおける視覚認識

野生生物のモニタリングでは、テキストによる種の説明と視覚的な埋め込みを活用して、ゼロショット技術を使用して希少種を識別できます。

4.3 医用画像処理

注釈付きデータが不足している医療分野では、少数ショット学習が重要です。プロトタイプネットワークでは、ほんの数例を使用して希少疾患を分類できます。

4.4 言語を超えたタスク

mT5 や XLM-R などの多言語 LLM によって、低リソース言語にわたるゼロショット翻訳と質問応答が可能になります。

4.5 カスタマーサポートの自動化

チャットボットは、数回のプロンプトで新しいインテントを処理できるため、完全な再トレーニングを必要とせずにユーザーエクスペリエンスが向上します。

4.6 コード生成

少数のショットのコンテキスト内学習により、GitHub Copilot などのツールで最小限の例や説明から定型コードを生成できます。

5. 制限と課題

5.1 トレーニング配布以外での一般化が不十分

ゼロショットメソッドは、目に見えないタスクまたはクラスがトレーニング分布と意味的に類似しすぎている場合に失敗する可能性があります。

5.2 迅速な設計に対する敏感さ

少数ショット LLM のパフォーマンスは、プロンプトの文言、順序、形式に大きく依存します。プロンプトが不十分だと精度が大幅に低下する可能性があります。

5.3 解釈可能性の欠如

ゼロショット設定でモデルが特定の予測を行った理由を理解することは難しく、法律や医療などの機密分野では懸念が生じます。

5.4 評価の難しさ

ゼロショットモデルのパフォーマンスの測定は、特にラベルスペースやタスクが動的に進化する場合には、簡単ではありません。

5.5 少数ショットのオーバーフィッティング

データが少ない状況では、特に優れた正則化技術がなければ、提供された少数の例への過剰適合は深刻な問題になります。

5.6 幻覚と捏造

LLM は、ゼロショット/フューショットモードで、もっともらしく聞こえるが実際には不正確な出力を生成する場合があります。

6. ベストプラクティスと緩和戦略

6.1 即時エンジニアリングガイドライン

明確で一貫した指示形式を使用する
数回のプロンプトでクラス間のサンプルのバランスをとる
曖昧なタスクや多義的なラベルを避ける

6.2 キャリブレーション技術の使用

温度スケーリング、ラベルの平滑化、または信頼ベースのしきい値の使用などの方法は、ゼロショットバイアスや過信を軽減するのに役立ちます。

6.3 より良い少数ショットサンプリングのためのアクティブラーニング

情報量を最大化するために、不確実性サンプリングやクラスタリングなどのアクティブラーニング戦略を使用してショット数の少ないサンプルを選択します。

6.4 事後評価と再ランキング

ゼロショット出力にランキングモデルまたは再分類を適用して、一か八かのシナリオでの精度を向上させます。

6.5 ナレッジベースと組み合わせる

シンボリックな知識またはドメイン固有のルールを統合して、事実に基づいたゼロショットまたは少数ショットの予測を強化します。

7. 今後の方向性

7.1 命令に合わせて調整され調整されたモデル

さまざまな命令 (FLAN、InstructGPT など) に基づいて微調整されたモデルは、ゼロ/少数ショット設定で強化された一般化を示します。

7.2 ハイブリッドシンボリックアプローチとニューラルアプローチ

ニューラルモデルをシンボリックロジックおよびルールと組み合わせると、一貫性、透明性、堅牢性が向上する可能性があります。

7.3 継続的かつ生涯学習

新しいタスクから継続的に学習し、最小限の監視で段階的に適応するシステムに向けて前進しています。

7.4 少数ショット強化学習

迅速なタスク適応のための強化学習エージェントでの少数ショットおよびメタ学習技術の使用に対する関心が高まっています。

8. 結論

ゼロショット学習と少数ショット学習により、初期のトレーニングデータをはるかに超えて一般化できる AI システムの可能性が解き放たれました。テキスト理解や画像認識からコード生成や低リソース言語処理に至るまで、これらの技術により、大規模な注釈付きデータセットへの依存が軽減され、現実世界の設定でのモデル展開が加速されます。ただし、一般化、解釈可能性、信頼性には限界があるため、慎重な取り扱いと継続的な研究が必要です。モデルの規模と機能が増大し、プロンプトエンジニアリングや命令チューニングなどの技術が成熟するにつれ、ゼロショット学習や少数ショット学習が、柔軟で適応性のある次世代の AI システムの基礎となるでしょう。