Apprentissage Zero-Shot et Few-Shot : cas d'utilisation et limites
À mesure que les modèles d’apprentissage automatique évoluent, la demande de techniques efficaces en matière de données continue d’augmenter. L’apprentissage supervisé traditionnel nécessite de grandes quantités de données étiquetées, ce qui peut s’avérer coûteux, long et souvent irréalisable pour des domaines de niche. Entrez dans des paradigmes d'apprentissage sans tir et en quelques tirs qui permettent aux modèles de se généraliser à de nouvelles tâches ou classes avec peu ou pas d'exemples étiquetés. Dans cet article, nous explorons les concepts, les cas d'utilisation, les architectures et les limites critiques de l'apprentissage zéro et en quelques coups dans les systèmes d'IA du monde réel.
1. Introduction
1.1 Qu'est-ce que l'apprentissage zéro-shot (ZSL) ?
L'apprentissage zéro-shot fait référence à la capacité d'un modèle à reconnaître ou à effectuer des tâches sur des catégories ou des domaines invisibles sans aucun exemple étiqueté pendant la formation. Au lieu de cela, il exploite les relations sémantiques, les intégrations ou les informations auxiliaires telles que les descriptions textuelles ou les attributs.
1.2 Qu'est-ce que l'apprentissage en quelques étapes (FLS) ?
L'apprentissage en quelques étapes permet à un modèle d'effectuer une tâche avec un nombre très limité d'exemples étiquetés allant généralement de 1 à 100. Le FLS est particulièrement utile lorsque les données étiquetées sont rares, comme dans l'imagerie médicale ou dans les langages à faibles ressources.
1.3 Pourquoi ils sont importants
-
Réduisez la dépendance à l’égard de grands ensembles de données étiquetés
-
Permettre une adaptation plus rapide aux nouveaux domaines
-
Coût et temps d’annotation réduits
-
Prise en charge de scénarios d'apprentissage rares ou extrêmes
2. Concepts et techniques de base
2.1 Embeddings et espace sémantique
Dans ZSL, les données d'entrée et les étiquettes sont projetées dans un espace sémantique partagé à l'aide d'incorporations. Des similarités sont calculées entre des points de données invisibles et des représentations d'étiquettes (par exemple, des vecteurs de mots).
2.2 Apprentissage par transfert
FSL exploite souvent des modèles pré-entraînés sur de grands ensembles de données (par exemple, ImageNet, GPT) et les affine sur de petits ensembles de données cibles à l'aide de stratégies de régularisation et de réglage efficaces des paramètres.
2.3 Méta-apprentissage (« Apprendre à apprendre »)
Les algorithmes de méta-apprentissage sont formés sur plusieurs tâches de manière à pouvoir s'adapter rapidement à une nouvelle tâche avec peu d'exemples. Les approches populaires incluent :
-
MAML (méta-apprentissage indépendant du modèle)
-
Réseaux prototypes
-
Réseaux siamois
-
Réseaux de relations
2.4 Ingénierie rapide
Les grands modèles de langage (LLM) tels que GPT-4 et PaLM effectuent un apprentissage en quelques étapes via un conditionnement basé sur des invites, où des exemples sont intégrés dans le texte d'entrée (apprentissage en contexte).
3. Architectures permettant un apprentissage zéro et peu de tirs
3.1 Grands modèles de langage (LLM)
Des modèles tels que GPT-3, GPT-4, LLaMA, Claude et PaLM ont montré des capacités remarquables en termes de tir nul et de tir réduit dans des tâches telles que la génération de texte, la classification, la traduction et le résumé.
3.2 CLIP (Pré-formation Langage-Image Contrastive)
CLIP apprend conjointement les intégrations visuelles et textuelles, permettant une classification d'images sans prise de vue en faisant correspondre les caractéristiques de l'image aux descriptions de texte d'étiquette.
3.3 T5 et FLAN-T5
Ces modèles texte-texte traitent chaque tâche comme une génération de texte et ont montré de solides performances en quelques tirs et en zéro tir via le réglage multitâche et des instructions.
3.4 Transformateurs multimodaux
Des modèles comme Flamingo et Gato étendent les capacités de tir zéro/quelques tirs à de multiples modalités telles que la vision, le texte et les actions robotiques.
4. Cas d'utilisation réels
4.1 Classification du texte Zero-Shot
Étiqueter manuellement de nouvelles catégories de texte coûte cher. Les LLM peuvent effectuer une classification zéro en conditionnant les noms ou les descriptions des étiquettes sans recyclage.
4.2 Reconnaissance visuelle dans les classes rares
Dans le cadre de la surveillance de la faune, les techniques de tir zéro peuvent identifier des espèces rares en tirant parti des descriptions textuelles des espèces et des intégrations visuelles.
4.3 Imagerie médicale
L’apprentissage en quelques étapes est essentiel dans les domaines médicaux où les données annotées sont rares. Les réseaux prototypes peuvent classer les maladies rares à partir de quelques exemples seulement.
4.4 Tâches multilingues
La traduction instantanée et la réponse aux questions dans les langues à faibles ressources sont rendues possibles par des LLM multilingues comme mT5 et XLM-R.
4.5 Automatisation du support client
Les chatbots peuvent gérer de nouvelles intentions en quelques instants, améliorant ainsi l'expérience utilisateur sans nécessiter une reconversion complète.
4.6 Génération de codes
L'apprentissage contextuel en quelques étapes permet à des outils tels que GitHub Copilot de générer du code passe-partout à partir d'exemples ou de descriptions minimes.
5. Limites et défis
5.1 Mauvaise généralisation en dehors de la distribution des formations
Les méthodes Zero-shot peuvent échouer lorsque la tâche ou la classe invisible est trop différente sémantiquement de la distribution de formation.
5.2 Sensibilité à la conception rapide
Les performances des LLM à quelques plans dépendent fortement de la formulation, de l'ordre et du formatage rapides. De mauvaises invites peuvent dégrader considérablement la précision.
5.3 Manque d'interprétabilité
Comprendre pourquoi un modèle a fait une certaine prédiction dans des configurations sans tir est difficile, ce qui soulève des inquiétudes dans des domaines sensibles comme le droit ou la santé.
5.4 Difficultés d'évaluation
Mesurer les performances des modèles zéro-shot n'est pas trivial, en particulier lorsque les espaces d'étiquettes ou les tâches évoluent de manière dynamique.
5.5 Surapprentissage en quelques coups
Dans les régimes à faibles données, le surajustement aux quelques exemples fournis est un problème sérieux, en particulier sans de bonnes techniques de régularisation.
5.6 Hallucinations et fabrication
Les LLM peuvent générer des résultats plausibles mais factuellement incorrects dans les modes zéro tir/quelques tirs.
6. Meilleures pratiques et stratégies d'atténuation
6.1 Directives d'ingénierie rapides
-
Utiliser des formats d'instructions clairs et cohérents
-
Équilibrer les exemples entre les classes dans des invites en quelques étapes
-
Évitez les tâches ambiguës ou les étiquettes polysémiques
6.2 Utiliser des techniques d'étalonnage
Des méthodes telles que l'échelle de température, le lissage des étiquettes ou l'utilisation de seuils basés sur la confiance aident à atténuer le biais de zéro tir ou l'excès de confiance.
6.3 Apprentissage actif pour un meilleur échantillonnage de quelques plans
Sélectionnez quelques exemples en utilisant des stratégies d'apprentissage actif telles que l'échantillonnage d'incertitude ou le regroupement pour maximiser le caractère informatif.
6.4 Évaluation post-hoc et reclassement
Appliquez des modèles de classement ou une reclassification sur les sorties sans tir pour améliorer la précision dans les scénarios à enjeux élevés.
6.5 Combiner avec des bases de connaissances
Intégrez des connaissances symboliques ou des règles spécifiques à un domaine pour augmenter les prédictions de zéro/quelques tirs avec des fondements factuels.
7. Orientations futures
7.1 Modèles adaptés et alignés sur les instructions
Les modèles affinés sur diverses instructions (par exemple, FLAN, InstructGPT) présentent une généralisation améliorée dans des paramètres de tir nul/peu.
7.2 Approches hybrides symboliques et neuronales
La combinaison de modèles neuronaux avec une logique et des règles symboliques peut améliorer la cohérence, la transparence et la robustesse.
7.3 Apprentissage continu et tout au long de la vie
Progresser vers des systèmes qui apprennent continuellement de nouvelles tâches et s’adaptent progressivement avec un minimum de supervision.
7.4 Apprentissage par renforcement en quelques coups
Intérêt émergent pour l’utilisation de techniques de peu de tirs et de méta-apprentissage dans les agents d’apprentissage par renforcement pour une adaptation rapide aux tâches.
8. Conclusion
L’apprentissage sans tir et en quelques tirs a libéré le potentiel des systèmes d’IA pour se généraliser bien au-delà de leurs données de formation initiales. De la compréhension de texte et de la reconnaissance d'images à la génération de code et au traitement de langages à faibles ressources, ces techniques réduisent la dépendance à l'égard de grands ensembles de données annotées et accélèrent le déploiement de modèles dans des environnements réels. Cependant, leurs limites en matière de généralisation, d’interprétabilité et de fiabilité nécessitent une manipulation prudente et des recherches continues. À mesure que les modèles grandissent en termes d’échelle et de capacités, et que des techniques telles que l’ingénierie rapide et le réglage des instructions mûrissent, l’apprentissage zéro ou en quelques coups deviendra le fondement de la prochaine génération de systèmes d’IA flexibles et adaptables.