Apprentissage auto-supervisé : réduire les exigences en matière d'étiquetage
À l’ère de l’IA basée sur les données, l’un des principaux obstacles à la formation de modèles d’apprentissage automatique efficaces est le besoin de quantités massives de données étiquetées. L’étiquetage est coûteux, prend du temps et est parfois irréalisable. Entrez dans l'apprentissage auto-supervisé (SSL), un paradigme qui permet aux modèles d'apprendre à partir de données brutes et non étiquetées en générant leurs propres signaux de supervision. SSL transforme les domaines de la vision par ordinateur au traitement du langage naturel en réduisant considérablement la dépendance à l'égard des ensembles de données étiquetés. Cet article explore les fondements, les techniques, les applications et l'avenir de l'apprentissage auto-supervisé, ainsi que la manière dont il permet aux équipes de faire évoluer le développement de l'IA plus efficacement.
1. Introduction à l'apprentissage autosupervisé
1.1 Qu'est-ce que l'apprentissage autosupervisé ?
L'apprentissage auto-supervisé est un type d'apprentissage non supervisé dans lequel le modèle apprend à prédire une partie des données à partir d'autres parties des mêmes données. Il construit automatiquement des pseudo-étiquettes à partir des données d'entrée elles-mêmes, ce qui lui permet d'apprendre des représentations utiles sans s'appuyer sur des ensembles de données étiquetés par l'homme.
1.2 Pourquoi un apprentissage auto-supervisé ?
-
Réduit la dépendance aux étiquettes :
Idéal pour les domaines où les données étiquetées sont rares.
-
Libère les données à grande échelle :
Permet aux modèles d'apprendre à partir de vastes corpus non étiquetés (par exemple, le Web, les vidéos, les flux audio).
-
Améliore la généralisation :
Conduit à de meilleures capacités de préformation et d’apprentissage par transfert.
2. Principes fondamentaux de SSL
2.1 Tâches de prétexte
SSL s'appuie sur des objectifs auxiliaires de tâches prétextes qui obligent le modèle à apprendre des fonctionnalités sémantiques. Les exemples incluent :
-
Prédire les parties manquantes d'une image (par exemple, inpainting)
-
Résoudre des puzzles créés à partir d'images
-
Prédire le mot ou la phrase suivante dans un texte
-
Prédire les jetons masqués (par exemple, BERT)
2.2 Apprentissage contrasté
Cette technique apprend au modèle à faire la distinction entre les instances similaires et différentes. L’objectif est de rapprocher les représentations d’échantillons similaires (paires positives) et d’en éloigner d’autres (paires négatives).
2.3 SSL basé sur le clustering
Au lieu de paires contrastées, les méthodes SSL basées sur le clustering apprennent des regroupements de données similaires et alignent les représentations sur ces clusters.
2.4 SSL prédictif
Les modèles prédisent une partie des données en fonction d'autres parties, comme la prédiction de l'image future d'une vidéo ou la reconstruction de formes d'onde audio.
3. SSL dans la vision par ordinateur
3.1 Premières tâches de prétexte
-
Colorisation:
Prédire la couleur à partir d'une entrée en niveaux de gris
-
Prédiction de rotation :
Apprenez à détecter si une image a été pivotée
-
Ordre des correctifs :
Résolvez les patchs d'images mélangées comme un puzzle
3.2 Méthodes contrastées
-
SimCLR :
Utilise de fortes augmentations pour créer des paires positives et une perte contrastive (NT-Xent) pour l'entraînement
-
MoCo :
Le contraste Momentum utilise un dictionnaire dynamique avec un encodeur Momentum
-
BYOL :
Prédit une vue des données d'une autre sans utiliser d'échantillons négatifs
-
SWAV :
Combine l'apprentissage contrastif avec le clustering en ligne
3.3 Transformateurs de vision (ViT + SSL)
Des modèles comme DINO et MAE ont montré que la pré-formation auto-supervisée peut être très efficace avec les transformateurs de vision, surpassant les CNN supervisés sur divers critères.
4. SSL dans le traitement du langage naturel
4.1 Modèles au niveau des mots
-
Mot2Vec :
Prédire les mots environnants (Skip-gram) ou prédire le mot central à partir du contexte (CBOW)
-
Gant:
Apprend les intégrations en agrégeant les statistiques de cooccurrence
4.2 Intégrations contextuelles
-
ELMo :
Représentations de mots contextuelles approfondies à l'aide de LSTM
-
BERTE :
Formé à la modélisation du langage masqué et à la prédiction de la phrase suivante
-
RoBERTa :
Améliore BERT en supprimant la tâche de prédiction de phrase suivante et en utilisant le masquage dynamique
4.3 Modèles séquence à séquence
T5 et BART
reformuler les tâches PNL sous forme de transformations texte en texte, entraînées à l'aide de schémas de débruitage ou de masquage.
4.4 Grands modèles de langage
Des modèles tels que GPT-3, PaLM et LLaMA sont pré-entraînés sur de grands corpus de texte à l'aide d'objectifs auto-supervisés (par exemple, prédiction du jeton suivant) et démontrent des capacités de tir peu ou nul.
5. SSL dans l'audio et la parole
5.1 Codage Prédictif Contrastif (CPC)
Entraîne un modèle pour prédire les futures images audio dans un espace latent, permettant l'apprentissage des caractéristiques du locuteur et du phonème.
5.2 Wav2Vec et HuBERT
L'IA de Facebook
wav2vec 2.0
et
HuBERT
les modèles apprennent les représentations directement à partir des formes d’onde brutes. Ceux-ci sont utilisés pour la reconnaissance vocale, l’identification du locuteur et la détection des émotions.
6. Avantages pour les équipes IA
6.1 Coûts d'annotation réduits
Avec SSL, les équipes peuvent pré-entraîner des modèles sur de nombreuses données non étiquetées et les affiner avec une petite quantité de données étiquetées pour obtenir des performances comparables ou supérieures.
6.2 Transfert convivial pour l’apprentissage
Les modèles auto-supervisés apprennent des fonctionnalités générales, qui peuvent être transférées entre tâches et domaines, en particulier dans les environnements à faibles ressources.
6.3 Permet une évolutivité dans le monde réel
Les secteurs tels que la santé, la finance et les services juridiques manquent souvent de données annotées. SSL permet de former des modèles robustes tout en préservant la confidentialité et en réduisant les frais réglementaires.
6.4 Robustesse et généralisation améliorées
Les tâches prétextes encouragent l’apprentissage de modèles structurels et sémantiques, rendant les modèles plus résilients aux changements de distribution ou aux exemples contradictoires.
7. Cadres et bibliothèques communs
-
Transformateurs de visage câlins :
Pour BERT, RoBERTa, GPT et les modèles SSL associés en PNL
-
PyTorch Lightning + Boulons :
Modules prêts à l'emploi pour SimCLR, BYOL, SwAV, etc.
-
TensorFlow Hub :
Modèles auto-supervisés pré-entraînés pour plusieurs modalités
-
OuvrirSelfSup :
Une plateforme open source pour l'apprentissage auto-supervisé des représentations visuelles
8. Défis du SSL
8.1 Pertinence des tâches
Toutes les tâches prétextes ne se transfèrent pas bien à la tâche cible. Concevoir des tâches prétextes significatives reste un défi.
8.2 Exigences informatiques
La formation de grands modèles SSL peut nécessiter beaucoup de calculs, nécessitant des GPU/TPU et des configurations de formation distribuées.
8.3 Complexité de l'évaluation
Il est plus difficile d’évaluer les représentations apprises de manière isolée. Les performances en aval sont souvent utilisées comme proxy, nécessitant plusieurs cycles de formation.
8.4 Manque de normalisation
Contrairement à l’apprentissage supervisé, les références et protocoles SSL sont moins standardisés, ce qui rend difficile les comparaisons entre articles et modèles.
9. Meilleures pratiques
-
Pré-entraînement sur des corpus vastes et diversifiés non étiquetés
-
Utiliser de fortes augmentations dans les méthodes contrastées
-
Choisissez des tâches prétextes alignées sur les cas d'utilisation en aval
-
Affinez avec les données étiquetées spécifiques à la tâche pour de meilleurs résultats
-
Surveiller la qualité de la représentation à l’aide de classificateurs de sondage
10. L'avenir de l'apprentissage autosupervisé
10.1 SSL multimodal
Apprendre des représentations conjointes à travers la vision, le texte et l’audio (par exemple, CLIP, Flamingo, Gato) pour une meilleure compréhension contextuelle.
10.2 RL auto-supervisé
Extension de SSL aux agents d'apprentissage par renforcement pour une meilleure exploration et une meilleure efficacité des échantillons à l'aide de tâches prétextes telles que la prédiction d'état.
10.3 SSL permanent et continu
Apprendre à partir de flux de données non étiquetées sans oublier les connaissances précédemment acquises.
10.4 Apprentissage fédéré auto-supervisé
La combinaison de SSL avec l'apprentissage fédéré permet de s'entraîner sur des sources de données privées sans accès centralisé.
11. Conclusion
L'apprentissage auto-supervisé est une approche transformatrice qui réduit le besoin de données étiquetées coûteuses, démocratise le développement de l'IA et alimente la prochaine génération de modèles en PNL, en vision et au-delà. À mesure que les outils, les ensembles de données et le calcul deviennent plus accessibles, SSL deviendra une pratique standard pour les équipes cherchant à intensifier leurs efforts de ML, à améliorer la généralisation et à créer des modèles qui apprennent davantage comme les humains en observant et en comprenant, plutôt qu'en mémorisant des étiquettes.