Apprentissage auto-supervisé : réduire les exigences en matière d'étiquetage

À l’ère de l’IA basée sur les données, l’un des principaux obstacles à la formation de modèles d’apprentissage automatique efficaces est le besoin de quantités massives de données étiquetées. L’étiquetage est coûteux, prend du temps et est parfois irréalisable. Entrez dans l'apprentissage auto-supervisé (SSL), un paradigme qui permet aux modèles d'apprendre à partir de données brutes et non étiquetées en générant leurs propres signaux de supervision. SSL transforme les domaines de la vision par ordinateur au traitement du langage naturel en réduisant considérablement la dépendance à l'égard des ensembles de données étiquetés. Cet article explore les fondements, les techniques, les applications et l'avenir de l'apprentissage auto-supervisé, ainsi que la manière dont il permet aux équipes de faire évoluer le développement de l'IA plus efficacement.

1. Introduction à l'apprentissage autosupervisé

1.1 Qu'est-ce que l'apprentissage autosupervisé ?

L'apprentissage auto-supervisé est un type d'apprentissage non supervisé dans lequel le modèle apprend à prédire une partie des données à partir d'autres parties des mêmes données. Il construit automatiquement des pseudo-étiquettes à partir des données d'entrée elles-mêmes, ce qui lui permet d'apprendre des représentations utiles sans s'appuyer sur des ensembles de données étiquetés par l'homme.

1.2 Pourquoi un apprentissage auto-supervisé ?

Réduit la dépendance aux étiquettes : Idéal pour les domaines où les données étiquetées sont rares.
Libère les données à grande échelle : Permet aux modèles d'apprendre à partir de vastes corpus non étiquetés (par exemple, le Web, les vidéos, les flux audio).
Améliore la généralisation : Conduit à de meilleures capacités de préformation et d’apprentissage par transfert.

2. Principes fondamentaux de SSL

2.1 Tâches de prétexte

SSL s'appuie sur des objectifs auxiliaires de tâches prétextes qui obligent le modèle à apprendre des fonctionnalités sémantiques. Les exemples incluent :

Prédire les parties manquantes d'une image (par exemple, inpainting)
Résoudre des puzzles créés à partir d'images
Prédire le mot ou la phrase suivante dans un texte
Prédire les jetons masqués (par exemple, BERT)

2.2 Apprentissage contrasté

Cette technique apprend au modèle à faire la distinction entre les instances similaires et différentes. L’objectif est de rapprocher les représentations d’échantillons similaires (paires positives) et d’en éloigner d’autres (paires négatives).

2.3 SSL basé sur le clustering

Au lieu de paires contrastées, les méthodes SSL basées sur le clustering apprennent des regroupements de données similaires et alignent les représentations sur ces clusters.

2.4 SSL prédictif

Les modèles prédisent une partie des données en fonction d'autres parties, comme la prédiction de l'image future d'une vidéo ou la reconstruction de formes d'onde audio.

3. SSL dans la vision par ordinateur

3.1 Premières tâches de prétexte

Colorisation: Prédire la couleur à partir d'une entrée en niveaux de gris
Prédiction de rotation : Apprenez à détecter si une image a été pivotée
Ordre des correctifs : Résolvez les patchs d'images mélangées comme un puzzle

3.2 Méthodes contrastées

SimCLR : Utilise de fortes augmentations pour créer des paires positives et une perte contrastive (NT-Xent) pour l'entraînement
MoCo : Le contraste Momentum utilise un dictionnaire dynamique avec un encodeur Momentum
BYOL : Prédit une vue des données d'une autre sans utiliser d'échantillons négatifs
SWAV : Combine l'apprentissage contrastif avec le clustering en ligne

3.3 Transformateurs de vision (ViT + SSL)

Des modèles comme DINO et MAE ont montré que la pré-formation auto-supervisée peut être très efficace avec les transformateurs de vision, surpassant les CNN supervisés sur divers critères.

4. SSL dans le traitement du langage naturel

4.1 Modèles au niveau des mots

Mot2Vec : Prédire les mots environnants (Skip-gram) ou prédire le mot central à partir du contexte (CBOW)
Gant: Apprend les intégrations en agrégeant les statistiques de cooccurrence

4.2 Intégrations contextuelles

ELMo : Représentations de mots contextuelles approfondies à l'aide de LSTM
BERTE : Formé à la modélisation du langage masqué et à la prédiction de la phrase suivante
RoBERTa : Améliore BERT en supprimant la tâche de prédiction de phrase suivante et en utilisant le masquage dynamique

4.3 Modèles séquence à séquence

T5 et BART reformuler les tâches PNL sous forme de transformations texte en texte, entraînées à l'aide de schémas de débruitage ou de masquage.

4.4 Grands modèles de langage

Des modèles tels que GPT-3, PaLM et LLaMA sont pré-entraînés sur de grands corpus de texte à l'aide d'objectifs auto-supervisés (par exemple, prédiction du jeton suivant) et démontrent des capacités de tir peu ou nul.

5. SSL dans l'audio et la parole

5.1 Codage Prédictif Contrastif (CPC)

Entraîne un modèle pour prédire les futures images audio dans un espace latent, permettant l'apprentissage des caractéristiques du locuteur et du phonème.

5.2 Wav2Vec et HuBERT

L'IA de Facebook wav2vec 2.0 et HuBERT les modèles apprennent les représentations directement à partir des formes d’onde brutes. Ceux-ci sont utilisés pour la reconnaissance vocale, l’identification du locuteur et la détection des émotions.

6. Avantages pour les équipes IA

6.1 Coûts d'annotation réduits

Avec SSL, les équipes peuvent pré-entraîner des modèles sur de nombreuses données non étiquetées et les affiner avec une petite quantité de données étiquetées pour obtenir des performances comparables ou supérieures.

6.2 Transfert convivial pour l’apprentissage

Les modèles auto-supervisés apprennent des fonctionnalités générales, qui peuvent être transférées entre tâches et domaines, en particulier dans les environnements à faibles ressources.

6.3 Permet une évolutivité dans le monde réel

Les secteurs tels que la santé, la finance et les services juridiques manquent souvent de données annotées. SSL permet de former des modèles robustes tout en préservant la confidentialité et en réduisant les frais réglementaires.

6.4 Robustesse et généralisation améliorées

Les tâches prétextes encouragent l’apprentissage de modèles structurels et sémantiques, rendant les modèles plus résilients aux changements de distribution ou aux exemples contradictoires.

7. Cadres et bibliothèques communs

Transformateurs de visage câlins : Pour BERT, RoBERTa, GPT et les modèles SSL associés en PNL
PyTorch Lightning + Boulons : Modules prêts à l'emploi pour SimCLR, BYOL, SwAV, etc.
TensorFlow Hub : Modèles auto-supervisés pré-entraînés pour plusieurs modalités
OuvrirSelfSup : Une plateforme open source pour l'apprentissage auto-supervisé des représentations visuelles

8. Défis du SSL

8.1 Pertinence des tâches

Toutes les tâches prétextes ne se transfèrent pas bien à la tâche cible. Concevoir des tâches prétextes significatives reste un défi.

8.2 Exigences informatiques

La formation de grands modèles SSL peut nécessiter beaucoup de calculs, nécessitant des GPU/TPU et des configurations de formation distribuées.

8.3 Complexité de l'évaluation

Il est plus difficile d’évaluer les représentations apprises de manière isolée. Les performances en aval sont souvent utilisées comme proxy, nécessitant plusieurs cycles de formation.

8.4 Manque de normalisation

Contrairement à l’apprentissage supervisé, les références et protocoles SSL sont moins standardisés, ce qui rend difficile les comparaisons entre articles et modèles.

9. Meilleures pratiques

Pré-entraînement sur des corpus vastes et diversifiés non étiquetés
Utiliser de fortes augmentations dans les méthodes contrastées
Choisissez des tâches prétextes alignées sur les cas d'utilisation en aval
Affinez avec les données étiquetées spécifiques à la tâche pour de meilleurs résultats
Surveiller la qualité de la représentation à l’aide de classificateurs de sondage

10. L'avenir de l'apprentissage autosupervisé

10.1 SSL multimodal

Apprendre des représentations conjointes à travers la vision, le texte et l’audio (par exemple, CLIP, Flamingo, Gato) pour une meilleure compréhension contextuelle.

10.2 RL auto-supervisé

Extension de SSL aux agents d'apprentissage par renforcement pour une meilleure exploration et une meilleure efficacité des échantillons à l'aide de tâches prétextes telles que la prédiction d'état.

10.3 SSL permanent et continu

Apprendre à partir de flux de données non étiquetées sans oublier les connaissances précédemment acquises.

10.4 Apprentissage fédéré auto-supervisé

La combinaison de SSL avec l'apprentissage fédéré permet de s'entraîner sur des sources de données privées sans accès centralisé.

11. Conclusion

L'apprentissage auto-supervisé est une approche transformatrice qui réduit le besoin de données étiquetées coûteuses, démocratise le développement de l'IA et alimente la prochaine génération de modèles en PNL, en vision et au-delà. À mesure que les outils, les ensembles de données et le calcul deviennent plus accessibles, SSL deviendra une pratique standard pour les équipes cherchant à intensifier leurs efforts de ML, à améliorer la généralisation et à créer des modèles qui apprennent davantage comme les humains en observant et en comprenant, plutôt qu'en mémorisant des étiquettes.