Aprendizaje autosupervisado: reducción de los requisitos de etiquetas

En la era de la IA basada en datos, uno de los mayores obstáculos para entrenar modelos eficaces de aprendizaje automático es la necesidad de cantidades masivas de datos etiquetados. El etiquetado es costoso, requiere mucho tiempo y, en ocasiones, no es factible. Ingrese al aprendizaje autosupervisado (SSL), un paradigma que permite a los modelos aprender a partir de datos sin procesar y sin etiquetar generando sus propias señales de supervisión. SSL está transformando campos de la visión por computadora al procesamiento del lenguaje natural al reducir significativamente la dependencia de conjuntos de datos etiquetados. Este artículo explora los fundamentos, las técnicas, las aplicaciones y el futuro del aprendizaje autosupervisado, y cómo permite a los equipos escalar el desarrollo de la IA de manera más eficiente.

1. Introducción al aprendizaje autosupervisado

1.1 ¿Qué es el aprendizaje autosupervisado?

El aprendizaje autosupervisado es un tipo de aprendizaje no supervisado en el que el modelo aprende a predecir parte de los datos a partir de otras partes de los mismos datos. Construye pseudoetiquetas automáticamente a partir de los propios datos de entrada, lo que le permite aprender representaciones útiles sin depender de conjuntos de datos etiquetados por humanos.

1.2 ¿Por qué el aprendizaje autosupervisado?

Reduce la dependencia de las etiquetas: Ideal para dominios donde los datos etiquetados son escasos.
Libera datos a escala: Permite que los modelos aprendan de vastos corpus sin etiquetar (por ejemplo, la web, videos, transmisiones de audio).
Mejora la generalización: Conduce a una mejor preformación y transferencia de capacidades de aprendizaje.

2. Principios básicos de SSL

2.1 Tareas de pretexto

SSL se basa en objetivos auxiliares de tareas de pretexto que obligan al modelo a aprender características semánticas. Los ejemplos incluyen:

Predecir partes faltantes de una imagen (por ejemplo, pintura)
Resolver rompecabezas hechos a partir de imágenes.
Predecir la siguiente palabra u oración en un texto
Predicción de tokens enmascarados (por ejemplo, BERT)

2.2 Aprendizaje Contrastivo

Esta técnica le enseña al modelo a distinguir entre instancias similares y diferentes. El objetivo es acercar representaciones de muestras similares (pares positivos) y separar otras (pares negativos).

2.3 SSL basado en clústeres

En lugar de pares contrastantes, los métodos SSL basados en agrupaciones aprenden agrupaciones de datos similares y alinean representaciones con estas agrupaciones.

2.4 SSL predictivo

Los modelos predicen una parte de los datos dadas otras partes, como predecir el cuadro futuro en un video o reconstruir formas de onda de audio.

3. SSL en visión por computadora

3.1 Tareas iniciales de pretexto

Colorización: Predecir el color a partir de la entrada en escala de grises
Predicción de rotación: Aprende a detectar si una imagen ha sido rotada
Orden de parches: Resuelve parches de imágenes mezcladas como un rompecabezas

3.2 Métodos contrastantes

SimCLR: Utiliza fuertes aumentos para crear pares positivos y pérdida contrastiva (NT-Xent) para el entrenamiento.
MoCo: El contraste de impulso utiliza un diccionario dinámico con un codificador de impulso
BYOL: Predice una vista de los datos a partir de otra sin utilizar muestras negativas
SWAV: Combina el aprendizaje contrastivo con la agrupación en línea

3.3 Transformadores de visión (ViT + SSL)

Modelos como DINO y MAE han demostrado que el preentrenamiento autosupervisado puede ser muy eficaz con transformadores de visión, superando a las CNN supervisadas en varios puntos de referencia.

4. SSL en el procesamiento del lenguaje natural

4.1 Modelos a nivel de palabra

Palabra2Vec: Predecir las palabras circundantes (Skip-gram) o predecir la palabra central a partir del contexto (CBOW)
Guante: Aprende incrustaciones agregando estadísticas de coocurrencia

4.2 Incrustaciones contextuales

ELMo: Representaciones de palabras contextuales profundas utilizando LSTM
BERT: Entrenado con modelado de lenguaje enmascarado y predicción de la siguiente oración.
Roberta: Mejora BERT al eliminar la tarea de predicción de la siguiente oración y usar enmascaramiento dinámico

4.3 Modelos secuencia a secuencia

T5 y BART Reformule las tareas de PNL como transformaciones de texto a texto, entrenadas utilizando esquemas de eliminación de ruido o enmascaramiento.

4.4 Modelos de lenguaje grandes

Los modelos como GPT-3, PaLM y LLaMA están previamente entrenados en grandes corpus de texto utilizando objetivos autosupervisados (por ejemplo, predicción del siguiente token) y demuestran capacidades de pocos disparos o de cero disparos.

5. SSL en audio y voz

5.1 Codificación predictiva contrastiva (CPC)

Entrena un modelo para predecir fotogramas de audio futuros en un espacio latente, lo que permite aprender las características del hablante y los fonemas.

5.2 Wav2Vec y HuBERT

IA de Facebook wav2vec 2.0 y HUBERT Los modelos aprenden representaciones directamente de formas de onda sin procesar. Se utilizan para el reconocimiento de voz, la identificación del hablante y la detección de emociones.

6. Beneficios para los equipos de IA

6.1 Costos de anotación reducidos

Con SSL, los equipos pueden entrenar previamente modelos con abundantes datos sin etiquetar y ajustarlos con una pequeña cantidad de datos etiquetados para lograr un rendimiento comparable o mejor.

6.2 Transferencia de aprendizaje amigable

Los modelos autosupervisados aprenden características de propósito general, que pueden transferirse entre tareas y dominios, especialmente en entornos de bajos recursos.

6.3 Permite la escalabilidad en el mundo real

Industrias como la atención médica, las finanzas y los servicios legales a menudo carecen de datos anotados. SSL permite entrenar modelos robustos manteniendo la privacidad y reduciendo los gastos regulatorios.

6.4 Mayor robustez y generalización

Las tareas de pretexto fomentan el aprendizaje de patrones estructurales y semánticos, lo que hace que los modelos sean más resistentes a cambios de distribución o ejemplos contradictorios.

7. Marcos y bibliotecas comunes

Transformadores de cara abrazada: Para BERT, RoBERTa, GPT y modelos SSL relacionados en PNL
PyTorch Rayo + Pernos: Módulos listos para usar para SimCLR, BYOL, SwAV, etc.
Centro TensorFlow: Modelos autosupervisados previamente entrenados para múltiples modalidades
AbrirSelfSup: Una plataforma de código abierto para el aprendizaje de representación visual autosupervisado

8. Desafíos en SSL

8.1 Relevancia de la tarea

No todas las tareas de pretexto se transfieren bien a la tarea objetivo. Diseñar tareas de pretexto significativas sigue siendo un desafío.

8.2 Requisitos computacionales

El entrenamiento de modelos SSL grandes puede requerir un uso intensivo de computación y requerir GPU/TPU y configuraciones de entrenamiento distribuidas.

8.3 Complejidad de la evaluación

Es más difícil evaluar las representaciones aprendidas de forma aislada. El rendimiento posterior se utiliza a menudo como proxy y requiere múltiples ciclos de entrenamiento.

8.4 Falta de estandarización

A diferencia del aprendizaje supervisado, los protocolos y puntos de referencia SSL están menos estandarizados, lo que dificulta las comparaciones entre artículos y modelos.

9. Mejores prácticas

Preentrenamiento en corpus grandes y diversos sin etiquetar
Utilice fuertes aumentos en métodos contrastivos.
Elija tareas de pretexto alineadas con casos de uso posteriores
Ajuste con datos etiquetados específicos de la tarea para obtener mejores resultados
Supervisar la calidad de la representación mediante clasificadores de sondeo.

10. Futuro del aprendizaje autosupervisado

10.1 SSL multimodal

Aprender representaciones conjuntas a través de visión, texto y audio (por ejemplo, CLIP, Flamingo, Gato) para una mejor comprensión contextual.

10.2 RL autosupervisado

Ampliar SSL a agentes de aprendizaje por refuerzo para una mejor exploración y eficiencia de muestreo utilizando tareas de pretexto como la predicción de estado.

10.3 SSL continuo y de por vida

Aprender de flujos de datos sin etiquetar sin olvidar los conocimientos adquiridos previamente.

10.4 Aprendizaje autosupervisado federado

La combinación de SSL con el aprendizaje federado permite la capacitación sobre fuentes de datos privadas sin acceso centralizado.

11. Conclusión

El aprendizaje autosupervisado es un enfoque transformador que reduce la necesidad de costosos datos etiquetados, democratiza el desarrollo de la IA e impulsa la próxima generación de modelos en PNL, visión y más. A medida que las herramientas, los conjuntos de datos y la computación se vuelvan más accesibles, SSL se convertirá en una práctica estándar para los equipos que buscan escalar los esfuerzos de aprendizaje automático, mejorar la generalización y crear modelos que aprendan más como humanos mediante la observación y la comprensión, en lugar de memorizar etiquetas.