自我监督学习：减少标签要求

在数据驱动的人工智能时代，训练有效的机器学习模型的最大瓶颈之一是需要大量的标记数据。贴标签既昂贵又耗时，有时甚至不可行。自我监督学习（SSL）是一种范式，允许模型通过生成自己的监督信号来从原始的、未标记的数据中学习。 SSL 通过显着减少对标记数据集的依赖，正在将领域从计算机视觉转变为自然语言处理。本文探讨了自我监督学习的基础、技术、应用和未来，以及它如何使团队能够更有效地扩展人工智能开发。

1. 自我监督学习简介

1.1 什么是自我监督学习？

自监督学习是一种无监督学习，模型学习根据同一数据的其他部分来预测部分数据。它根据输入数据本身自动构建伪标签，使其能够在不依赖人类标记数据集的情况下学习有用的表示。

1.2 为什么要进行自我监督学习？

减少标签依赖性： 非常适合标记数据稀缺的领域。
大规模释放数据： 允许模型从大量未标记的语料库（例如网络、视频、音频流）中学习。
提高泛化能力： 带来更好的预训练和迁移学习能力。

2. SSL核心原理

2.1 借口任务

SSL 依赖于借口任务辅助目标，迫使模型学习语义特征。示例包括：

预测图像的缺失部分（例如修复）
解决由图像制成的拼图游戏
预测文本中的下一个单词或句子
预测屏蔽标记（例如 BERT）

2.2 对比学习

该技术教会模型区分相似和不相似的实例。目标是将相似样本（正对）的表示拉得更近，并将其他样本（负对）推开。

2.3 基于集群的SSL

基于聚类的 SSL 方法不是对比对，而是学习相似数据的分组并将表示与这些聚类对齐。

2.4 预测 SSL

模型根据给定的其他部分来预测数据的一部分，例如预测视频中的未来帧，或重建音频波形。

3.计算机视觉中的SSL

3.1 早期借口任务

着色： 从灰度输入预测颜色
旋转预测： 学习检测图像是否已旋转
补丁顺序： 像拼图一样解决打乱的图像块

3.2 对比方法

模拟CLR： 使用强增强来创建正对和对比损失 (NT-Xent) 进行训练
莫科： 动量对比使用带有动量编码器的动态字典
自带许可： 在不使用负样本的情况下预测另一数据视图的数据
斯瓦夫： 将对比学习与在线聚类相结合

3.3 视觉变压器（ViT + SSL）

DINO 和 MAE 等模型已经表明，使用视觉 Transformer 进行自监督预训练可以非常有效，在各种基准上都优于监督 CNN。

4.自然语言处理中的SSL

4.1 词级模型

Word2Vec： 预测周围单词 (Skip-gram) 或根据上下文预测中心单词 (CBOW)
手套： 通过聚合共现统计来学习嵌入

4.2 上下文嵌入

埃尔莫： 使用 LSTM 进行深度上下文单词表示
伯特： 通过掩码语言模型和下一句预测进行训练
罗伯塔： 通过删除下一个句子预测任务并使用动态掩码来改进 BERT

4.3 序列到序列模型

T5 和 BART 将 NLP 任务重新表述为文本到文本的转换，并使用去噪或掩蔽方案进行训练。

4.4 大型语言模型

GPT-3、PaLM 和 LLaMA 等模型使用自监督目标（例如下一个标记预测）在大型文本语料库上进行预训练，并展示了少样本或零样本能力。

5. 音频和语音中的 SSL

5.1 对比预测编码（CPC）

训练模型来预测潜在空间中的未来音频帧，从而能够学习说话者和音素特征。

5.2 Wav2Vec 和 HuBERT

Facebook 人工智能 wav2vec 2.0 和 休伯特 模型直接从原始波形学习表示。它们用于语音识别、说话者 ID 和情绪检测。

6. 对人工智能团队的好处

6.1 降低注释成本

通过 SSL，团队可以在大量未标记数据上预训练模型，并使用少量标记数据进行微调，从而实现可比或更好的性能。

6.2 迁移学习友好

自监督模型学习通用特征，这些特征可以跨任务和领域转移，特别是在资源匮乏的环境中。

6.3 实现现实世界的可扩展性

医疗保健、金融和法律服务等行业通常缺乏带注释的数据。 SSL 允许训练稳健的模型，同时维护隐私并减少监管开销。

6.4 改进的鲁棒性和泛化性

借口任务鼓励学习结构和语义模式，使模型对分布变化或对抗性示例更具弹性。

7. 通用框架和库

拥抱脸变形金刚： 适用于 NLP 中的 BERT、RoBERTa、GPT 和相关 SSL 模型
PyTorch 闪电 + 螺栓： SimCLR、BYOL、SwAV 等即用型模块
TensorFlow 中心： 针对多种模式的预训练自监督模型
打开SelfSup： 用于自监督视觉表示学习的开源平台

8. SSL 的挑战

8.1 任务相关性

并非所有借口任务都能很好地转移到目标任务。设计有意义的借口任务仍然是一个挑战。

8.2 计算要求

训练大型 SSL 模型可能需要大量计算，需要 GPU/TPU 和分布式训练设置。

8.3 评估复杂度

孤立地评估学习到的表征更加困难。下游性能通常用作代理，需要多个训练周期。

8.4 缺乏标准化

与监督学习不同，SSL 基准和协议标准化程度较低，使得论文和模型之间的比较变得困难。

9. 最佳实践

对大型、多样化的未标记语料库进行预训练
在对比方法中使用强增强
选择与下游用例一致的借口任务
使用特定于任务的标记数据进行微调以获得最佳结果
使用探测分类器监控表示质量

10.自我监督学习的未来

10.1 多模式 SSL

学习跨视觉、文本和音频（例如 CLIP、Flamingo、Gato）的联合表示，以增强上下文理解。

10.2 自监督强化学习

使用状态预测等借口任务将 SSL 扩展到强化学习代理，以实现更好的探索和样本效率。

10.3 终身且持续的 SSL

从未标记的数据流中学习，而不会忘记以前获得的知识。

10.4 联邦自监督学习

将 SSL 与联邦学习相结合，可以在无需集中访问的情况下对私有数据源进行训练。

11. 结论

自监督学习是一种变革性方法，可以减少对昂贵的标记数据的需求，使人工智能开发民主化，并推动 NLP、视觉等领域的下一代模型。随着工具、数据集和计算变得更加容易获取，SSL 将成为希望扩展 ML 工作、提高泛化能力并构建模型的标准实践，这些模型通过观察和理解而不是记住标签来更像人类那样学习。