自我监督学习:减少标签要求
在数据驱动的人工智能时代,训练有效的机器学习模型的最大瓶颈之一是需要大量的标记数据。贴标签既昂贵又耗时,有时甚至不可行。自我监督学习(SSL)是一种范式,允许模型通过生成自己的监督信号来从原始的、未标记的数据中学习。 SSL 通过显着减少对标记数据集的依赖,正在将领域从计算机视觉转变为自然语言处理。本文探讨了自我监督学习的基础、技术、应用和未来,以及它如何使团队能够更有效地扩展人工智能开发。
1. 自我监督学习简介
1.1 什么是自我监督学习?
自监督学习是一种无监督学习,模型学习根据同一数据的其他部分来预测部分数据。它根据输入数据本身自动构建伪标签,使其能够在不依赖人类标记数据集的情况下学习有用的表示。
1.2 为什么要进行自我监督学习?
-
减少标签依赖性:
非常适合标记数据稀缺的领域。
-
大规模释放数据:
允许模型从大量未标记的语料库(例如网络、视频、音频流)中学习。
-
提高泛化能力:
带来更好的预训练和迁移学习能力。
2. SSL核心原理
2.1 借口任务
SSL 依赖于借口任务辅助目标,迫使模型学习语义特征。示例包括:
-
预测图像的缺失部分(例如修复)
-
解决由图像制成的拼图游戏
-
预测文本中的下一个单词或句子
-
预测屏蔽标记(例如 BERT)
2.2 对比学习
该技术教会模型区分相似和不相似的实例。目标是将相似样本(正对)的表示拉得更近,并将其他样本(负对)推开。
2.3 基于集群的SSL
基于聚类的 SSL 方法不是对比对,而是学习相似数据的分组并将表示与这些聚类对齐。
2.4 预测 SSL
模型根据给定的其他部分来预测数据的一部分,例如预测视频中的未来帧,或重建音频波形。
3.计算机视觉中的SSL
3.1 早期借口任务
-
着色:
从灰度输入预测颜色
-
旋转预测:
学习检测图像是否已旋转
-
补丁顺序:
像拼图一样解决打乱的图像块
3.2 对比方法
-
模拟CLR:
使用强增强来创建正对和对比损失 (NT-Xent) 进行训练
-
莫科:
动量对比使用带有动量编码器的动态字典
-
自带许可:
在不使用负样本的情况下预测另一数据视图的数据
-
斯瓦夫:
将对比学习与在线聚类相结合
3.3 视觉变压器(ViT + SSL)
DINO 和 MAE 等模型已经表明,使用视觉 Transformer 进行自监督预训练可以非常有效,在各种基准上都优于监督 CNN。
4.自然语言处理中的SSL
4.1 词级模型
-
Word2Vec:
预测周围单词 (Skip-gram) 或根据上下文预测中心单词 (CBOW)
-
手套:
通过聚合共现统计来学习嵌入
4.2 上下文嵌入
-
埃尔莫:
使用 LSTM 进行深度上下文单词表示
-
伯特:
通过掩码语言模型和下一句预测进行训练
-
罗伯塔:
通过删除下一个句子预测任务并使用动态掩码来改进 BERT
4.3 序列到序列模型
T5 和 BART
将 NLP 任务重新表述为文本到文本的转换,并使用去噪或掩蔽方案进行训练。
4.4 大型语言模型
GPT-3、PaLM 和 LLaMA 等模型使用自监督目标(例如下一个标记预测)在大型文本语料库上进行预训练,并展示了少样本或零样本能力。
5. 音频和语音中的 SSL
5.1 对比预测编码(CPC)
训练模型来预测潜在空间中的未来音频帧,从而能够学习说话者和音素特征。
5.2 Wav2Vec 和 HuBERT
Facebook 人工智能
wav2vec 2.0
和
休伯特
模型直接从原始波形学习表示。它们用于语音识别、说话者 ID 和情绪检测。
6. 对人工智能团队的好处
6.1 降低注释成本
通过 SSL,团队可以在大量未标记数据上预训练模型,并使用少量标记数据进行微调,从而实现可比或更好的性能。
6.2 迁移学习友好
自监督模型学习通用特征,这些特征可以跨任务和领域转移,特别是在资源匮乏的环境中。
6.3 实现现实世界的可扩展性
医疗保健、金融和法律服务等行业通常缺乏带注释的数据。 SSL 允许训练稳健的模型,同时维护隐私并减少监管开销。
6.4 改进的鲁棒性和泛化性
借口任务鼓励学习结构和语义模式,使模型对分布变化或对抗性示例更具弹性。
7. 通用框架和库
-
拥抱脸变形金刚:
适用于 NLP 中的 BERT、RoBERTa、GPT 和相关 SSL 模型
-
PyTorch 闪电 + 螺栓:
SimCLR、BYOL、SwAV 等即用型模块
-
TensorFlow 中心:
针对多种模式的预训练自监督模型
-
打开SelfSup:
用于自监督视觉表示学习的开源平台
8. SSL 的挑战
8.1 任务相关性
并非所有借口任务都能很好地转移到目标任务。设计有意义的借口任务仍然是一个挑战。
8.2 计算要求
训练大型 SSL 模型可能需要大量计算,需要 GPU/TPU 和分布式训练设置。
8.3 评估复杂度
孤立地评估学习到的表征更加困难。下游性能通常用作代理,需要多个训练周期。
8.4 缺乏标准化
与监督学习不同,SSL 基准和协议标准化程度较低,使得论文和模型之间的比较变得困难。
9. 最佳实践
-
对大型、多样化的未标记语料库进行预训练
-
在对比方法中使用强增强
-
选择与下游用例一致的借口任务
-
使用特定于任务的标记数据进行微调以获得最佳结果
- 使用探测分类器监控表示质量
10.自我监督学习的未来
10.1 多模式 SSL
学习跨视觉、文本和音频(例如 CLIP、Flamingo、Gato)的联合表示,以增强上下文理解。
10.2 自监督强化学习
使用状态预测等借口任务将 SSL 扩展到强化学习代理,以实现更好的探索和样本效率。
10.3 终身且持续的 SSL
从未标记的数据流中学习,而不会忘记以前获得的知识。
10.4 联邦自监督学习
将 SSL 与联邦学习相结合,可以在无需集中访问的情况下对私有数据源进行训练。
11. 结论
自监督学习是一种变革性方法,可以减少对昂贵的标记数据的需求,使人工智能开发民主化,并推动 NLP、视觉等领域的下一代模型。随着工具、数据集和计算变得更加容易获取,SSL 将成为希望扩展 ML 工作、提高泛化能力并构建模型的标准实践,这些模型通过观察和理解而不是记住标签来更像人类那样学习。