行业新闻

预训练是AI未来所需要的全部吗？

近日，微软亚洲研究院举行多模态表征学习与应用研讨会，与来自首尔国立大学、台湾大学、清华大学和中科院的学者们深度探讨了多模态表征学习在多媒体应用服务方面的最新研究进展和未来发展趋势，以推动整个领域向更好的方向发展。

2018 年，用于自然语言表示建模的 BERT 技术（即由变型器组成的双向编码器表示技术） [1] 的出现，为深度学习摆脱对有标注数据的依赖提供了一种新选择。理论上，基于 BERT 技术可以利用无限量的未标注数据作预训练，然后再利用针对特定任务的少量有标注数据进行微调，进而实现对不同任务（如问题解答和语言推理）的优化。此后，类似 BERT 的无监督预训练技术在许多自然语言处理任务中取得了突破性进展。

提供大量有标记多模态数据一直是解决多模态学习问题（如理解、转换和生成）的一个重大挑战，类似 BERT 的无监督预训练技术很好的解决了这一难题，并且可以显著提高系统整体性能。例如，在本次研讨会上，微软亚洲研究院的研究人员展示了在视觉语言任务中的通用表示预训练 [2]、具有视觉内容的多模态自然语言处理 [3]，以及视频语言跨模态任务的预训练 [4] 等方面所取得的重大进展。其中，部分技术成果已经转化到微软核心产品中，取得了良好的应用效果。

预训练是 AI 未来所需要的全部吗？

我们一致认为，预训练将是未来 AI 的非常重要的组成部分，但我们需要的不止这些。人类丰富的先验知识需要有效地集成到系统中，以减少我们对大数据、模型和计算的依赖。此外，学术界与工业界可以密切合作，充分发挥双方的优势。例如，高校开设了许多学科，因此在跨学科研究方面具有天然优势，而工业界在数据收集和计算资源方面实力雄厚。如果有更多的开源项目，让更多的人能够参与到相关研究中并做出贡献，必将有力推动技术快速向前发展。

上一篇：我国首个量子计算技术创新中心获批，自主研发量子关键技术

下一篇：面对环境和可持续发展的全球性挑战，AI能帮助我们做什么？