您当前的位置：三板富> 商业 > 正文

复旦大学计算机学院教授黄萱菁：AI应该是帮助人类的工具，而不是取代人类的机器-当前看点

2023-03-29 12:56:03 来源：科创板日报编辑：news2020

让机器读懂人类语言需要经过哪些历程？从模型建立到模型训练再到最终推出面向用户端的产品，每一步都经历了大规模实验。近期全网爆火的ChatGPT引发我们对于人工智能的关注，有人认为ChatGPT是数字时代的“珍妮纺纱机“，而AI可能会像工业革命和信息革命一样，引领人类走向下一个时代。

那么我们究竟是如何在智能化道路上越走越远，迈向大规模语言模型呢？本期财联社连线分享复旦大学计算机学院教授、博士生导师黄萱菁的观点，讲述语言模型发展的来龙去脉、大规模语言模型的应用将会给人类发展带来的改变，以下：

本文整理自复旦大学计算机学院教授、博士生导师黄萱菁教授在复旦管院主办的“我们︱WOMEN”2023复旦科创先锋论坛——迈向大规模语言模型主题演讲

编辑 | 李梦琪蔺文颖

策划 | 郭楠

从理解模型到产生式模型，预训练语言的飞跃发展

近期ChatGPT的广泛传播使得大规模语言模型这一概念深入人心，不过究竟什么是大规模语言模型？我们首先要从语言模型入手，语言模型即语言的规律。无论汉语还是英语等语言，都需要从语法学起。

【资料图】

然而，现实中的语言并不会严格按照语法表达，光有语法人们依然难以捕捉客观世界纷繁复杂的语言现象，所以需要使用数学“武器”——概率在各种语言现象中间去寻找规律，这个概率模型被称为语言模型。由于句子在诸多情景下可能包含巨大的词汇量，导致传统概率语言模型所需的计算资源爆炸式增长。

2017年Transformer模型开始出现，这个模型是现有预训练模型的基石，也是大规模语言模型的基石。传统的预训练模型有两种思路，一种是以BERT为例的理解模型，另一种是以ChatGPT的前身GPT为代表的产生式模型。尽管部分从业者尝试将理解模型与产生式模型结合起来，但过去很长一段时间里，理解模型被使用得比较多。而产生式模型则需要更高的算力和更长的词符窗口，直到GPT-3出现之后，人们才意识到其如此强悍，而ChatGPT更是拥有了人类语言的能力。

我们生活在一个飞速变化的时代，几乎每周都有新的模型发布，而预训练+微调的方式是前ChatGPT时代的范式，诸如Google、Open AI这样的大厂将自身开发的大模型开源，供下游应用者在这些模型上进行参数的微调，以取得优异的表现。例如电影的正负面影评需要进行分类，仅用原来的GPT和BERT不能达到效果，需要人工标注一批任务相关的数据，对模型进行微调。这种预训练+微调的范式是过去三年内自然语言处理的主要范式。

在少样本场景下，一两条数据就能让大规模语言模型表现出相当不错的性能。然而，随着语言模型变大，一方面厂商会出于商业原因逐渐舍弃开源，比如OPenAI没有开放过GPT-3模型，只开放API接口，外部人员可以调用却拿不到内部细节；另一方面用户也缺乏足够的计算资源使用大模型。

基于此情况，利用大规模语言模型的涌现能力的新范式出现。涌现能力是当模型的参数规模未到达某个阙值时，其能力有限，当达到某一阙值，这个模型就会非常强大，目前这一参数规模的临界值被认为可能是650亿。早期GPT-3缺乏对用户需求的理解力，但目前的ChatGPT和我们实验室开发的MOSS，都拥有较强的理解用户需求的能力。

范式转变，一个模型打天下

自然语言处理共有七种范式：分类、匹配、序列标注、机器阅读理解、Seq2Seq、Seq2ASeq（序列到动作序列）及掩码语言模型范式。下图说明了这几年自然语言处理的范式迁移。

过去很多公司专注于一件任务做到极致，就能够占领相应细分领域。但时代不同了，我们可以通过一种模型统一所有的任务，一个模型就可以打天下。

统一模型基座，即可以用一种武器、一个方法统一所有的任务。

BERT针对自然语言理解，GPT是自然语言生成，复旦大学NLP实验室架在2021年提出新的语言模型——GPT，合并理解任务和生成任务。GPT是非对称的Transformer模型结构，该结构由一个Encoder（任务间共用）和两个Decoder（一个面向理解，一个面向生成）组成，同时具备理解和生成能力，在此基础上训练MOSS。

ChatGPT时代，如何使用语言模型方面有以下几个思路：

一是Text prompt（文本提示），即通过人工设计一些基于文本的指令，激活大模型面向特定下游任务的能力。但是手工设计偏向于特征工程问题，需要工程师依据既往经验不断调试，十分耗费精力。

二是In-context learning（情景学习），在GPT模型上展现了良好的表现，这种手段开辟了一个极具前景的方向，值得学界和工业界继续共同研究。

三是Data generation（数据生成），不同于直接使用大模型，这种手段是使用大模型生成一定量的数据，再利用生成的数据训练一个小体量的模型，以追求在小样本场景下的应用效果。

四是Feature-based-learning（特征学习），把预训练模型的输出作为一种 Feature，并结合标签，输入给一些特定的模型，使参数由标签空间向特征空间靠拢，极大地减轻了端侧优化的负担。

Black-box optimization（黑箱优化），让用户根据推理API的返回结果，使用基于搜索的无梯度优化方法自己优化指令。让ChatGPT等大模型返回更符合个性化需求的结果，需要用户调整指示，在指令上加一段向量修改，经过修改可以得到自适应的调整，获得更优的返回结果。

我们从来没有觉得与通用人工智能如此接近

ChatGPT的强大性能都是在现有的机器学习框架下可以解释的，今年国内外，除了OpenAI，会有很多机构（包括企业和大学），会在ChatGPT模型方面有大的突破。

ChatGPT曾经参加谷歌的招聘面试，拿到L3级入门工程师的offer。除了写代码之外，还测试让ChatGPT做中国的高考题，在客观题上进行了测试，其水平基本相当于500分左右的高考生。测试发现，ChatGPT更擅长文科，在历史、地理、政治上取得了不错的成绩，而生物、化学、物理等理科学科上表现不佳。

在肉眼可见的未来，善用AI的人将和不用AI的人在工作效率上会产生巨大差距，大家应多去使用和熟悉AI。在未来一段时间内，ChatGPT还不足以完全替代某一岗位，但将大大促进各个领域的生产效率，AI应该是帮助人类的工具，而不是取代人类的机器。

微软CEO萨提亚·纳德拉（Satya Nadella）接受媒体采访时曾表示，内燃机带来了廉价的动力，互联网技术减少了信息传递的成本，而ChatGPT会让信息的整合、转译、流通变得更加廉价。AI可能会像工业革命和信息革命一样，引领我们走向下一个时代。

本文整理自复旦大学计算机学院教授、博士生导师黄萱菁教授在复旦管院主办的“我们︱WOMEN”2023复旦科创先锋论坛——迈向大规模语言模型主题演讲

编辑 | 李梦琪蔺文颖

策划 | 郭楠

从理解模型到产生式模型，预训练语言的飞跃发展

范式转变，一个模型打天下

我们从来没有觉得与通用人工智能如此接近

新视野

公司

焦点

精彩推送

本文整理自复旦大学计算机学院教授、博士生导师黄萱菁教授在复旦管院主办的“我们︱WOMEN”2023复旦科创先锋论坛——迈向大规模语言模型主题演讲

编辑 | 李梦琪 蔺文颖

策划 | 郭楠

从理解模型到产生式模型，预训练语言的飞跃发展

范式转变，一个模型打天下

我们从来没有觉得与通用人工智能如此接近

新视野

公司

焦点

精彩推送

编辑 | 李梦琪蔺文颖