华控portfolio | 对话智谱AI张鹏:ChatGPT距离真正的人工智能仍有距离,领先国内大模型一个代差

发布时间:2023-02-14
分享:

“全能网友”ChatGPT火出圈,国际科技巨头布局AI聊天机器人,国内大小企业能否迎头赶上?差距在哪?

华控投资的第三代人工智能龙头企业、中国ChatGPT模型的开拓者北京智谱华章科技有限公司(下称“智谱AI”)CEO张鹏,近期就这一热点话题接受了采访。

智谱AI构建了高精度通用知识图谱,并把两者有机地融合研发了数据与知识双轮驱动的认知引擎。2022年8月,由清华大学知识工程实验室与智谱AI共同研发的千亿级模型参数的大规模中英文预训练语言模型GLM-130B正式发布,高精度双语千亿模型GLM-130B在多个公开评测集上性能超过GPT-3。GLM模型还支持英伟达、华为昇腾、海光DCU以及神威超算等多种芯片,支持快速推理,通过量化仅需4张英伟达RTX3090就可以运行千亿模型,实现真正的大模型普惠。

同时智谱AI联合清华、华为发布了代码生成模型CodeGeeX,只需几行注释就能自动生成代码,还能一键实现不同编程语言之间的自动转换。智谱AI基于GLM,推出了聊天机器人XDAI和chatGLM,让机器模拟人类的思考模式,实现知识具象化的对话系统。

但是,在底层技术上,国内跟国外还有一定的代差,ChatGPT背后的GPT-3.5模型领先国内大模型一个代差,仍然值得去尽力追赶。

国内大模型百花齐放,如果要追赶并生产出类ChatGPT产品,首先要有能跟国际比肩的高性能基座模型,例如类GPT-3模型。在基座模型上优化,包括加入代码的训练增强逻辑性,做监督性的训练、强化学习的训练和用户反馈的数据监督训练,或许能得到与ChatGPT背后的模型相媲美的大模型。

通用人工智能是指具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。ChatGPT的出现能否说明人类已经接近通用人工智能?

张鹏认为,它离真正的通用人工智能甚至认知智能仍有距离。通过大规模预训练模型技术,ChatGPT实现了部分认知推理能力和内容生成能力。但它仍然欠缺认知中严谨的知识和逻辑,欠缺生成结果的可解释性。

究其原因,OpenAI在训练ChatGPT的时候历经从最基础的1750万基座模型GPT-3到加入代码的Code-Davinci-002再到加入了指令微调的InstructGPT,最后到最近加入强化学习的Text-Davinci-003和ChatGPT,每一次进步都是算法+数据巧妙设计的结果,但这些训练过程都没有考虑常识知识的加入。因此对于认知大模型,张鹏表示,或许可以通过加入记忆模块和自我反思机制,实现进一步突破。

ChatGPT曾在诱导下写出毁灭全人类的计划书,因此需要考虑监管问题。目前ChatGPT还存在不可避免的缺陷,暂时不太可能完全替代某一个职业,但随着用户量的急剧增加,给ChatGPT的反馈信息越来越多,模型迭代训练后,张鹏表示,未来或可替代简单重复、技术含量不大的工作。“总体上,目前技术已经跑在前头了,安全、法律、道德等层面对它的约束和应对还是要跟上。”

国内大规模百花齐放,底层技术与国外有代差

Q:最近ChatGPT很火,国际科技巨头都在布局这块。
张鹏(智谱AI首席执行官):ChatGPT最近挺热的,但其实这个事儿不是很新鲜,往前推已经有几年时间了,最早可以追溯到2018年左右开始做大规模预训练模型,2020年OpenAI发布了GPT-3语言模型,引起对生成式AI的关注。去年生成式AI的另一个顶峰是图像生成模型的推出,引起了AIGC(人工智能生成内容)领域的火热。但背后的根本是大规模语言模型技术,这个技术从国外起步,现在把这个模型推到了千亿甚至万亿级别的规模之后会产生从量变到质变的变化。GPT-3之后,国内外的研究机构、厂商开始追捧这个技术,布局研发工作。
Q:国内目前的发展或追赶情况是怎样的?
张鹏:ChatGPT火出圈确实有不太一样的地方,它不是纯研究,而是一个封装得非常好的产品,而且选择了聊天这样一个泛用场景,所以引起非常广泛的关注。
其实国内还有其他一些厂家也在做这个事,目前还是百花齐放的状态。比如百度文心,华为有盘古模型,字节跳动和达摩院也有自己的模型。这些模型大部分是语言模型,但也有一些多模态的模型,比如达摩院的M6模型是多模态的模型,它不光可以生成文本,也可以生成图像。
但可能都限于某些比较小众的应用,所以没有形成非常大规模的市场影响力。其次,深究下来,我们在底层技术上跟国外还有一定的代差,ChatGPT背后的GPT-3.5模型确实非常强,领先国内大模型一个代差,在这点上还值得我们去追赶。
Q:具体差距是什么?
张鹏:ChatGPT的能力源自于背后的基座模型,也就是大规模预训练模型。ChatGPT的基座模型是GPT-3,在GPT-3和ChatGPT之间还有一系列模型,也就是在GPT-3的基础上做了很多改进和优化,形成了GPT-3.5这样的系列模型。这一系列模型的能力是ChatGPT能取得当前这样的效果的基础。
GPT-3.5和GPT-3之间就是一个代差,国内大量的工作大概是在GPT-3的水平甚至比GPT-3还差一些的水平,所以这就是我说的技术上的代差,国内外的差距就在于模型的基础性能上。
去年,斯坦福大学基础模型研究中心的负责人Percy Liang等开展了一项研究,对全球范围内将近30个大模型横向评测,列了7项评测指标,其中6项是关于模型本身的评测性能,代表了模型本身能力的强弱,包括准确性、鲁棒性、公允性、偏见度、校准误差、恶意性。这个榜单里的模型绝大部分都是国外的,包括和ChatGPT相关的InstructGPT模型。当然这里面也有我们与清华多个实验室共同训练的大规模中英文预训练语言模型GLM-130B,这是国内唯一一个入选、能跟这些顶尖模型一较高下的基座模型。
Q:国内企业如果要追赶,生产出类ChatGPT产品,要从哪些方面入手?
张鹏:我们一直在做关于千亿模型和万亿模型的研究,也在思考我们与ChatGPT的距离。首先,我们认为要有能够跟国际比肩的性能非常好的基座模型,也就是类似GPT-3和GLM-130B这样的模型。有了基座模型之后,还要在基座模型上做优化,包括加入代码的训练,增强它的逻辑性,做监督性的训练,做强化学习的训练和用户反馈的数据监督训练。还要做很多这样的工作,才能得到跟ChatGPT背后的模型相媲美的模型。然后在大模型的基础上再去开发出产品,这是工程性的问题。
认知智能的重要一步,需受安全、道德约束

Q:现在人们会和ChatGPT交流自己的职业会不会被它替代。

张鹏:目前ChatGPT还有一些不可避免的缺陷,暂时还不太可能完全替代某一个职业或某一份工作。但随着用户量的急剧增加,给ChatGPT的反馈信息越来越多,模型迭代训练后,是真的有可能替代一些简单重复、没有太大技术含量的工作。

Q:ChatGPT的出现能否说明我们已经接近了通用人工智能?

张鹏:说通用人工智能还早,顶多算是通向通用人工智能中的认知智能很重要的一步,通过大规模预训练模型技术,实现了部分认知推理能力和内容生成能力。当然它仍然会“一本正经地胡说八道”,犯一些常规性和知识性的错误,这就是它的一个缺陷,它仍然欠缺认知当中严谨的知识和逻辑这个部分,它生成的结果的可解释性还比较欠缺。

Q:你们去年联合清华的几个实验室训练出了GLM-130B模型,后续有哪些发展规划?

张鹏:自2022年8月发布以来,GLM-130B收到了41个国家266个研究机构的使用需求,包括Google、Microsoft、Stanford、MIT、UC Berkely、CMU、Harvard、华为、百度、阿里巴巴、腾讯、头条、智源、北京大学、浙江大学、香港大学等。当前OpenAI的GPT对中国禁用,英伟达的A100等高端芯片对中国禁售,我们在做大模型的过程中挑战巨大,但同时也有这份责任心,要做大模型的中国创新,要做能媲美GPT系列的认知大模型。接下来从GPT-3到GPT-3.5到ChatGPT这条路径中的必要工作我们会持续去做,基于GLM-130B模型提供基础服务能力,比如文本生成、代码辅助编写等。

Q:在大模型中加入记忆模块和自我反思机制吗?

张鹏:这是我们的一个构想,团队正在这方面持续探索。首先要解决犯知识性错误的问题,因为现在ChatGPT是纯用生成的方式来回答问题,没有结合常识知识和背景性质的数据,所以它回答问题的时候虽然语句上是通顺的,但知识性的细节会出错。这是模型本身的缺陷,在训练时可能没有加入更多的知识,或者生成这个结果后没有用事实性的逻辑推理方式去检查。记忆模块就是为了解决知识内容犯错的问题,把这些知识记住就不需要胡说八道,直接从记忆里检索出来就好了。

Q:总的来说,ChatGPT会带来哪些技术和社会挑战?

张鹏:技术挑战就是它离真正的通用人工智能甚至认知智能这个目标还有一些距离,包括加入基于self-instruct的自我反思机制,需要从技术上持续突破。

对于社会问题,根据我们的观察,首先要考虑安全风险,它曾经在诱导下写出毁灭全人类的计划书,因此需要考虑如何避免或受到监管。其次,每个技术的诞生都会存在滥用的问题,现在国外有些学校、科研机构、期刊杂志禁止使用ChatGPT写论文。此外,可能会引起工作岗位、职业的变更,甚至会引起一些不稳定因素。总体上,目前技术已经跑在前头了,安全、法律、道德等层面对它的约束和应对还是要跟上。

Q:大小企业都在做大模型或类ChatGPT产品,怎样的企业会胜出?

张鹏:做这件事需要几方面要素,首先要有深厚的技术积累,持续深入研究,并有成果产出。

第二需要有大量资源,包括数据、算力。这一点上,国内和国际的大企业有天生的优势。

第三需要生态建设,一项新的技术在投入使用过程中不能靠一两个公司或者少量的人就能把整个事情做起来,它需要一个生态。比如大家愿意在产品中嵌入并应用这些技术,技术本身会接收到更多反馈,然后不断迭代,这需要一个良好的应用生态环境去促进不断升级和迭代。

从这几个要素可以判断哪些企业或机构能够在这件事上走得更远。

华控观点

华控基金项目负责人认为,深度神经网络层数越多、参数量越大,能力越强,但是规模越大训练难度越高,边际成本越高,边际效益越低。拥有更强并行能力的Transformer架构带来了深度神经网络模型参数量提高到现在的百亿和千亿级别。2018年OpenAI基于Transformer模型提出GPT模型,参数量1.17亿,2020年推出GPT-3,参数量达到1750亿,预训练数据达到45T,GPT-3在自然语言处理、文章撰写、编写代码等困难任务方面有突出表现。

2022年12月OpenAI发布的ChatGPT语言模型使用 RLHF(人类反馈强化学习) 技术对 ChatGPT 进行了训练,且加入了更多人工监督进行微调。ChatGPT在对话过程中能对上下文进行理解,以回答某些假设性的问题。ChatGPT可实现连续对话,极大的提升了对话交互模式下的用户体验。数据显示,上线仅2个月,ChatGPT月活用户接近1亿,这是互联网领域发展20年来,增长最快的消费类应用。
以GPT3、ChatGPT、Clip、Diffusion、DALL*E2等为代表的生成式人工智能(AIGC)极大提升了AI处理NLP、多模态、跨模态和生成问题的能力。AIGC对AI的用途和能力进行了拓展,除了文本和代码处理,还将在图像、视频、Web3.0等方面的处理进一步突破,有望对内容创作、软件工具、科研、人机交互、军工等各个领域带来生产力改变和提升,发展潜力与应用空间巨大。