出品|网易科技《智见访谈》
访谈|杨霞清
(相关资料图)
撰文|赵芙瑶
编辑|丁广胜
继工业革命后,GPT及其GPT所引发的AIGC能否成为下一个人类社会变革的新奇点?
一批又一批的AIGC工具正在不断迸发出超乎寻常的能力,GPT-4可以联网并安装插件后可以一站式成为人们的私人助理;谷歌Bard帮程序员写完代码后同时能助力其与国外同事无语言障碍共同进行代码调试;微软New Bing让搜索引擎变身无所不知的“哆啦A梦”;Midjourney和Stable Diffusion的作图能力令人叹为观止...AI正在以几何式的速度塔上了特快列车。
如何看AIGC发展的趋势,AI安全问题该如何规避,中国的大模型在国外的差距在哪方面?日前,网易科技《智见》栏目访谈了浙江大学上海高等研究院常务副院长、浙江大学人工智能研究所所长吴飞。吴飞认为,这波以生成式人工智能模型为基础的AIGC之所以取得了突破在于将“数据是燃料、模型是引擎和算力是加速器”进行了完美结合,产生了令人惊叹概率式内容合成能力。但是这一技术创新被称为现象级人工智能产品,即大众可以看到其成果,但解释其背后的机理仍然困难。所谓“我见、我相信,但我不理解”。
目前,对于AI的发展大多存在两种较为对立观点:第一种是机器作为人类的助手与人类共生共进化,另一种是机器逐渐取代人类,使人类成为机器的奴役对象。吴飞认同第一种观点,他认为第二种担忧在科幻电影中就曾展现过。但总体而言,机器产生意识和涌现情感在技术手段上而言,这一目标实现相距甚远。
谈及人工智能的监管,吴飞认为,2016年制定的《新一代人工智能发展规划》中就提及到了人工智能的监管,特别是数据隐私保护和大数据滥用等方面。
以下是网易科技访谈吴飞教授访谈实录:
谈AI演进:ChatGPT具有现象级“涌现”能力
网易科技:您如何看待今年以来AIGC和ChatGPT的爆火?
吴飞:人工智能的发展历程可以追溯到1955年,彼时,它的目标是通过战胜各领域顶尖专家来展示其能力。人工智能当时在围棋、国际象棋等方面表现出色。过去,只有像IBM、微软、网易、腾讯等大型科技公司才能接触人工智能,普通民众对其了解有限。
然而,如今ChatGPT的爆火,让普通民众也可以使用人工智能,无需掌握复杂的计算机系统编程,只需通过自然语言交互就能完成诸如写代码、写文章或旅行规划等任务。ChatGPT让人们感到离人工智能的距离越来越近。
ChatGPT之所以能生成完整的句子,是因为模型中引入注意力机制,从海量语料中学习单词和单词之间的共现关联概率,形成单词概率相联图谱,于是在这个单词图谱上就可以实现内容合成。例如,合成"浙江大学的校训是求是创新"这一句子时,模型通过概率判断句子中前一个单词与后一个单词概率最大,于是在得到前一个单词时,接着生成后一个单词,这个句子中的单词就通过概率游走方式被产生,实现了连词成句和连词成篇的效果。这样生成的内容通常具有合情合理性,因为“存在即合理”,其合成的结果来源于对现实世界数据的信息压缩和信息解压。
网易科技:人工智能有60多年历史了,今年的AIGC浪潮和之前的人工智能浪潮有什么不同?有哪些突破和创新?
吴飞:这波人工智能的进步主要是工程层面上的持续艰苦创新,通过将海量的数据、庞大的模型和计算系统整合在一起。这种工程创新在以往是没有人能够实现的,例如如何对上万张GPU/CPU之间的数据和指令通信进行同步和异步的协同。这种工程性的创新使得人工智能可以展现出现象级的能力,即大众可以看到其成果,但解释其背后的机理仍然困难。
而人工智能的突破则在于将数据、模型和算力相结合,产生了令人惊叹的能力。然而,我们对于其为何具备如此强大的能力仍然知之甚少,这反映了我们知识体系的局限性。正如普朗克所说, “科学是内在的整体,被分解为单独的部门不是取决于事物的本质,而是取决于人类认识能力的局限性。实际上存在着由物理学到化学、通过生物学和人类学到社会科学的链条,这是一个任何一处都不能被打断的链条。”对大模型涌现能力的不了解,恰恰说明了我们对复杂科学所构成的科学宏伟蓝图的不了解。
目前,我们对于人工智能的强大能力仍然没有完全的认识,无法从科学研究的模型和方法论上进行充分解释。虽然我们可以将其视为一个概率网络,通过单词之间的概率流程实现连贯性,但我们仍无法解释为何ChatGPT在参数规模达到千亿级时,它具备涌现能力,而在百亿级时却没有。类似地,人类大脑拥有数百亿个神经元,但我们对于意识、情感和疼痛等产生的机理仍然不清楚。
ChatGPT的快速进展使得我们难以跟上其变化的步伐。它通过不断学习大规模的数据实现了日新月异的发展速度,与人类相比,它不断进化而不受限制。此外,它同步利用用户的反馈和日活跃用户(约10亿人)的互动来改进自身算法。
尽管我们尚未能够对AI产生的能力进行准确的数学模型解读,但这并不意味着AI是可怕的恶魔,我们对于人工智能产生的能力仍需深入研究和理解。
谈AI安全和合规:机器尚未产生意识与情感
网易科技:AI安全性目前已经是最热门的话题之一。马斯克以及千名科学家共同签署了叫停更高级别AI训练的文件,您认为AI的进化未来是否会超出了人的控制?
吴飞:人们对GPT的发展表示担忧,主要是因为它具备了多模态的能力。包括马斯克在内的一些科学家,要求对其进行安全限制,甚至暂停进一步研发更高级别的AI。是因为他们担心,随着GPT-4具备自我意识和更快速的发展,它可能会超出人类的控制范围。
相较于我认同AI应该作为人类的助手并与我们共存共进化的观点。《人类简史》作者尤瓦尔·赫拉利等科学家则认为机器文明会取代人类文明。他们担心GPT-4目前输出的内容完全是基于现有信息重新生成的,它可能会摧毁人类长期积累的文明,使下一代或下下一代接受的文化主要由机器创作。
马斯克提出了四个暂停GPT训练的理由,一是机器错误信息的扩散:担心机器生成的错误信息在互联网上不断扩散,并且可能伪装成真实信息;二是自动化取代人类工作:担心机器会完全自动化人类的所有工作,对就业带来威胁;三是产生非人类思维:担心机器可能产生超越人类的思维方式,引发不可预测的结果;四是威胁人类文明存在:担心机器发展到一定程度会代替人类文明,摧毁人类的文化积累。
对于这四点,我认为马斯克的观点更像是一种长远的预警和未雨绸缪的思考,而非具体的行动建议。其中后三点可能在未来几十年内并不会成为现实,因为机器出现意识是非常困难的。
因此,对于AI的发展存在两种观点:一种是机器作为人类的助手与我们共生共进化,另一种是机器逐渐取代人类,使人类成为机器的奴役对象。这种担忧在科幻电影中就曾展现过。总体而言,机器产生意识和情感与人类的幻想相距甚远。
网易科技:您认为人工智能是否需要严格的监管与控制?具体应从哪方面入手?
吴飞:2016年,在制定《新一代人工智能发展规划》时,大家就一致认为要解决社会对人工智能的关切和忧虑,特别是涉及到数据隐私保护和大数据滥用等问题。
比如规划强调要解决大数据杀熟等问题,保护个人数据隐私,并制定相应的政策和措施;要建立高效治理体系,确保人工智能的发展在法律、伦理和社会责任的框架下进行;要提供一种有效的方式来管理人工智能的发展和应用,确保其符合国家利益、社会稳定和公众利益。
要提倡制定相关政策和法规,以规范人工智能技术的研发、应用和运营,同时加强监管和监督机制;要鼓励国际合作和跨部门协调,共同应对人工智能的挑战和问题,推动全球人工智能领域的发展和合作。
我认为这个思路是正确的,人工智能的监管可以从以上几个方面入手。
谈AI行业应用:传统应试教育受到冲击
网易科技:您认为AIGC首先会冲击哪些行业?如何看待AIGC对于教育行业的赋能?教师与学生的角色有了哪些转变?
吴飞:不可否认,人工智能对教育领域产生了冲击,例如使用GPT来完成作业、论文等任务,这对传统的应试教育方式构成了挑战。
我认为在教育行业,培养创造能力和创新能力比获取特定知识更为重要。我很认同教育家培根关于教育的观点:将学校学习和阅读视为两种教育手段。教师角色在变化,他们应该不仅仅传授知识,还需教导学生如何获取知识、要结合理论分析和哲学思辨的教育方式,让学生利用已有的知识解决问题,并对学生进行批判性思维和分析能力的培养。
此外,学生同样应该具备提问的能力,要能够进行问题驱动的学习和思考。比如学生在学习中应该追溯知识的原点和历史发展,了解知识体系的形成过程,同时在不同知识领域的边界交叉处寻找联系和启发。
近期有大学生使用ChatGPT生成本科毕业论文,其语言内容虽然表面上滴水不漏,但观点空洞;有大学生将搜索引擎搜到的例子发给GPT,GPT生成的语言将不同地点和概念进行了关联,但缺乏与实体世界的具体连接。
由此可见,ChatGPT在教育中的应用需要考虑到其产生的内容是否正确、错误以及有不完善之处。若想让人工智能生成更好的内容,需要提高问问题的能力,就像是让GPT具备更好的知识图谱和单词之间的关联,以形成连贯的篇章。
网易科技:您认为AIGC将会先取代哪些职业?
吴飞:人工智能(如ChatGPT)可以在法律案件中提供相关的法律法条和案例信息,因为法律法条和案例都是公开的。这种能力可以帮助律师进行案件研究和辅助决策。但是,我一直认为这不是取代人类,而是成为人类的帮手,提高工作效率。
在教育领域,教师的作用不仅仅是传授知识,而是多维度的培养学生。教育需要互动和身体力行,而不仅仅是依赖人工智能生成的合成内容。优秀的教师能够更紧密地连接单词和知识,培养学生的综合能力。
人工智能对新闻业的影响是帮助记者节省精力,AI可以去撰写简单的快讯,让记者有更多的精力去专注于更深度和高质量的报道。AI的发展使得我们能够更好地释放创造力。AI暂时不会取代记者,但会让他们进化,提高深度报道的能力。
人工智能可以提供大量的数据支持,但真正理解和应用这些数据需要长期的行业积累和思考。
谈AI大模型与国外差距:自研AI芯片可弥补算力短板
网易科技:在ChatGPT的技术路线中,数据、算法、算力等方面存在哪些技术壁垒?中国科技企业的AI大模型何时能达到GPT 3.5的水平?
吴飞:在AI大模型领域,许多国内公司和创业者都在努力,希望迎头赶上GPT 3.5或者GPT4的水平。衡量与这些模型的差距是一个悖论,因为缺乏明确的标准来评判。
数据、算法和算力是影响差距的因素。同时,用户反馈会对模型的进化起着重要作用。开放和积累越早,获取的用户反馈越多,模型的能力就会随之增强。毕竟在机器学习中,人类的反馈被认为是至关重要的,它可以帮助模型进行学习和改进。
首先,对于算力方面,美国的GPU芯片如英伟达的A100或H100,以及谷歌的TPU(Tensor Processing Unit),具备较高的算力,但目前无法供应给中国市场。这导致中国在算力方面存在短板。
其次,大型模型的训练需要大量的数据支持,例如像GPT-3和GPT-3.5这样的模型,英文数据通常是全球范围内可获得的,但中文数据可能更多地偏向在中国市场收集。同时可以利用互联网上的开源数据,如维基百科等,中国在中文数据方面可能具有优势,因为中国的科学家和工程师对中文更了解,并且中文的语义和隐喻更深入。
网易科技:面对巨大的差距,中国应该如何奋起直追,补足短板?
吴飞:由于大家众所周知的原因,一些先进的GPU芯片如A100和TPU无法在中国市场销售,这进一步加剧了中国的算力短缺。
针对这个问题,中国一些互联网企业或专业芯片公司正在研制GPU芯片。
大模型不仅为类ChatGPT产品提供机会,而且可以为各种应用提供增值。例如,大模型的能力可以与应用的数据和功能结合,使得每个应用都能受益于人工智能算法和模型的力量。这可能带来许多机会,如GPT时代的美团,就可以利用人工智能算法来优化数据和服务,让外卖送得更快,让配送时间更合理。
总结来说,我们在GPU算力芯片方面存在差距,数据的可用性对算力有重要影响。中国正努力弥补算力短板,包括自主研发人工智能芯片,大型模型的发展同时为各种应用提供了机会。
网易科技:目前许多高校开设了人工智能与数据分析等AI相关专业,在AI人才培养方面,浙江大学有哪些尝试和实践?
吴飞:浙江大学于2018年开始批准人工智能本科专业,并于2019年自设人工智能交叉学科。
浙江大学拥有三位一体的人才培养思路:采取教材、课程和平台相结合的方式进行人才培养。浙江大学编写了新的人工智能教材,包括《人工智能导论:模型与算法》、《可视化导论》和《智能产品设计》等,并且在爱课程(中国大学MOOC)建成慕课。
此外,浙江大学建立了“智海”人工智能科教平台,与企业合作,该平台会为新一代人工智能教材提供算法实训,让学习者体会人工智能具能、使能和赋能,从算法层面对人工智能技术“知其意,悟其理,守其则,践其行”。通过实训平台搭建,将理论知识转化成赋能应用,促进人工智能人才培养与国家、行业和企业需求结合更加紧密结合。
浙江大学同时与企业如百度、华为、阿里巴巴和商汤等合作,在平台中培养学生,使用国产的人工智能编程框架和芯片,鼓励学生掌握国产技术。在浙江大学与阿里的合作中,通过合作项目将大模型压缩为轻量级模型,以适应移动端应用。
我们同样鼓励非人工智能专业学生的参与,浙江大学设立了针对非计算机专业学生的辅修专业,以培养非人工智能专业学生对人工智能的应用能力,推动人工智能在各行业的发展。