[译苑雅集Vol. 7]人工智能简史:从达特茅斯会议到深度学习的演变
本文概述了人工智能的发展历程,从1956年达特茅斯会议的首次学术聚会,到今天深度学习和Transformer模型的突破。文章探讨了AI领域的关键人物和重大事件,以及近年来如ChatGPT等技术的快速崛起。这一简史揭示了人工智能如何从概念走向现实,并对未来可能的应用进行了展望。
作者:经济学人
2024年7月16日
原文:https://www.economist.com/schools-brief/2024/07/16/a-short-history-of-ai
1956年夏天,一群杰出人物齐聚新罕布什尔州的达特茅斯学院。参与者包括信息理论的奠基人克劳德·香农和唯一同时获得诺贝尔经济学奖和图灵奖的赫伯·西蒙。他们应一位年轻研究员约翰·麦卡锡的邀请,讨论“如何让机器使用语言,形成抽象和概念”以及“解决目前只属于人类的问题”,这是第一次专门讨论“人工智能”的学术会议。
然而,达特茅斯会议并非科学研究人类思维机器的起点。艾伦·图灵(图灵奖以他命名)和约翰·冯·诺依曼(麦卡锡的灵感来源)也曾探讨过这一问题。到1956年,已经有许多实现路径的探讨。历史学家认为,麦卡锡创造“人工智能”这个术语的原因之一是它足够宽泛,能够涵盖所有方法,并对哪种方法最佳的问题保持开放。一些研究者偏好基于几何和符号逻辑symbolic logic来推断合适反应的系统;另一些则偏好构建一套系统,其中一件事的概率取决于许多其他事的概率变化。
接下来的几十年里,关于这个话题的争论不断。到1980年代,普遍共识是“专家系统expert systems”,利用符号逻辑捕捉和应用人类知识。特别是日本政府支持这一理念及其可能需要的硬件。但大多数情况下,这类系统在应对现实世界的混乱时显得过于僵化。到1980年代末,人工智能因过度承诺和未能兑现而声名狼藉,该领域的研究者开始避开AI这个术语。
正是在其中一个坚持的角落中,今天的繁荣得以诞生。随着1940年代对大脑细胞(神经元)工作原理的了解逐渐成形,计算机科学家开始思考是否可以用同样的方式连接机器。在生物大脑中,神经元之间的连接使一个神经元的活动能触发或抑制另一个神经元的活动;一个神经元的作用取决于与之连接的其他神经元的活动。马文·明斯基(达特茅斯会议的与会者)在实验室中首次尝试用硬件模拟神经元网络。从那时起,层层互联的神经元一步步被软件模拟。
这些人工神经网络不是通过显式规则编程,而是通过暴露于大量示例中进行“学习”。在训练过程中,神经元之间连接的强度(称为“权重”)不断调整,以使给定的输入最终产生适当的输出。明斯基本人后来放弃了这一想法,但其他人继续推进。到1990年代早期,神经网络已经被训练来识别手写数字等任务。研究人员认为,增加更多的神经元层可以获得更强的能力,但这也使系统运行变得更慢。
一种新型计算机硬件解决了这一问题。其潜力在2009年被斯坦福大学的研究人员戏剧性地展示,他们在宿舍里用一台游戏电脑将神经网络的运行速度提高了70倍。这是因为除了所有电脑都有的“中央处理器”(CPU)外,这台电脑还配有“图形处理器”(GPU),而GPU的设计适合运行神经网络代码。
将硬件加速与更高效的训练算法相结合,意味着拥有数百万连接的网络可以在合理的时间内进行训练;神经网络能够处理更大的输入,最重要的是,可以增加更多层。这些“更深”的网络被证明更为强大。
这一新方法的威力在2012年的ImageNet挑战赛中显现出来。参加挑战的图像识别系统会获得一个包含超过一百万个标签图像文件的数据库,对于任何给定的词汇,如“狗”或“猫”,数据库中都有几百张照片。图像识别系统利用这些示例进行训练,将输入图像“映射”到一个词的描述。然后系统被要求对以前未见过的测试图像生成描述。2012年,由Geoff Hinton领导的一个团队使用深度学习deep learning实现了85%的准确率,这被视为重大突破。
到2015年,几乎所有图像识别领域的研究者都在使用深度学习,ImageNet挑战赛的获胜准确率达到了96%——超过了人类的平均水平。深度学习也被应用到许多其他“保留给人类的问题”,这些问题可以归结为将一种事物映射到另一种事物:语音识别(声音到文本的映射)、面部识别(面部到名字的映射)和翻译(一种语言到另一种语言的映射)。
在所有这些应用中,互联网能提供的数据量对成功至关重要。网络越大(即越深),给它们的训练数据越多,它们的表现就越好。
深度学习很快被应用到各种新产品和服务中:亚马逊的Alexa等语音助手设备出现了,在线翻译服务变得实用,网络浏览器开始提供自动翻译。说这些东西是由人工智能驱动的开始听起来很酷,当时和现在几乎所有被称为人工智能的技术实际上都依赖于深度学习。
2017年,一种新的神经元连接方式,称为Transformer,可以提高计算效率。Transformer使神经网络能够跟踪输入中的模式特征,即使这些模式特征的元素相隔较远,这种方式允许它们将“注意力”赋予数据中的特定特征。
Transformer赋予网络更好的上下文理解能力,使它们适合一种称为“自监督学习self-supervised learning”的技术。简单来说,训练过程中一些词语被随机掩盖,模型自学填补最有可能的候选词。因为训练数据不需要事先标注,这样的模型可以利用从互联网获取的数十亿词语的原始文本进行训练。
基于Transformer的大型语言模型(LLM)在2019年开始引起广泛关注,当时一家初创公司OpenAI发布了一个名为GPT-2的模型(GPT代表生成式预训练Transformer)。这种LLM表现出一种未被显式训练的“突现”行为。吸收大量语言不仅使它们在总结或翻译等语言任务上表现出色,还能处理训练数据中隐含的事情——比如简单的算术和编写软件。同时,这也意味着它们再现了所输入数据中的偏见,反映了人类社会中普遍存在的偏见。
2022年11月,OpenAI发布了更大的模型GPT-3.5,以聊天机器人的形式向公众展示。任何有网络浏览器的人都可以输入提示并得到回复。ChatGPT迅速流行,几周内就生成了从大学论文到计算机代码的各种内容。人工智能又迈出了一大步。
如果说第一批人工智能驱动的产品是基于识别,那么第二批则是基于生成。诸如Stable Diffusion和DALL-E等深度学习模型使用了一种称为扩散的技术,将文本提示转换为图像。其他模型可以生成令人惊讶的真实视频、语音或音乐。
这不仅仅是技术上的飞跃。ChatGPT和谷歌的Gemini、Anthropic(由前OpenAI研究人员创立)的Claude等竞争对手生成的输出与其他深度学习系统一样,都是基于计算。但它们通过回应请求生成新内容,使其感觉与识别人脸、进行听写或翻译菜单的软件截然不同。它们真的似乎“使用语言”并“形成抽象”,正如麦卡锡所希望的那样。
总结
人工智能的发展历程充满了起伏,从1956年达特茅斯会议的开端,到今天ChatGPT等先进技术的普及,AI经历了多次技术突破和应用革新。早期的符号逻辑和专家系统虽然一度占据主导地位,但由于其在现实世界中的局限性,逐渐被更具灵活性和适应性的神经网络所取代。深度学习和Transformer等新技术的出现,不仅提升了AI的计算效率,还扩大了其应用范围,使得人工智能从识别迈向生成。如今,人工智能正以前所未有的速度影响着各个行业,并逐步实现其“使用语言”和“形成抽象”的愿景。未来,随着技术的不断进步和应用场景的扩展,人工智能将在更多领域展现其强大潜力,为人类社会带来更多变革和机遇。