今天的AI狂想会不会失败
如今我们对AI的想象,其实一点都不新鲜:模拟人类专家的智能,上世纪60年代有“专家系统”;用自然语言与计算机直接交互,80年代有“第五代计算机”;今天AI领域让我们惊叹的自主推理应答、自动识别文字图像,在你爸妈甚至爷奶年代都有相应的研究。
和今天不同的是,那时唱反调的人占了多数。
一位耶鲁大学的研究者在1985年指出了一种所有人最不希望看到的AI发展走向:五年内,日本和美国主导的人工智能项目无法兑现最初的承诺→政府和投资人撤资→创业公司倒闭→任何与AI相关的东西都无法获得融资→所有人立刻修改研究项目的名称避免与AI相关→AI研究进入“寒冬”。
这位研究者是“真预言家”。回头看,80年代以第五代计算机为代表的人工智能研究的确最终导向了寒冬。
谁知道我们今天是不是也在同样的路上呢?
“智能”该如何定义?
现在,人们大多将1956年召开的达特茅斯学术会议当作人工智能的开端,但那场大佬云集的会议实际只提出了“人工智能”这个概念,对于如何实现人工智能,并没有形成统一意见。
当时的研究者们对什么算“智能”的回答分三种:第一种认为智能的核心在于逻辑推理(符号主义);第二种则是试图通过复刻人脑的运行方式来复现智能(联结主义);第三种则注重模仿人类走路、跑跳、视觉、听觉、触觉等与环境的直接交互(行为主义,出现较晚)。
波士顿机器人走第三种路线|Giphy
三条路线的研究者们按照各自对“智能”概念的不同理解开始了分头行动。
第一种率先有动静。1965年,一位叫费根鲍姆的计算机科学家和几位大学教授合作开发了一款名为DENDRAL的计算机程序,它可以根据化学分子在质谱仪中的数据,自动识别对应化合物的结构图——高考化学选修五最难的题也不敢这么考。
这类解决某一专业领域内问题的产品叫“专家系统”,它能为企业带来实在的商业回报:美国卡耐基·梅隆大学在1978年为DEC公司制造出XCON专家系统,系统能依据用户的定货需求,选出最合适的计算机硬件,帮助DEC公司每年节约4000万美元左右的费用;斯坦福研究院在1981年开发了PROSPECTOR专家系统用于矿产勘探,后来人们用它识别出了华盛顿州托尔曼山脉附近的一个钼矿床,这个矿床价值1亿美元。
那是专家系统的黄金年代:到20世纪80年代末,世界五百强中有一半的企业都在发展或维护专家系统,对专家系统的使用以每年30%的速度增长。
不过,专家系统怎么就是人工智能了?
“专家”就一定“智能”么?
专家系统模拟了专业咨询的三个方面:专家的经验(知识)、思考方式(推理规则)、以及专家与咨询者的互动(交互方式)。
专家系统的研究者认为,逻辑推理是人类智慧的核心,通过建构数据和推理规则,就能让机器获得类似于人类专家的智能。
但仅有推理规则还不足以支撑一场判断,知识也很重要。研究者认为,知识不仅仅是数据或信息,还是一种映射关系——对一名外科医生来说,患者的情况(病历信息、药物过敏史、当前药物及反应等)是数据,根据该数据,联想到该疾病的病理特征及治疗方法才是知识。
将患者的数据与已有的临床知识匹配(推理),并将对应的诊疗方法用恰当的方式告诉患者(交互),这才是一次完整的诊疗。
于是人们模仿医生的诊断过程,将知识库、推理规则、交互界面交给计算机,一个“有智能”的专家系统就搭建好了。
一个1984年的专家系统平台|wikimediacommons
实际上,我们今天也在用类似思路实现人工智能。往简单了说,ChatGPT也就是识别用户输入的文字或图片,通过某种映射规则把问题与预训练模型中的知识匹配,再返还一个“最大正确概率”的结果。
区别在于,当时专家系统的推理规则过于死板,严格遵守“如果……那么……”的逻辑,比起智能,更像程序。而且专家系统所有的操作假设、规则和程序,都依赖人工录入,机器无法自动完成这个过程。
而ChatGPT运用的深度学习方式,需要经过层层神经网络的参数调整。机器推理的过程早已如同“黑箱”一般,变得无法解释——这更接近人类智能的表现方式,毕竟我们也解释不清楚自己脑袋里每天冒出的想法是哪来的。
但回到上世纪80年代,研究者认为专家系统就是人工智能的典范,狂喜的氛围从科学界传递到社会,甚至还开启了经济大国为争夺人工智能话语权的一场混战。
教练,我想整超级人工智能
专家系统是一个精彩的故事,自然吸引到了政府的注意。
1982年,日本政府正式制定“第五代计算机系统研发项目”(FifthGenerationComputerSystems,简称FGCS),花十年时间,制作出一种“超级计算机”。
日本政府设想中这种计算机“会思考”,能辅助人类的脑力劳动,还能听懂说话、读懂文字,进行联想、推论和学习;专业应用上,“第五代计算机”则要能满足航空航天、核聚变、天气预测这些高精尖领域的需求——这些要求即使放在今天都是对计算机的巨大考验。
“第五代计算机”还承诺,不需要懂得任何编程知识,普通人就可以操作它,甚至还能通过它获得医生、律师、工程师等专业领域的问题解答——要知道在当时,计算机连可视化操作系统都没有普及。
从使用器件角度而言,第一代计算机为电子管计算机、第二代为晶体管计算机、第三代为中小规模集成电路计算机、第四代为大规模和超大规模集成电路计算机,图为首部晶体管计算机|wikimediacommons
即使在今天看来,这种全能型的AI也足够野心勃勃,但当时的参与者却信心满满。日本政府分阶段投入了540亿日元预算(约2.2亿美元,按1982年汇率换算)作为研发费用。
为什么要投入如此大规模的金额?一方面是当时的日本举国发展DRAM(动态随机存储器,半导体行业重要分支)技术,一跃成为全球最大DRAM生产国。这样的成功,激励着日本继续举国进军其他计算机领域的目标。况且当时日本的GDP总量超过苏联,成为全球第二大经济体,有钱有实力。
1981年(约)摩托罗拉16Kib动态随机存取存储器芯片阵列|wikimediacommons
即便目标高远,决心和金钱的投入已经足够让人害怕。1983年,专家系统之父费根鲍姆去日本考察,发现“第五代计算机”宣称能实现的很多功能设计他想都不敢想。
回来后,费根鲍姆在《第五代:人工智能与日本计算机对世界的挑战》一书中忧心忡忡地感叹:“如今我们的确掌控着所有重要现代技术的思想和市场,但是明天呢?”
其他国家在日本的大胆设想下也纷纷跟注,生怕失去进入新产业的机会:80年代初期,美国国防部计划资助战略天网系统(人工智能防御系统),同一年代还有自动驾驶、互联网、作战环境建模规划平台、AI辅助推测敌方战术等计划,雨露均沾。
欧共体开展了ESPRIT项目,以促进科研机构和企业在信息技术上的合作;英国则启动Alvey计划,拟投资3.6亿美元开发研究软件工程、人机接口、智能系统和超大规模集成电路。
国家智能计算机研究开发中心|百度百科
中国也在90年代成立“国家智能计算机研究开发中心”,重点任务就是开发高性能计算机。
这个架势,像不像如今各国各厂纷纷涌现出来的大语言模型?
真正的时代需求
“第五代计算机”的一个重要特征是支持并行计算和并发处理。它把一个复杂的问题分解成许多简单的子问题,并用大量处理单元(如并行处理器)同时解决这些子问题,以提升运算速度。
计划提出的六年后,在一场国际会议上,日本展示了他们的研究成果——64个并行处理器。只是效果低于预期,60多个CPU一起跑,效果却只达到一个普通处理器的三倍多。
PIM/p并行推理机|IPSJComputerMuseum
实际情况离原定目标相差甚远——当时所有追求机器智能的项目基本都面临着这种情况。这固然有组织架构、投资、科技政策等外部原因,但核心还是因为缺少人工智能技术发展所需的基础能力。
首先是小得可怜的数据库。1980年第一款面向台式机的硬盘规格只有5MB,它甚至装不下你现在手机里的一张清晰图片。这让当时“专家系统”可以调用的“知识”变得相当有限。
其次是运算速度。1974年性能最高的8080芯片频率是2MHz,而如今随便一台笔记本的处理器就有八核、2GHz,更不要说超级计算机。
实际即便在今天,算力依旧是制约人工智能发展的重要因素。
GPT-4推出后不到两周,OpenAI便对用户进行访问限制,从第一天的150msg/4hr,到100msg/4hr,50msg/3hr,直到25msg/3hr,阈值一路下降。4月还因访问需求量太大,一度暂停Plus付费购买功能。AI的加速发展,对运算需求的要求也随之加码。
首台图形界面的个人电脑Lisa|wikimediacommons
回到当时,真正的时代需求在不久后出现。1983年,苹果推出世界首台图形界面的个人电脑Lisa,人机交互不再只能通过纯文字的命令行进行;四年后,微软推出鼠标,它像一只电子手臂,允许人们在图形界面拖拽,点选,迅速成为电脑的标配器件。
是的,在那个时代,简单易用、走进家庭才是主流人群对电脑的普遍期待。
第五代计算机的终局
1994年,在实际花费超过3.2亿美元后,日本第五代计算机项目落幕。日本表示愿意将该项目开发的软件赠送给任何想要它的人,甚至是外国人。
1987年,美国DARPA项目也决定停止投资,选择专注于短期内前景更好的技术;英国Alvey计划也只持续了五年,在消耗2亿英镑的公共资金以及1.5亿英镑的工业投资后不了了之。
与英美相比,中国成立的“国家智能计算机研究开发中心”,本想研究智能计算机,但“五代机”在其他各国的遭遇都已证明其应用市场狭窄、维护费用高昂,里面最实用的是针对日语的自然语言处理,显然和中国国情不太相符,于是及时转向,改为研究超级计算机。
像多米诺骨牌的倒塌,专家系统在第五代计算机的溃败后,成为过街老鼠。许多相关项目担心项目沾上“专家系统”或者“人工智能”而不被社会支持,甚至专门改名为“机器学习”、“信息学”、“知识处理系统”、“模式识别”等。
而人工智能,也进入了历史上寒冬。
计算机哭泣|wikimediacommons
在每个激动人心的技术热潮中,技术概念总会被泛化。面对同一个概念,不同的人想着不同的故事。
技术专家讨论人工智能/专家系统时,往往聚焦于具体的数学模型和输出质量,侧重点在技术的解决方案,或者对某个理论的佐证意义;投资者——无论是商业公司、金融机构还是政府——谈论技术时,则更关注投资回报和商业利益;普通民众听到机器人或人工智能,本能反应是它会不会取代自己……
在某个时刻,所有人都对技术发展有了明确预期,技术的功用和价值被包装到前所未有的高度。这时,原本狭窄的应用被所有参与者包装成每个人都能投入想象的科幻故事。
念念不忘的回响
“第五代计算机”项目失败,当时的许多“成果”也并未沿用,但并不意味着当时所有对人工智能的描绘都彻底失败。
以专家系统为代表的人工智能第一条路线“隐退”时,第二三条路线的研究者们依旧坚持“让机器有智能”的努力。秉承复刻人脑运行方式来复现智能的联结主义,在上世纪90年代取得诸多突破,并发展出深度学习方法,直接催化AlphaGo、ChatGPT等这个时代的代表AI产品的产生。
较晚成型的行为主义学派,则将目光投向机器人和游戏,波士顿动力公司那些行为逼真的机器人就是这个路线下的产物,谁说未来的“超级AI”不会是一个既能帮你泡咖啡,又能解决霍奇猜想的机器人呢。
会跳舞也行|Giphy
而专家系统,也从未退出舞台,而且正在与其他路线的人工智能方法结合。在新冠疫情期间,人工智能的图像识别可用于辅助诊断,协助医生快速预判病患是否存在肺部感染;微软最近的产品中,可以接入包含不同行业信息的专家系统插件,普通用户也可以用自然语言与专家系统对话、咨询,获得自己想要的答案,包括但不限于智能推荐房地产项目、自动修改法律文书、生成旅行攻略等等。
与传统的产品相比,新一代专家系统既能主动从数据中学习,也拥有专家般推理和解决问题的“能力”。
我们正在接力80年代人类对超级计算机的期盼。
也许科技发展最有魅力的地方正在于此:历史充满偶然,但人们总是怀着改造世界的愿望,一步一步地尝试、反思再尝试,在过程中离目标越来越近。
人工智能的变革之路:通过OpenAI的GPT
软件开发人员使用OpenAI的GPT-4生成多个应用程序,通过节省时间、降低成本和增强个性化来彻底改变应用程序开发。
人工智能(AI)以其无限的潜力不断让我们惊叹,特别是在自然语言处理(NLP)和机器学习(ML)领域。引领这些进步的是OpenAI的GPT-4,这是一种领先的语言处理人工智能,以其生成具有类似人类质量的文本的能力而闻名。
人们正在驾驭这个强大模型的巨大功能。我的探索始于设计一个定制的学习计划生成器,并逐渐扩展到一系列应用程序,所有这些应用程序都基于操纵“提示”的简单而强大的原则,即指导AI生成内容的指令。
概念的起源:个性化学习计划生成器
作为一名开发人员,我的目标一直是用创造性的解决方案来解决现实世界的问题。当我注意到GPT-4明显缺乏针对学习者的个性化学习计划时,我被它吸引了。解决这一挑战的方法在一个Flask应用程序中得到了体现,该应用程序使用GPT-4来生成定制的学习计划。
开始与机器人过程自动化
这个概念很简单:用户提供他们独特的学习目标、当前的技能水平、期望的技能水平和时间表,GPT-4将制定详细的学习计划,包括推荐的资源和里程碑。然而,真正的魅力在于它的传递。这个秘密是一个精心构建的提示,引导AI生成所需的输出。
一个启示:一个提示的无限可能性
学习计划生成器的成功让我意识到GPT-4的真正优势可以被利用,而不仅仅是一次应用。如果单个提示可以帮助制定个性化的学习计划,那么为什么不使用其他提示来开发完全不同的应用程序呢?GPT-4灵活性的关键不仅在于它的文本生成能力,还在于它对各种提示的适应性。
通过简单地改变提示,我从制定学习计划转变为制定健身习惯、饮食计划、定制网页内容、博客文章、个性化电子邮件和互动聊天机器人。这种方法大大减少了传统应用开发所需的时间和精力,从而使开发过程更加高效和动态。
改进应用程序开发:GPT-4的优势
随着数字领域的发展,用户的需求和期望同时上升。在一个定制化、效率和便利性至关重要的时代,开发人员不断面临着寻找满足这些需求的新方法的挑战。利用GPT-4的潜力,我开始了一项任务来做到这一点。
GPT-4的魅力在于它的多功能性和适应性。正如在我的学习计划生成器的开发过程中所展示的那样,操纵AI提示的能力揭示了大量潜在的应用。使用GPT-4作为内容创建引擎有望改变传统的应用开发方法。
从历史上看,应用程序开发一直是费力且耗时的。相比之下,使用GPT-4制作应用程序内容可以大幅缩短开发时间,增强可扩展性,并降低成本。重要的是,它还可以将个性化、高质量的内容带到最前沿,增强教育、健康和健身等领域的用户体验和参与度。
GPT-4的潜力超出了内容创造。它与聊天机器人、客户服务和其他互动平台的集成可以使数字交互更加轻松、自然和以用户为中心。
这种方法可以使应用开发民主化,让那些没有大量资源或没有能力制作大量内容的开发者也能接触到它。在这方面,GPT-4驱动的应用程序的含义超出了它们的直接功能。它们是新一代智能、适应性强、以用户为中心的应用程序的模板,具有改变行业和重新定义数字交互的潜力。
理解机制:深入了解提示
为了充分把握这种方法的变革潜力,理解快速创造背后的机制至关重要。GPT-4的提示应该是明确的,详细说明所需的输出格式和内容。模型的反应很大程度上受提示词的影响,所以明确你的期望可以产生更准确的结果。
生成内容后,使用BeautifulSoup(一个简化网页抓取的Python库)将其解析并格式化为用户友好的表示形式。然后将解析后的内容存储在数据库中,准备以可访问的格式呈现给用户。
识别约束:知识截断和复杂提示
尽管GPT-4很强大,但它也有局限性。该模型有一个知识截止点——用于训练人工智能的数据的截止点。对于GPT-4来说,这个截止日期是2021年9月,这意味着它没有关于此日期之后发生的事件的信息。因此,GPT-4可能不适合需要当前信息的应用程序。
尽管我有一个明确的目标和一个强大的语言模型,但这段旅程并不顺利。为GPT-4生成有效提示是一个重大挑战。提示设计在确保AI产生统一、可靠的输出并能够持续处理方面发挥了关键作用。
掌握提示创建是一个陡峭的学习曲线,涉及广泛的测试、仔细的微调和对GPT-4交互动态的细致理解。每个提示都是一次实验,让我们更接近于理解AI的特性。通过不断的尝试和错误,我能够创建始终产生可靠结果的提示,使GPT-4成为我应用程序中可预测和宝贵的工具。
铺就未来:GPT-4的潜力
克服这些挑战就打开了通往无限可能性的大门。GPT-4的强大和灵活性,加上周到的应用程序开发,可以迎来一个动态的,用户友好的应用程序的新时代。我从一个学习计划生成器到一系列不同的应用程序的进展证明了这种变革的潜力。
人工智能和自然语言处理的未来是令人兴奋和充满希望的,我们才刚刚开始发现可以完成的事情。随着每一个新的应用,我们正在塑造一个人工智能可以更直观、更有效地满足我们需求的未来。随着我继续探索GPT-4和其他不断发展的人工智能模型的功能,我对等待我的无限可能性感到兴奋。