这本书确实是走在科技前沿,介绍了最近AI的发展,以及未来变革的趋势。在探讨上面更注重广度而不是深度,这可以作为一个AI的领域的一个概览,方便我们继续深入的理解新时代的人工智能。其实早些年就一直觉得AI的实现是不太可能的,我一直觉得AI只能执行人类设定好的程序,做不到个性化的输出。但是就在2023年底,ChatGPT突然在网络上爆火,我也去体验了一下,的确是颠覆了自己的认知。也是自那以后,我就对科技保持着开放的想法,或许一切皆有可能。所以对大众来说,去关注前沿的技术是一件值得的事情。在快速发展的时代,不能再固守自己旧的思维模式,否则只会被淘汰。要去不断的阅读和思考,提高自己的认知,才能在这个变动的时代掌握不变的真理。关于AI能否取代人类这个问题,在看到AI在各个领域像编程、绘画、视频等等都逐渐有更强的能力时,我确实感到有些许焦虑感。在最初,我只想过,AI最先取代的一定是那些比较重复性的体力工作。但没想到的是,大语言模型的出现,直接颠覆了知识领域工作的可能性。那么,对于知识工作者来说,创新能力显得尤为重要。AI目前在知识的整合和抽象能力上,人类的确是无法比拟的,但就我个人的体验来讲,AI在创作方面的表现并不惊艳,它仍旧是根据一些现有的框架来组合创作。所以,就像作者所说的那样,不必担心被AI取代,而是要学会如何让AI帮助我们学习和工作。
OpenAI具备先发优势,吸引微软的投资,与Apple合作,整合到了Apple生态,同时其他各科技巨头公司都在奋力追赶。文章提到的七大科技巨头分别是:Amazon的Anthropic、Meta(facebook)的LLaMA、Google的Gemini、Microsoft的自研Inflection AI、NVIDIA、TESLA、Apple。
对于AI大模型的能力评估主要体现在这几个方面:
20世纪80年代的递归神经网络RNN可以处理单词序列,但训练速度较慢且会遗忘序列中的前一个单词。
1997年的长期记忆网络LSTM可以将输入序列总过去的数据保留更长的时间,但语言能力有限。
谷歌2017年发明的转换器架构Transformer可以跟踪每个单词或短语再序列中出现的位置。
2018年OpenAI使用转换器模型开始无监督学习和数据标注的方式训练模型,于2020年初推出了GPT-,2022年底推出了反馈强化学习技术优化后的GPT-3.5.
OpenAI吸引了许多的谷歌研究员加入,而之后人员流动逐渐变动。
辛顿教授与吴恩达在一次连线对话中提到:大语言模型是可以理解世界的,这种观点似乎能够被证明。
随着大语言模型规模的增加,能够同时使用多个技能,不仅能实现训练数据中领悟到的技能组合,还能够执行概括和创造性的人物。目前大语言模型在很多地方如阅读理解、视觉推理和自然语言推理方面已经超过了人类。
大模型能够高效地压缩信息,可以表名其中已经构建出了一个世界模型,虽然大模型不能实际的理解信息,但是就其结果的达成上来看,可以说大模型具备理解的能力。
人类在对世界的理解上是多维度的,视觉、听觉、文字、语言等等这样直观的处理,而大模型目前在文字处理方面更强,其他方面相对逊色,但最新的大模型研究方向已经逐渐扩展到视频模态和实时听说方面,意味着有能力衍生出泛用性更广的能力。
人们总是高估一项科技所带来的短期收益,却又低估它的长期影响。 —— 阿玛拉定律
基础模型的应用百花齐放,但用户留存率很低,即使是ChatGPT这样的顶流的用户留存度也远不及社交应用的中位数。而许多拥有庞大用户群的软件或服务公司,能够把基础模型整合到自己的业务流程中(比如Adobe的AI工具),或许更加具有竞争力。也就是说,基础模型必须具备实际场景的功能,并给用户更加完善的体验更为关键。基础模型将被作为智能时代的操作系统,在其之上构建原生的应用程序。
安德烈·卡帕西提出,大语言模型不是数据库,而是推理引擎。
LLM(Large Language Model)即大语言模型,可以作为操作系统来使用,只不过不像CPU接收十六进制汇编指令,LLM接收自然语言,即提示词。
LLM有一个上下文窗口,相当于系统内存,表示一次存储运算最多能接收的Tokens数量。
模型之外有I/O、视觉、文件系统等接口,以扩展其能力。
智能代理应用能够将用户给出的目标分解成子目标,然后调用外部工具,逐步实现整体目标,许多科技公司已经将Agent的思路用到了自己的产品中。
大语言模型最终会催生新的交互方式,未来可能实现语音、文本、视觉全部纳入的多模态交互方式,同时相应速度也将不断提高,给用户更良好的实时性体验。
未来或许会出现AI劳动力来提升劳动力市场的效率,如AI同事能够作一些自动化客服、销售、市场运营等等,AI供应商或将取代SaaS(软件运营服务),,减少人的工作机会,不过目前AI仍旧执行着机械化的工作,未来GPT-4o或许有可能实现让AI看起来更有灵魂。
人类的智慧是宇宙中最宝贵的东西,但它很稀缺。若能借助机器智能提高全世界的智力供应,无疑会非常受欢迎。
电力革命带来的是电力能源的飞速发展,那么AI革命可以看作是智能供应的一次提高。
根据经济学中的理论,逐渐廉价的商品、服务或资源的供应,就会诱导新的需求出现。目前AI的训练成本是逐年大幅度降低的,而速度也越来越快,智能体或许将扩展到知识领域之外的各个市场。
市场感知到一个潜在的新超级周期的来临。
AI会推动电力供应、数据中心、芯片等行业的发展
数据中心负责提供深度思考,边缘算力负责提供快速整合信息。
空间智能有望实现让智能代理走进物理世界的方方面面。
算力才是王道,知识都是干扰
模型类比人脑,将人类语言中的符号转换为向量,“理解”就是知道如何将这些符号转换成向量,以及这些向量的元素应该如何相互作用来预测下一个符号的向量。
模型要想具备更强大的能力,就需要多模态的进行信息输入,未来或许能够让智能体与社会紧密联系,在社会中不断学习和重塑。
不同的神经网络模型在不同的数据和模态上训练,最终会在其表征空间中收敛成一个共享的现实世界统计模型。也就是说,越强大的模型,相似性也越高。
AI 的目标是对正反馈的追求,强化学习能够让 AI 在更长时间里保持连贯的能力,一旦这种能力解锁,AI 就可以根据人类设定的提示语制定目标计划,并在长时间内逐步执行。
Anthropic 的 ASL(人工智能安全等级):
计算不可约是由沃尔夫勒姆在《一种新的科学》当中提出的,表示该计算不能够再简化。许多的算法问题都可以用不同的方法来简化,简化到最简形式就是计算不可约了。
目前的AI只能够输出“主流”的和“不太令人惊讶”的东西,也就是还不具备创造新科学、新技术的能力。
人类智慧有两种最高水准的表现,一个是艺术,另一个就是科学,它们都依赖人类的创造力。
尽管AI再知识领域方面具备强大的能力,但都是基于现有的知识体系进行总结和预测,它无法根据某种意识加以创新。
尽管AI可以提供指导和建议,但人类再决定哪些新概念值得追,仍然扮演者重要角色。
AI目前更像是延伸人类思维的工具,帮助完成大脑不擅长的任务。像大语言模型这种具有人类特征的AI,就像我们的超级助理,善解人意,思维敏捷,能帮助我们加速思考;也有面向科学的理解自然的AI,帮助我们加速科学的探索。
AI可以帮助我们更快速的理解和掌握知识,这也就意味着,未来知识将不再神秘,每个人都可以通过ai的辅助来掌握那些晦涩艰深的知识。
根据计算不可约化的限制,AI不可能在一种模型内实现通用性的功能,但它可以设计个性化的模型,实现多种形态的超级AI。
对于AGI,我们不关注它如何实现任务,而关注它能否完成。也就是说,我们不需要AGI具备人的思考能力,我们只关心它是否能够达到我们的要求和目的。
AGI的分级:
根据卡帕西,AGI并不会是一个可以自主进化或者是控制人类的威胁,它更像是自动驾驶,可以融合到经济中,能改变社会的自动化进程。
没有人能准确预测未来,所以保持谦卑非常重要。可以预测几步,但不要过度预测。 ——萨姆·奥特曼
效率的提高会导致工作岗位的短期减少,但长期的需求激增会创造更多的岗位。(如蒸汽机的效率提高,使得更少的煤炭就可以做更多的事,因为效率提高导致需求增多,所以煤炭的消费量不减反增。)
因为计算的不可约,事物通常会变得越来越复杂,更多的知识和组织结构将会出现,这也就开辟了需要更多人类参与的“前沿”领域。