问题在于:政策利率还未恢复正常。尽管美联储开启有记录以来最快的紧缩周期,但按通胀跟踪指标计算,美国3个月期和10年期的实际收益率仍为负值。正如我们所预期,消费物价和生产者物价的涨幅正在回落,但就此来预计美联储会暂停加息还为时过早。此外,美联储或欧洲央行也不大可能在今年晚些时候降息,除非他们出现了超调的问题。经济的韧性是否会促使美联储采取比市场预期更为激进的紧缩措施?我的观点是,数据需要再连续几个月出现惊喜才会促使美联储加息50个基点。我们仍然认为,我们首选的领先指标(新订单对比库存)未来将会表现不振,且房地产市场将出现通缩。结论:美联储未来还将加息2-3次,但经济衰退的可能性和潜在严重程度或在减小,美国经济有可能将出现温和衰退。
美国股市今年的反弹,部分是由于低质量和高空头净额股票的上升、中国货币供应6万亿美元的反弹,以及美联储加息将不会对经济或企业盈利造成太大损害的观点。在这种背景之下,加上盈利前景不断恶化1,我现在不会追逐股市反弹。从积极的一面来看,全球经济并没有像部分人所认为的那样突然崩溃。但我认为,美国加息的滞后效应一旦开始显现,经济形势仍不容乐观。
大型语言模型大战升温
两个星期前,我在迈阿密参加了我们的年会,听取OpenAI的Sam Altman介绍了ChatGPT,而在同一天,谷歌推出了自己的大型语言模型(LLM)-Bard。首次亮相的拙劣表现令谷歌的股价受挫,导致当周表现跑输微软,跑输幅度之大,为10年之最,也是自2004年首次公开上市以来最大的一次。讽刺的是,谷歌的Flan-PaLM模型刚通过了极具挑战性的美国执业医师资格考试,据称是首个通过该考试的LLM。
关于LLM的一些宏观观点:
- 如下所示,人工智能正吸引着大量风投资金,也引发计算机科学家之间的思想分享。在过去两年,我一直对无法盈利的创新(元宇宙、氢能源、先买后付的金融科技、加密币等)持批评态度。但我对LLM持不同看法;撇开具体公司首次公开上市前的估值细节不谈,我认为LLM将带来更大的生产力增益和颠覆
- LLM本质上是「传统智慧型」机器;除了在数字化人类经验的编年史中已经记录的内容(训练它们的方式)外,它们对其他事情一无所知
- 但是:每天都有数十亿美元的市值和数百万员工参与包装和传递传统智慧的行业。在2022年对自然语言处理研究人员的一项调查中,73%认为,「人工智能带来的劳动自动化可能会在本世纪引发革命性的社会变革,至少能达到工业革命的规模」2
先不要太过专注于其优势,我们来看看LLM目前存在的不足之处……
幻觉、太空熊和瓷器:尽管经过各种训练,LLM仍会犯下很多错误
- 据报道,ChatGPT的智商为147(处于第99.9的百分位)3,但LLM还需要进一步改善,因为它们经常犯下被称为「幻觉」的错误。它们会推荐不存在的书籍;它们搞错年份;它们错误地说克罗地亚离开了欧盟;它们在盈利报告中编造数字;它们为捏造的医学研究创造虚假但貌似可信的参考书目;它们撰写一些文章,介绍在早餐麦片中添加木屑的好处,以及在母乳中添加碎瓷片的好处。此类例子层出不穷4,导致一些人工智能研究人员将LLM描述为「随机鹦鹉」
- Galactica,LLM的又一次失败登场:去年11月,Meta的LLM Galactica在其以科学为导向的模型被批评为「大规模的统计废话」和「危险」后,仅仅三天就被下架了5。Galactica是为研究人员设计,旨在总结学术论文、解决数学问题、编写代码、注释分子等。但Galactica无法分辨真伪,此外,它还写了一些关于太空熊历史的文章。Gary Marcus是纽约大学神经网络名誉教授,同时还是一家机器学习公司的创始人,他将Galactica描述为「对科学和数学的完美且完全虚假的模仿,并呈现为真实的东西」6
- 许多程序员使用的问答网站Stack Overflow暂时禁止利用ChatGPT生成的发布:「总的来说,因为从ChatGPT中获得正确答案的平均比率太低,所以发布由ChatGPT创建的答案对网站和询问或寻找正确答案的用户来说极为不利」7
- 需要新产品来识别无意义的LLM输出。研究人员训练了一个LLM,以根据《美国医学会杂志》、《新英格兰医学杂志》、《英国医学杂志》、《柳叶刀》和《自然医学》上的文章撰写虚假的医学摘要。一个人工智能输出检查器只能识别出三分之二的虚假信息,而人类审查人员也不能做得更好;人类还会错误地将15%的真实信息描述为虚假信息8
- 新版必应聊天机器人已被「越狱」,提供关于如何抢劫银行、入室盗窃和使点火装置电线短路而发动汽车的建议(来源于Jensen Harris,微软前职员/现在Textio任职)
- 人工智能取代人类的能力时不时被夸大。2016年,一位卓越的深度学习专家曾预测放射专业的终结,主张医院停止对放射学专业培训,理由是在5年内,深度学习将会表现优于学生9。如今的共识是:放射学的机器学习比看起来要难得多10,人工智能最好还是用作人类的补充
- LLM已经开始训练自己以获得提升。谷歌设计了一个会提出问题、过滤答案以实现高质量输出以及对自身进行微调的LLM。这提高了其在各种语言任务中的表现(在一项基准测试中从74%提高至82%,并在另一项基准测试中从78%提高至83%)11。人机交互也是改进过程的一部分;在ChatGPT 3.5中,「.5」体现人类反馈的重要程度,以至于加上一个数位12
即使产生各种幻觉,但LLM正在若干特定任务上取得进展。LLM具备颠覆若干行业并提高其他行业生产力的潜力。
- 尽管Stack Overflow禁止Chat-GPT,但LLM编码辅助正在迅速被开发人员所接受。GitHub上由OpenAI支持的Copilot工具在第一个月就增加了40万用户,现在有超过100万用户将其用于编写他们项目中约40%的代码13。据报道,另一个人工智能编程助手Tabnine也有100万用户使用其编写30%的代码。通过与OpenAI的合作以及对GitHub的所有权,微软在这方面具有优势
- LLM在选股时表现优于卖方分析师(这并不令人震惊)14,而且在基于首席财务官电话会议的综合记录,展示多空交易策略方面的积极前景15。它们还利用重述频率作为代理来改善审计质量,并通过投入更少的人员实现这一点16。佛罗里达大学的GatorTron等项目使用LLM从大量临床数据中提取洞见,以进一步开展医学研究
- 其他可能的用途包括营销/销售、运营、工程、机器人、欺诈识别和法律。示例:LLM可用于预测违反信托义务和相关法律准则的行为。关于违反受托责任的法院意见数据库从未在线上供 LLM 训练17。即便如此,GPT-3.5能够在78%的时间里预测出判决是正面还是负面,相较而言,GPT-3.0能够预测的时间是73%,而OpenAI的2020 LLM则为27%。使用GPT-3.5的LLM在多州律师考试中实现了50%的标题正确率(超过25%的基线猜测率),达到了证据和侵权的及格水平18。ChatGPT还表现出良好的要求函、诉状和简易判决的起草技能,甚至为交叉询问起草问题。LLM不能取代律师,但可以提高他们的生产力,特别是当使用Westlaw和Lexis等法律数据库对其进行培训后
- 另一个例子:GPT-3.5作为公司说客助手。人工智能模型被输入一份立法清单,估计哪些法案与不同的公司有关,并起草了致法案发起人的信件,要求对法案进行相关修改19。该模型有80%的几率识别一项法案是否与各家公司相关
- 微软/英伟达发布了迄今为止最大的LLM,Megatron,拥有5,300亿个参数,旨在让企业创建其自身的人工智能应用程序,而自ChatGPT发布以来,新的人工智能初创公司就有30家
训练这些模型的在线信息是否存在上限?
人工智能研究人员估计,高质量语言数据的存量介乎4.6万亿到17万亿个词汇之间,比目前使用的最大数据集大不到一个数量级。他们认为,LLM将在2023年至2027年期间耗尽高质量数据,同时低质量数据和图像的存量将远超于此。
资料来源:《我们会将数据用完吗?机器学习中扩展数据集的局限性分析》,Sevilla(阿伯丁大学)等,2022年10月
搜索业务的盈利能力会有何变化?
- 微软首席执行官表示,「搜索业务的毛利率将一直下降」,而OpenAI的Sam Altman也提到「萎靡不振的搜索垄断」的存在,而这种垄断正面临风险
- 谷歌非常了解机器学习和人工智能,我预计,在Bard推出后,他们很快就会对其能力做出强有力的回应。但未来的搜索经济看起来确实更具挑战性。自2018年以来,谷歌的经营利润率(包括Youtube)平均约为24%。谷歌方面的任何LLM计划都将在其现有成本结构中占据首要位置
- 对ChatGPT成本的估计差异极大,每次查询的成本介乎0.4美分到4.5美分之间,这由每次查询所产生的字数、模型大小20和计算成本21所决定。我们假设每次ChatGPT查询的大致中间成本为2美分。 相比之下,每次标准的谷歌搜索查询的基础设施成本为0.2至0.3美分。根据下文所引述的摩根士丹利报告,以ChatGPT的成本为起点,由人工智能支持的谷歌查询每增加10%,谷歌的经营利润率就会降低1.5%-1.7%。基于这些原因,值得思考以下问题:微软和谷歌是否会向所有用户提供成本更高的LLM增强型搜索引擎产品,还是只向预期广告收入潜力较高的用户提供?
- 然而:谷歌宣布,Bard将依赖于LaMDA的「轻量级」版本,而不是完整版本或更大的PaLM模型。因此,ChatGPT的每次查询成本可能会大幅夸大谷歌从其自身的LLM计划中产生的增量成本
- 更广泛而言,当使用「稀疏」模型时,LLM的成本较低。如果你向GPT-3提交一个请求,它的全部1,750亿个参数都将用于生成一个响应。稀疏模型缩小了回答一个问题所需的知识领域,并且可以更大,并减少计算要求。谷歌开发的稀疏专家模型GLaM比GPT-3大7倍、训练所需能量少三分之二、计算工作量少一半且在广泛的自然语言任务上表现优于GPT-322
- 去年,谷歌的平均搜索流量份额为92%。如下文所示,自ChatGPT推出以来,谷歌的这一份额迄今为止出现了轻微的下降。这些相对份额还意味着,由于使用量较多,谷歌的LLM可能会比ChatGPT更快地变得更加智能
LLM能力有什么样的未来?留意「Big Bench」
谷歌、OpenAI和100多家其他人工智能公司正在注资进行一个名为「Big Bench」的项目。Big Bench众包了400多名研究人员提供的204项任务,目的是评估LLM对比人类的表现。摘自作者:「任务主题具有多样性,涉及的问题出自语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等。BIG Bench专注于被认为超出现有语言模型能力的任务」。这些任务相当有趣,我在下文列出一些具有参考性的任务23。
Big Bench团队在去年夏天公布了他们的第一个结果,如下所示,LLM还需继续发展,才可能在更高难度的任务上追上人类。增加LLM参数规模会有所帮助,但这些模型在绝对意义上仍然表现欠佳。模型性能也会随着LLM在推理时获得的示例数量增加而提高,也即图表中的下标所指(一次提示对比三次提示);但问题还是,绝对的LLM性能分数仍然很低。值得注意的是,要看看最新的LLM在与Big Bench的对抗中表现如何,因为它们进步神速。
顺便提一句:注意,在第一张图中以相同的参数尺度进行校准时,OpenAI和谷歌LLM的性能旗鼓相当。LLM大战才刚刚开始。后续步骤:LLM集成到Office 365和谷歌Docs/Sheets等产品中;更长的上下文窗口,以便在推理时输入更多数据;LLM能够消化数据矩阵和图表,而不仅仅是文本;以及缩短批量用户的延迟时间。
具有参考性的Big Bench挑战:
- 要求模型判断一份给定的文本是否在开玩笑(带有黑色幽默)
- 提供Python代码的英文描述
- 解决逻辑网格难题并识别逻辑谬误
- 对不同编码方式的CIFAR10图像进行分类
- 在棋局中找出导致「将死」的走法
- 要求模型根据用表情符号写的剧情描述猜出热门电影
- 用西班牙语回答有关低温生物学的问题
- GRE考试阅读理解
- 以简单的语言给出一组形状;确定形状之间的交点数量
- 给定一些简短的犯罪故事,找出罪犯并解释原因
- 向模型展示一则英文谚语,并要求它选择一个意义最接近的俄语谚语
- 要求模型的一个实例教授另一个实例,然后评估质量
- 确定哪种道德选择最符合人类的判断
- 判断两个句子中哪一句具有讽刺性
1自第四季度财报季结束以来,每股盈利预期已下降1.7%,而平均涨幅达2.8%。这是24年来除了2001年经济衰退、金融危机和疫情最初季度外的最大降幅。[瑞士信贷,2023年2月13日]
2《自然语言处理研究人员相信什么?自然语言处理社区元调查》,Michael等,康奈尔大学,2022年8月
3《经济学研究中的语言模型和认知自动化》,Anton Korinek,弗吉尼亚大学,2023年2月
4《深度学习正在碰壁》,Nautilus期刊,Gary Marcus,2022年3月
5引述自Grady Booch(统一建模语言的开发者)和 Michael Black(马克斯·普朗克智能系统研究所所长)
6《一些胡说八道的话》,Gary Marcus,2022年11月15日
7《临时政策:禁止使用ChatGPT》,Stackoverflow.com,2022年12月5日
8《由ChatGPT撰写的摘要愚弄了科学家》,《自然》,2023年1月12日
9《ChatGPT等人工智能平台易于使用但存在潜在危险》,G. Marcus,《科学美国人》,2022年12月
10《我的医学影像机器学习如何失败-不足之处和建议》,G. Varoquaux,国家数字科学技术研究所(法国),2022年5月
11「大型语言模型可以自我改进」,Hou等(谷歌),2022年10月
12相关的首字母缩写是「Reinforcement learning with human feedback(基于人类反馈的强化学习)」或RLHF
13《GitHub的人工智能辅助Copilot工具为你编写代码,但这是否合法或符合道德?》,ZDnet.com,2022年7月8日
14《人机对决:机器人分析师vs传统研究建议》,Pacelli (HBS), 2022年6月
15《使用自然语言处理洞见和机器学习创造超额回报》,Chris Kantos(CFA-UK), 2022年9月12日
16《人工智能是否在改善审计流程?》,《Review of Accounting Studies》,Fedyk等,2022年7月
17《作为受托人的大型语言模型》,J. Nay,斯坦福大学法律信息中心,2023年1月
18《GPT参加律师资格考试》,Bommarito等,斯坦福大学法律信息学中心,2023年1月
19《大型语言模型作为公司说客》,J. Nay,斯坦福大学,2023年1月
20据传GPT-4的参数量由1,750亿增加至1万亿
21《谷歌的利润率是否受到来自ChatGPT和OpenAI的威胁?》(2023年1月10日)和《人工智能的增量成本有多大》(2023年2月9日),Brian Nowak,摩根士丹利股票研究部。微软认为,OpenAI正在ChatGPT的第三方开发者许可协议上面临亏损;有趣的是,谷歌在发布其自然语言开发者工具时,是否会通过定价削弱OpenAI
22《下一代大型语言模型》,Rob Toews(Radical Ventures), 2023年2月7日
23《超越模仿游戏:量化和推断语言模型的能力》,2022年6月