冬季供暖:美國和歐洲展現出人意料的經濟韌性;大型語言模型大戰升溫
北半球出現暖冬,恰逢美國、歐洲和日本一系列經濟數據意外向好。美國方面的利好因素眾多,其中包括零售銷售、製造業產出、全美房屋建築商協會(NAHB)住房市場指數創5個月新高、住宅建築業就業恢復、服務業採購經理人指數反彈、初領失業金人數回到低水平、就業增長家庭調查激增、高收益違約率極低、資本開支預測穩定以及表示勞動力短缺的公司數量減少70%。而且:英國以外其他發達國家的國內生產總值跟蹤模型均恢復為正值。此外,歐洲憑藉高水平的天然氣庫存熬過了冬季,加上中國經濟重啟,全球經濟增長前景似乎不似去年秋季那樣令人擔憂。
問題在於:政策利率還未恢復正常。儘管聯儲局開啟有紀錄以來最快的緊縮周期,但按通脹跟蹤指標計算,美國3個月期和10年期的實際收益率仍為負值。正如我們所預期,消費物價和生產者物價的漲幅正在回落,但就此來預計聯儲局會暫停加息還為時過早。此外,聯儲局或歐洲央行也不大可能在今年稍晚降息,除非他們出現了過度調整的問題。經濟的韌性是否會促使聯儲局採取比市場預期更為激進的緊縮措施?我的觀點是,數據需要再連續幾個月出現驚喜才會促使聯儲局加息50個基點。我們仍然認為,我們首選的領先指標(新訂單對比庫存)未來將會表現不振,且房地產市場將出現通縮。結論:聯儲局未來還將加息2-3次,但經濟衰退的可能性和潛在嚴重程度或在減小,美國經濟有可能將出現溫和衰退。
美國股市今年的反彈,部分是由於低質量和高空頭淨額股票的上升、中國貨幣供應6萬億美元的反彈,以及聯儲局加息將不會對經濟或企業盈利造成太大損害的觀點。在這種背景之下,加上盈利前景不斷惡化1,我現在不會追逐股市反彈。從積極的一面來看,全球經濟並沒有像部分人所認為的那樣突然崩潰。但我認為,美國加息的滯後效應一旦開始顯現,經濟形勢仍不容樂觀。
大型語言模型大戰升溫
兩個星期前,我在邁阿密參加了我們的年會,聽取OpenAI的Sam Altman介紹了ChatGPT,而在同一天,Google推出了自己的大型語言模型(LLM)--Bard。首次亮相的拙劣表現令Google的股價受挫,導致當周表現跑輸微軟,跑輸幅度之大,為10年之最,也是自2004年首次公開上市以來最大的一次。諷刺的是,Google的Flan-PaLM模型剛通過了極具挑戰性的美國執業醫師資格考試,據稱是首個通過該考試的LLM。
關於LLM的一些宏觀觀點:
- 如下所示,人工智能正吸引着大量風投資金,也引發計算機科學家之間的思想分享。在過去兩年,我一直對無法盈利的創新(元宇宙、氫能源、先買後付的金融科技、加密幣等)持批評態度。但我對LLM持不同看法;撇開具體公司首次公開上市前的估值細節不談,我認為LLM將帶來更大的生產力增益和顛覆
- LLM本質上是「傳統智慧型」機器;除了在數碼化人類經驗的編年史中已經記錄的內容(訓練它們的方式)外,它們對其他事情一無所知
- 但是:每天都有數十億美元的市值和數百萬員工參與包裝和傳遞傳統智慧的行業。在2022年對自然語言處理研究人員的一項調查中,73%認為,「人工智能帶來的勞動自動化可能會在本世紀引發革命性的社會變革,至少能達到工業革命的規模」2
先不要太過專注於其優勢,我們來看看LLM目前存在的不足之處……
幻覺、太空熊和瓷器:儘管經過各種訓練,LLM仍會犯下很多錯誤
- 據報導,ChatGPT的智商為147(處於第99.9的百分位)3,但LLM還需要進一步改善,因為它們經常犯下被稱為「幻覺」的錯誤。它們會推薦不存在的書籍;它們搞錯年份;它們錯誤地說克羅地亞離開了歐盟;它們在盈利報告中編造數字;它們為捏造的醫學研究創造虛假但貌似可信的參考書目;它們撰寫一些文章,介紹在早餐麥片中添加木屑的好處,以及在母乳中添加碎瓷片的好處。此類例子層出不窮4,導致一些人工智能研究人員將LLM描述為「隨機鸚鵡」
- Galactica,LLM的又一次失敗登場:去年11月,Meta的LLM Galactica在其以科學為導向的模型被批評為「大規模的統計廢話」和「危險」後,僅僅三天就被下架了5。Galactica是為研究人員設計,旨在總結學術論文、解決數學問題、編寫代碼、注釋分子等。但Galactica無法分辨真偽,此外,它還寫了一些關於太空熊歷史的文章。Gary Marcus是紐約大學神經網絡名譽教授,同時還是一家機器學習公司的創始人,他將Galactica描述為「對科學和數學的完美且完全虛假的模仿,並呈現為真實的東西」6
- 許多程序員使用的問答網站Stack Overflow暫時禁止利用ChatGPT生成的發布:「總的來說,因為從ChatGPT中獲得正確答案的平均比率太低,所以發布由ChatGPT創建的答案對網站和詢問或尋找正確答案的用戶來說極為不利」7
- 需要新產品來識別無意義的LLM輸出。研究人員訓練了一個LLM,以根據《美國醫學會雜誌》、《新英格蘭醫學雜誌》、《英國醫學雜誌》、《柳葉刀》和《自然醫學》上的文章撰寫虛假的醫學摘要。一個人工智能輸出檢查器只能識別出三分之二的虛假資訊,而人類審查人員也不能做得更好;人類還會錯誤地將15%的真實資訊描述為虛假資訊8
- 新版New Bing聊天機器人已被「越獄」,提供關於如何搶劫銀行、入室盜竊和使點火裝置電線短路而發動汽車的建議(來源於Jensen Harris,微軟前職員/現於Textio任職)
- 人工智能取代人類的能力時不時被誇大。2016年,一位卓越的深度學習專家曾預測放射專業的終結,主張醫院停止對放射學專業培訓,理由是在5年內,深度學習將會表現優於學生9。如今的共識是:放射學的機器學習比看起來要難得多10,人工智能最好還是用作人類的補充
- LLM已經開始訓練自己以獲得提升。Google設計了一個會提出問題、過濾答案以實現高質量輸出以及對自身進行微調的LLM。這提高了其在各種語言任務中的表現(在一項基準測試中從74%提高至82%,並在另一項基準測試中從78%提高至83%)11。人機交互也是改進過程的一部分;在ChatGPT 3.5中,「.5」體現人類反饋的重要程度,以至於加上一個數位12
即使產生各種幻覺,但LLM正在若干特定任務上取得進展。LLM具備顛覆若干行業並提高其他行業生產力的潛力。
- 儘管Stack Overflow禁止ChatGPT,但LLM編碼輔助正在迅速被開發人員所接受。GitHub上由OpenAI支持的Copilot工具在第一個月就增加了40萬用戶,現在有超過100萬用戶將其用於編寫他們項目中約40%的代碼13。據報導,另一個人工智能編程助手Tabnine也有100萬用戶使用其編寫30%的代碼。通過與OpenAI的合作以及對GitHub的所有權,微軟在這方面具有優勢
- LLM在選股時表現優於賣方分析師(這並不令人震驚)14,而且在基於首席財務官電話會議的綜合記錄,展示多空交易策略方面的積極前景15。它們還利用重述頻率作為代理來改善審計質量,並通過投入更少的人員實現這一點16。佛羅里達大學的GatorTron等項目使用LLM從大量臨床數據中提取洞見,以進一步開展醫學研究
- 其他可能的用途包括營銷/銷售、營運、工程、機器人、欺詐識別和法律。示例:LLM可用於預測違反信託義務和相關法律準則的行為。關於違反受託責任的法院意見數據庫從未在網上供 LLM 訓
- 練17。即便如此,GPT-3.5能夠在78%的時間裡預測出判決是正面還是負面,相較而言,GPT-3.0能夠預測的時間是73%,而OpenAI的2020 LLM則為27%。使用GPT-3.5的LLM在多州律師考試中實現了50%的標題正確率(超過25%的基線猜測率),達到了證據和侵權的及格水平18。ChatGPT還表現出良好的催討信、訴狀和簡易判決的起草技能,甚至為交叉訊問起草問題。LLM不能取代律師,但可以提高他們的生產力,特別是當使用Westlaw和Lexis等法律數據庫對其進行培訓後
- 另一個例子:GPT-3.5作為公司說客助手。人工智能模型被輸入一份立法清單,估計哪些法案與不同的公司有關,並起草了致法案發起人的信件,要求對法案進行相關修改t19。該模型有80%的機率識別一項法案是否與各家公司相關
- 微軟/英偉達發布了迄今為止最大的LLM,Megatron,擁有5,300億個參數,旨在讓企業創建其自身的人工智能應用程式,而自ChatGPT發布以來,新的人工智能初創公司就有30家
训练这些模型的在线信息是否存在上限?
人工智能研究人员估计,高质量语言数据的存量介乎4.6万亿到17万亿个词汇之间,比目前使用的最大数据集大不到一个数量级。他们认为,LLM将在2023年至2027年期间耗尽高质量数据,同时低质量数据和图像的存量将远超于此。
资料来源:《我们会将数据用完吗?机器学习中扩展数据集的局限性分析》,Sevilla(阿伯丁大学)等,2022年10月
搜索業務的盈利能力會有何變化?
- 微軟首席執行官表示,「搜索業務的毛利率將一直下降」,而OpenAI的Sam Altman也提到「萎靡不振的搜索壟斷」的存在,而這種壟斷正面臨風險
- Google非常了解機器學習和人工智能,我預計,在Bard推出後,他們很快就會對其能力作出強而有力的回應。但未來的搜索經濟看起來確實更具挑戰性。自2018年以來,Google的經營利潤率(包括Youtube)平均約為24%。Google方面的任何LLM計劃都將在其現有成本結構中佔據首要位置
- 對ChatGPT成本的估計差異極大,每次查詢的成本介乎0.4美分到4.5美分之間,這由每次查詢所產生的字數、模型大小20和計算成本21所決定。我們假設每次ChatGPT查詢的大致中間成本為2美分。相比之下,每次標準的Google搜索查詢的基礎設施成本為0.2至0.3美分。根據下文所引述的摩根士丹利報告,以ChatGPT的成本為起點,由人工智能支援的Google查詢每增加10%,Google的經營利潤率就會降低1.5%-1.7%。基於這些原因,值得思考以下問題:微軟和Google是否會向所有用戶提供成本更高的LLM增強型搜索引擎產品,還是只向預期廣告收入潛力較高的用戶提供?
- 然而:Google宣布,Bard將依賴於LaMDA的「輕量級」版本,而不是完整版本或更大的PaLM模型。因此,ChatGPT的每次查詢成本可能會大幅誇大Google從其自身的LLM計劃中產生的增量成本
- 更廣泛而言,當使用「稀疏」模型時,LLM的成本較低。如果你向GPT-3提交一個請求,它的全部1,750億個參數都將用於生成一個回應。稀疏模型縮小了回答一個問題所需的知識領域,並且可以更大,並減少計算要求。Google開發的稀疏專家模型GLaM比GPT-3大7倍、訓練所需能量少三分之二、計算工作量少一半且在廣泛的自然語言任務上表現優於GPT-322
- 去年,Google的平均搜索流量份額為92%。如下文所示,自ChatGPT推出以來,Google的這一份額迄今為止出現了輕微的下降。這些相對份額還意味着,由於使用量較多,Google的LLM可能會比ChatGPT更快地變得更加智能
LLM能力有什麼樣的未來?留意「Big Bench」
Google、OpenAI和100多家其他人工智能公司正在注資進行一個名為「Big Bench」的項目。Big Bench群眾外判了400多名研究人員提供的204項任務,目的是評估LLM對比人類的表現。摘自作者:「任務主題具有多樣性,涉及的問題出自語言學、兒童發展、數學、常識推理、生物學、物理學、社會偏見、軟件開發等。BIG Bench專注於被認為超出現有語言模型能力的任務」。這些任務相當有趣,我在下文列出一些具有參考性的任務23。
Big Bench團隊在去年夏天公布了他們的第一個結果,如下所示,LLM還需繼續發展,才可能在更高難度的任務上追上人類。增加LLM參數規模會有所幫助,但這些模型在絕對意義上仍然表現欠佳。模型性能也會隨着LLM在推理時獲得的示例數量增加而提高,也即圖表中的下標所指(一次提示對比三次提示);但問題還是,絕對的LLM性能分數仍然很低。值得注意的是,要看看最新的LLM在與Big Bench的對抗中表現如何,因為它們進步神速。
順便提一句:注意,在第一張圖中以相同的參數尺度進行校準時,OpenAI和Google LLM的性能旗鼓相當。LLM大戰才剛剛開始。後續步驟:LLM集成到Office 365和Google Docs/Sheets等產品中;更長的上下文窗口,以便在推理時輸入更多數據;LLM能夠消化數據矩陣和圖表,而不僅僅是文本;以及縮短批量用戶的延遲時間。
具有參考性的Big Bench挑戰:
- 要求模型判斷一份提供的文本是否在開玩笑(帶有黑色幽默)
- 提供Python代碼的英文描述
- 解決邏輯網格難題並識別邏輯謬誤
- 對不同編碼方式的CIFAR10圖像進行分類
- 在棋局中找出導致「將死」的走法
- 要求模型根據用表情符號寫的劇情描述猜出熱門電影
- 用西班牙語回答有關低溫生物學的問題
- GRE考試閱讀理解
- 以簡單的語言給出一組形狀;確定形狀之間的交點數量
- 提供一些簡短的犯罪故事,找出罪犯並解釋原因
- 向模型展示一則英文諺語,並要求它選擇一個意義最接近的俄語諺語
- 要求模型的一個實例教授另一個實例,然後評估質量
- 確定哪種道德選擇最符合人類的判斷
- 判斷兩個句子中哪一句具有諷刺性
1自第四季度財報季結束以來,每股盈利預期已下降1.7%,而平均漲幅達2.8%。這是24年來除了2001年經濟衰退、金融危機和疫情最初季度外的最大降幅。[瑞士信貸,2023年2月13日]
2《自然語言處理研究人員相信什麼?自然語言處理社區元調查》,Michael等,康奈爾大學,2022年8月
3 經濟學研究中的語言模型和認知自動化》,Anton Korinek,維珍尼亞大學,2023年2月
4《深度學習正在碰壁》,Nautilus期刊,Gary Marcus,2022年3月
5引述自Grady Booch(統一建模語言的開發者)和Michael Black(馬克斯·普朗克智能系統研究所所長)
6《一些胡說八道的話》,Gary Marcus,2022年11月15日
7《臨時政策:禁止使用ChatGPT》,Stackoverflow.com,2022年12月5日
8《由ChatGPT撰寫的摘要愚弄了科學家》,《自然》,2023年1月12日
9《ChatGPT等人工智能平台易於使用但存在潛在危險》,G. Marcus,《科學美國人》,2022年12月
10《我的醫學影像機器學習如何失敗-不足之處和建議》,G. Varoquaux,國家數碼科學技術研究所(法國),2022年5月
11「大型語言模型可以自我改進」,Hou等(Google),2022年10月
12相關的首字母縮寫是「Reinforcement learning with human feedback(基於人類反饋的強化學習)」或RLHF
13《GitHub的人工智能輔助Copilot工具為你編寫代碼,但這是否合法或符合道德?》,ZDnet.com,2022年7月8日
14《人機對決:機械人分析師vs傳統研究建議》,Pacelli (HBS),2022年6月
15《使用自然語言處理洞見和機器學習創造超額回報》,Chris Kantos(CFA-UK),2022年9月12日
16《人工智能是否在改善審計流程?》,《Review of Accounting Studies》,Fedyk等,2022年7月
17《作為受託人的大型語言模型》,J. Nay,史丹福大學法律資訊學中心,2023年1月
18《GPT參加律師資格考試》,Bommarito等,史丹福大學法律資訊學中心,2023年1月
19《大型語言模型作為公司說客》,J. Nay,史丹福大學,2023年1月
20據傳GPT-4的參數量由1,750億增加至1萬億
21《Google的利潤率是否受到來自ChatGPT和OpenAI的威脅?》(2023年1月10日)和《人工智能的增量成本有多大》(2023年2月9日),Brian Nowak,摩根士丹利股票研究部。微軟認為,OpenAI正在ChatGPT的第三方開發者許可協議上面臨虧損;有趣的是,Google在發布其自然語言開發者工具時,是否會通過定價削弱OpenAI
22《下一代大型語言模型》,Rob Toews(Radical Ventures),2023年2月7日
23《超越模仿遊戲:量化和推斷語言模型的能力》,2022年6月