我是在出差途中看到關于蘋果MM1消息的,當時并沒有覺得驚訝,畢竟蘋果放棄造車、轉戰生成式AI的消息早已不是秘密。
讓我感到驚訝的是,最懂蘋果的彭博社記者Mark Gurman爆料稱,蘋果正在和谷歌洽談“將Gemini植入iPhone事宜”。
如果Gemini最終真出現在了今年9月即將發布的iPhone 16上,那就意味著,MacBook好不容易擺脫了英特爾的噩夢,iPhone卻又著了谷歌的道。
即便只是暫時聯姻,但Android陣營的大模型滲透到蘋果系統中,這也堪稱是前無古人了。
話雖如此,但我們還是有必要了解一下蘋果對于生成式AI的態度轉變,以及關于下一代AI iPhone的猜想。
01
MM1的戰略意圖
就在上周,蘋果團隊產出了一篇關于多模態預訓練大模型的論文,蘋果名為MM1的多模態預訓練大模型在這篇論文中也浮出水面。
MM1,大多數果粉聽起來都會覺得這名字耳熟得很。
無論蘋果是有意還是無意,這名字確實容易讓人想起蘋果MacBook搭載的第一代基于ARM架構自研的處理器M1,也是憑借M1,蘋果最終擺脫了英特爾多年的噩夢,真正實現了絕對的軟硬一體。
蘋果將自己的大模型命名為MM1,似乎也有想要擺脫現在市面上幾乎一手遮天的OpenAI影響的寓意。
每篇研究論文,關鍵之處在于獨創性,這也就是所謂的研究成果。
蘋果公司這篇名為MM1的論文,雖然沒有透露出太多公司戰略層面的想法,但是也輸出了一些蘋果AI研究團隊的認知:
例如,蘋果AI研究團隊在論文中指出,對于多模態預訓練大模型而言,使用圖像字幕、圖像文本交錯內容、純文本內容的組合對于在多個基準測試中實現少量優秀測試結果至關重要。
蘋果AI研究團隊在論文中還指出,在模型設計過程中,相關要素的重要性依次為:圖像分辨率(image resolution)、視覺編碼器的損耗和容量(visual encoder loss and capacity)、視覺編碼器預訓練數據(visual encoder pre-training data)。
蘋果MM1大模型,則是基于LLM(大語言模型)+MoE(混合專家系統)搭建而成的多模態大模型,參數規模有3B、7B、30B三個版本。
實際上,MM1更像是蘋果在放棄造車后,一次不那么正式地對外官宣,官宣自己確實已經在將大模型作為研發重心來對待。
早在2023年ChatGPT火遍全球時,Mark Gurman就曾爆料,蘋果這年2月在喬布斯劇院舉辦了一場人工智能年度峰會。大模型和AI工具,正是這場僅允許蘋果內部員工參與的活動的主要議題。
隨后,《紐約時報》報道稱,盡管Siri存在設計缺陷已經毋庸置疑,但蘋果工程師已經在開發類似ChatGPT的人工智能。
不過,這個五年前在蘋果內部成立,由蘋果人工智能負責人John Giannandrea領導的16人團隊,彼時的研究方向還是對話式AI基礎模型。
直到去年,一個名為“Ajax”的大模型框架,以及一個被蘋果內部員工稱為“Apple GPT”的聊天機器人項目再次浮出水面,關于蘋果大模型的消息才有了些苗頭。
而這些無論是被稱作對話式AI,還是大模型的項目,主要目標就是改善Siri、搜索、地圖、Apple Music在內的軟件體驗。
這樣的商業導向,讓蘋果人工智能團隊一直有著充足的預算,彭博社在2023年10月的一份報道中指出,蘋果每年在人工智能技術開發上的預算高達10億美元。
只不過,雖然Siri這兩年已經正在變得好用,但由于蘋果的戰略搖擺,讓它沒能在百模大戰中嶄露頭角。
MM1的悄然上線,算是蘋果在放棄汽車、選定生成式AI這樣的業務調整后,一個戰略意圖上的顯露。
02
谷歌的GPT外衣
從蘋果AI研究團隊這篇論文的測試報告中可以看到,和OpenAI、谷歌的多模態大模型相比,蘋果的MM1并不占優勢,甚至可以用差強人意來形容。
這就不難理解,為什么會傳出蘋果正在與谷歌談判,希望將Gemini應用到iPhone中,Mark Gurman甚至爆料稱,蘋果也在與OpenAI進行了接觸,在考慮使用OpenAI的大模型。
在手機上應用谷歌的Gemini大模型,按理來說也不足為奇,畢竟,谷歌Gemini Nano(18億/32.5億參數規模)本身就是專為手機這樣智能硬件設計的一款大模型。
更何況,這一模型不僅用在了谷歌自己的Pixel 8 Pro上,還被三星用到了今年年初發布的旗艦手機Galaxy S24上。
所以,嚴格意義上來說,這是一個在主流手機上已經經過驗證的端側大模型,保真保熟。
只不過,如果將三星換成蘋果,這件事兒的意義就不一樣了。
眾所周知,蘋果是自成一體的封閉系統,而且還是一套和谷歌陣營的Android一向對立的第二大手機生態體系,如果選擇聯姻,意味著蘋果手機在軟硬一體上的優勢將在一定程度將被打破。
畢竟大模型和其它軟件不太一樣,雖然現在在手機上還看不出有什么石破驚天的創新應用,但在未來將會是一個不亞于芯片的根技術。
實際上,從Mark Gurman的爆料來看,蘋果這次與谷歌談合作,也是打算在本地用自己的大模型,在云端用谷歌的Gemini提供文本生成和圖像生成等功能。
這樣看來,蘋果的這一舉措更像是一個”緩兵之計“。
既然打不過,那就先拿來用吧。
庫克畢竟不是喬布斯,沒有技術潔癖,這樣的技術組合,商業上依然是成功的,對于當下的iPhone來說也未嘗不可。
只不過,蘋果以往在人工智能技術上的高投入,似乎就打了水漂。
郭明錤在2023年10月就曾預測,蘋果每年至少需要投資數十億美元,才有可能在生成式AI上追上競爭對手。
這樣算來,蘋果一年10億美元的AI投入,還是顯得少了些。
而關于蘋果在生成式AI到底有哪些關鍵成果,在今年2月的蘋果一季度電話會議上,庫克透露,“我們很高興將在今年晚些時候分享我們正在進行的人工智能工作的相關細節?!?/span>
這一時間節點很可能是今年6月的WWDC 2024,搭載蘋果生成式AI的產品則很可能是iOS 18,以及今年秋季即將發布的iPhone 16。
03
關于AI iPhone的猜想
就在昨天,高通高調對外發布了一顆新處理器——驍龍8s Gen 3。
芯片廠商的產品向來版本眾多,新名字聽得大家也是云里霧里,而這顆芯片,其實是驍龍8 Gen 3的低配版(官方稱之為性能版)。
即便如此,這仍是一顆最高支持100億參數大模型的手機處理器。
低配版的處理器都已經開始支持百億參數大模型,由此可見,大模型已經成了智能手機的標配。
就在智能手機都開始標配大模型、換殼“AI手機”時,如何使用大模型就成了那個最關鍵的問題。
現在來看,就新一代蘋果手機或iOS系統而言,我們能夠期待的是:
1、語音助手Siri能夠通過生成式AI變得聰明些;
2、百年不變的攝像/攝影功能通過生成式AI搞一些新玩法;
3、攝影功能在生成式AI的加持下可以和Vision Pro進一步聯動,讓為Vision Pro創造3D內容變得更簡單;
4、在Pages、Keynote等辦公軟件上加入自動摘要、文生圖等內容生成功能,那種能夠更容易上手和使用的內容生成功能;
5、最好能再通過生成式AI創造出兩個我們都不曾想到的新鮮玩法。
當然,鋅產業認為,毫無懸念的是,這次通過生成式AI,蘋果Siri必然會迎來一次空前升級。
憑借超10億優質iPhone活躍用戶,這次,借助生成式AI,蘋果或許能夠重啟語音交互時代。