在剛剛過去的WAIC2023上,沒到現場的馬斯克,把“擎天柱”派到了現場……
盡管這臺人形機器人被放在了罩子,在現場也沒有做什么表演或動作展示,但在會場中依然被幾度圍觀。
再結合馬斯克在開幕式視頻演講中發表了的觀點:
“在將來某個時刻,地球上機器人與人類的比例可能會超過1:1,這意味著機器人的數量將超過人類,甚至會多很多。”
人形機器人無疑成了WAIC2023上關注度最高的一個話題。
實際上,我們發現,WAIC2023上,僅僅是關于人形機器人的主題論壇就有不下五個,參展機器人廠商更是超過了20家。
此外,據鋅產業了解,現在國內但凡機器人做得還不錯的團隊,不少都已經開始涉足人形機器人領域。
除了康復機器人領域獨角獸企業傅利葉智能在WAIC2023期間首發人形機器人外,今年下半年我們將會看到有更多人形機器人面世。
似乎,一夜之間,人形機器人猶如雨后春筍般,從各地相繼冒出。
為什么圈內人都覺得,人形機器人真得又行了呢?
01
暴力美學造就通用AI
大家之所以會覺得人形機器人又行了,同樣和現在科技圈最火爆的大模型不無關系。
2022年11月30日,ChatGPT正式問世,隨后,ChatGPT僅僅用了兩個月,就擁有了1億用戶。
一個對比數據是,增長到1億用戶量,Facebook用了4.5年,Instagram用了2.5年,即便是如今仍屬新鮮事物的TikTok也用了9個月。
之所以列出這么一組數據,是為了更直觀地體現ChatGPT當時在全球的火爆程度,而一般這樣全球性的現象級產品,必有其顛覆性所在。
ChatGPT的顛覆性在于它的“通用性”,準確地說,應該是人工智能的通用性。
ChatGPT的背后,是一家曾經少有人知(至少在國內是),如今卻無人不知的AI創業團隊OpenAI,這個創業團隊最早是由特斯拉創始人馬斯克、PayPal創始人彼得·蒂爾、YC創始人利文斯頓,以及現在OpenAI的掌舵人奧特曼等硅谷大佬創辦,目的就是為了研究人工智能技術。
當然,據馬斯克曾經透露,創立OpenAI其實還有另一個原因,是幾位大佬為了聯合對抗谷歌的AI霸權。
這樣的硅谷最強天團,既不缺錢,也不缺資源,于是他們走了一條別人敢想不敢干的路——用巨量算力資源訓練一個巨量參數的通用人工智能大模型,也就是LLM,通用大語言模型。
這里我們再列舉兩個數據來看一下,LLM訓練究竟有多消耗資源:
GPT-3使用1萬塊V100GPU,花了30天才訓練完了1750億參數,訓練一次要消耗19萬度電,整體訓練成本約為140萬美元;
GPT-4參數規模更是達到了1.76萬億個,理論上來說,消耗資源量至少是GPT-3的10倍。
我們完全有理由認為,這是一群科學瘋子,在通過巨量資源嘗試引發一次AI質變,他們信奉的是暴力美學。
幸運的是,他們成功地訓練出了通用大語言模型,這從ChatGPT問世后的使用效果和科技巨頭的追捧熱度就能有一個直觀感受。
那么,通用大語言模型,能為人形機器人帶來什么呢?
02
人形機器人的死亡陷阱
人形機器人一直被認為是機器人的終極形態。
之所以如此,是因為,人形機器人理論上可以完成所有人類在做的非標任務。
因而,幾乎每個機器人創業團隊,或多或少都有過搞人形機器人的念頭。
在之前很長一段時間里,大概是早稻田大學搞出WABOT后,人形機器人一直處于一個在硬件能力上尋求突破的階段。當時大家都是在想,如何通過工程結構、制造能力、系統動力學來讓人形機器人像人一樣地動起來。
于是,在過去幾十年里,隨著機器人的電機、控制器、減速器等核心器件的工藝、性能不斷提升,以及機器人系統能力逐漸完善,人形機器人最終如愿逐漸能夠走了起來。
我們看到,本田在1972年搞出了阿西莫(ASIMO)震驚行業,波士頓動力在2016年亮出了Atlas秀翻全網。
就在波士頓動力Atlas在網上又是表演后空翻,又是表演踩梅花樁時,一個一直未能解決的問題——商業化問題,讓波士頓動力始終困于熒幕之上、網絡之中。
我們看到,無法很好地實現商業化的波士頓動力,在最近十年里相繼被最喜歡工程師的谷歌、最喜歡機器人的軟銀先后收購后,最終又轉手給了現代汽車。
汽車工業是自動化、信息化最高一個場景,也被認為是軍工之外最有可能率先用上波士頓動力四足機器人,甚至人形機器人的地方。
2021年6月,波士頓動力正式歸于現代汽車門下,而這很有可能將是他們最后一站,如果這一站商業化再沒什么成果,人形機器人很有可能會再次掉入死亡曲線中的又一個低谷,沉寂再所難免。
可能有人會問,為什么人形機器人這么難商業化?
這是因為人形機器人是完全仿照人的外形研發的一種機器人,因而天然需要面對更復雜的、不確定的場景。
這有點類似人工智能技術的發展,會下棋的AlphaGo只能算是專用人工智能,這種專用人工智能算法研發只需要瞄著一個應用場景,用大量數據一直進行訓練,總有修成神功的一天。
對應到機器人領域,面向各類工業環境研發的專用機械臂已經十分成熟,尤其在汽車工業的沖壓、焊接、噴涂、總裝等環節中早已有了廣泛應用,這也就是為什么工業機器人在全球能有超過1400億產值規模的主要原因。
人形機器人要解決的不是這些問題,或者說人們期望作為機器人終極形態的人形機器人要解決的,不是這類問題,而是真實世界中更復雜的問題,這就需要解決機器人的通用性問題。
我們這里先說一下人工智能的本質,我的簡單理解是:
人工智能的本質就是算法。
算法應用到軟件上,就形成了有智能推薦系統的搜索引擎、有智能客服系統的電商平臺;
算法應用到硬件上,就形成了有智能語音系統的音箱、有智能規劃系統的掃地機器人。
所以,當通用大語言模型這樣的通用人工智能算法出現后,苦苦尋找提升人形機器人通用性的機器人團隊,就興奮了起來。
人形機器人+通用大語言模型,不就有了通用人形機器人了嗎?
03
具身智能,一次機器人的能力泛化
在討論具身智能之前,我們先要做一個假設:
假設人形機器人所需要的電機的扭矩密度、電池的能量密度都已經足以支撐人形機器人進行各種高強度運動,控制器、減速器也都已經不是問題。
這時候,軟實力就變得尤為重要,而以ChatGPT為代表的通用大語言模型,顯然已經為人形機器人打了一個樣兒。
ChatGPT當然可以直接應用到人形機器人上,這就能讓人形機器人在對我們這個真實世界的認知上,有一個極大的提升,人機交互能力也會有一個階躍式提升。
這也是為什么今年上半年,阿里、百度分別將通用大語言模型首先加載到了旗下天貓精靈、小度智能音箱上,這也或將是我們真正走出弱人工智能的第一步。
不過,人形機器人,目前當務之急,還是將運動能力提上去,如果以人類運動能力為標準的話,至少要讓人形機器人能先達到及格線以上。
是的,現在市面上大家能看到的人形機器人,即便是最基本的運動能力,仍處在及格線以下(不是說人形機器人的運動能力差,實在是人類運動能力太強了),這是當下行業的一個普遍共識。
而據鋅產業了解,現在已經有機器人公司在通過ChatGPT提升人形機器人運動能力,例如優必選就已經在用類ChatGPT大模型做運動規劃,通過大模型做長序列、長周期的動作序列拆解。
通過大模型做人形機器人的運動規劃的好處是,可以提升機器人在動作執行過程中的決策和規劃能力。
這其中體現大模型通用性的,是一個被稱作“泛化”的能力。
我是在清華大學交叉信息研究院助理教授許華哲的演講中了解的這個概念,他用機器人切豆腐為例解釋了泛化能力對于具身智能的重要性:
一臺機器人學會用一把刀切豆腐后,當這把刀的顏色、姿態、位置無論怎樣變化,這臺機器人都能識別出這把刀,并完成切豆腐這個任務,這就是泛化能力的體現。
如果人形機器人在運動規劃上也有了這樣的泛化能力,那么,理論上,人形機器人只要學會在一種地形上走路,就能夠自己學會在全地形場景下自由行走。
也就是說,走路就成了人形機器人的一個目標,人形機器人只要在一個環境下實現了這個目標,就能夠在所有環境中自適應完成目標。
這時,機器人就從程序執行導向,轉向為目標完成導向。
這樣的人形機器人也就有了感知運動智能,甚至有了一定的認知能力,人形機器人由此也就完成了一次高維進化。
具備泛化能力,正是人形機器人成為通用機器人的第一步。
04
人形機器人的N種可能
首先說一個我自己的判斷:
無論是否有被冠以“通用”二字,人形機器人本質上就是一類擁有通用能力的機器人。
如果不是為了做通用機器人,完全沒有必要做成人形。
在自動化能力更高的倉儲系統中,AGV效率本就更高;在汽車總裝車間里,機械臂效率也已經很高。
如果追求極致高效,應用于這些場景中的機器人完全沒有必要做成人形。
所以,這幾年陸續出現的人形機器人,某種意義上,都可以被認為是通用人形機器人。
但人形機器人在實際應用時,會率先在哪些場景落地?
我們現在能夠看到的是,特斯拉正在嘗試將人形機器人應用于工廠中,前不久發布了人形機器人的傅利葉智能本就是醫療康養機器人領域的明星企業,養老、助老也就成了人形機器人落地場景之一。
顯然,制造工廠、醫療康養,已經成了如今人形機器人兩個黃金賽道。
如果再往長遠來看,就像大模型在各個行業中都已經裂變出了行業大模型一樣,搭載行業大模型的人形機器人,也會隨之進入各個行業。
不過,這其中還有兩個關鍵難題需要解決:
一個是硬件難題,關鍵零部件的技術突破,將成為擁有優秀的運動能力的平臺級人形機器人成形的關鍵;
我們看到,國內越來越多硬科技團隊涌入人形機器人這一賽道中,但是人形機器人的關鍵零部件仍需進一步突破,才能支撐起一個通用人形機器人平臺的成形。
以電機為例,目前,電機扭矩密度做得最高的是MIT和UCLA做的電機,已經能實現38N.m/kg的扭矩密度,但這尚不足以支撐一臺標準體重的成年男人自由彈跳或奔跑。
一個是軟件難題,人形機器人現在還沒有足夠的場景數據,來在某個場景中訓練出一個通用人工智能大模型,讓人形機器人基于此進行自我進化。
前文提到,以ChatGPT為代表的通用人工智能本身追求的是暴力美學,需要大量樣本數據來訓練,才能形成具備通用知識的理解、分析、決策能力的通用人工智能大模型。
對于人形機器人而言,由于尚且沒有得到批量化應用的場景,也就沒有這么多直接的場景數據。
例如在工業場景中,由于此前并沒有人形機器人直接參與,相應的運行數據自然也就無從談起,可以用于人形機器人訓練的場景數據,更多是來自空間位置數據、機械臂及制造設備的運行數據,以及工人的工作日志等。
不過,清華大學鄧志東教授也指出,大模型+思維鏈等提示詞工程,可以實現零樣本學習,這將推動智能機器人的產業落地。
總體而言,人形機器人發展道路上依然有諸多困難。
不同的是,我們現在已經清晰地看到了一條路,一條在三年、五年內有可能跑出通用人形機器人平臺,甚至在某些特定場景中跑出人形機器人產品的路。
就在五年前,整個行業的判斷還是要十年、二十年,乃至更長時間才能到來。
這就是當下這個時代,一個讓機器人團隊再次興奮起來的時代。