1993年4月5日,黃仁勛這天剛好滿30歲,和普里姆以及馬拉喬夫斯基三人,在加州圣何塞一家連鎖餐廳里討論著創業成立公司的事。
這家丹尼餐廳位于一座立交橋旁邊,環境吵鬧同時裝修簡陋,店鋪的前臉布滿了彈孔,因為路過的社會人經常朝停在門前的警車開槍。三個創始人此時正拿雞蛋卷裹香腸片,就著劣質焦咖啡,英偉達就在這樣的環境下誕生了。
黃仁勛出生在臺南囝仔,今天從這個地方往東北方向不到20公里,就是臺積電的第十八晶圓廠。
這個生產基地2017年底開工建設,預計到今年的總投資額將超過1000億美元,是臺積電最昂貴的晶圓廠,其最先進的5納米和3納米制程在這落地。無論是英偉達的RTX4000系列游戲顯卡,還是當下一卡難求的H100,都在這里完成從硅到芯片的關鍵轉化。兩家公司相互成就,如今共同掌握著尖頂星科技,市值合計1.5萬億美元。
從成立之日算起,黃仁勛在英偉達CEO位置上干了整整三十年。論敬業程度,硅谷同行里大概少有人能出其右。
在硅谷敘事模式里,這里成功的科技公司通常在年輕創始人帶領下迅速成長為世界巨頭,或者已經成為世界巨頭的公司因為跟不上形勢而快速沒落,又或者沒落后又再次憑借某個拳頭產品重新變得偉大。總之來來回回,興也勃焉亡也忽焉,核心就是一個快字。
以這樣的視角打量,英偉達顯然不太一樣。除了在最初創業時差點“暴斃”,英偉達在長達二十年的時間里活得相當寧靜,談不上驚艷但也沒遭遇大災大難。
直到最近幾年,英偉達突然開掛爆種,從人工智能到加密貨幣,從元宇宙到ChatGPT,不是英偉達在追風口,而更像是風口失了智般往英偉達身上撞。
作為總設計師,黃仁勛本人顯然不會認可這種說法。在他那里,英偉達的故事應該是關于技術理解、商業遠見和長期主義的絕佳范例。
頂多再加一點小小的運氣。
01、東亞的風瞇了黃仁勛的眼
黃仁勛和另外兩個合伙人最終決定創業時,有著相當樸素但又同時觸及本質的思考。無論電影、電視或者印刷的書籍報紙,抑或是音樂,這些都是人類用來表達想法講述故事的媒介。
而當時正顯露雛形的3D圖像技術,憑借實時生成的畫面和互動性,將有可能成為下一種新的大眾媒介。
唯一的問題是此時的3D圖像任務,由于需要耗費極高的計算量,只有使用極其龐大的專業工作站才能完成。而黃仁勛和英偉達想要做的,就是把這項技術變得足夠便宜,然后普及它。
事實上,1993年英偉達成立的時候,它是第一家嘗試把3D圖像推向普通消費者的公司。不過首先做到這件事的公司并不是英偉達,索尼在一年零八個月后推出的初代PS游戲主機要成功得多,在推出九年后,這款主機出貨量突破了1億臺。
另一方面,英偉達前期的先發優勢很快就不復存在,短短兩年時間里極客遍地的硅谷就冒出了90家英偉達的競爭者。而在這兩年時間里,市場形勢已經發生了翻天覆地的變化,問題出在DRAM這個元器件上面。
從技術原理上說,圖像在計算機內部的存儲需要消耗相當大的空間資源。在未經壓縮的情況下,如今一張1080P的圖片含有超過兩百萬像素點(1920 × 1080),按照8比特的色深,每個像素點需要4個字節的存儲空間,所有像素點合計超過8M字節。而要產生動態連續的觀感,屏幕上顯示的圖像還需要保持每秒多次刷新。
盡管在30年前屏幕的顯示規格,無論是說分辨率還是色彩還沒有這么高,但存儲空間仍然是在算力之外3D圖像技術的關鍵瓶頸。在英偉達成立的1993年,DRAM內存的價格在50美元/MB這個水平,主流VGA顯示器的分辨率則是640*480。
即便使用當時最先進的解決方案,3D圖像顯示所需要的DRAM也得4MB,所以單單是這塊DRAM的成本就需要200美元。
加上板上的控制芯片和其他組件,再算上一定的利潤空間,最終這些產品的定價得要1000美元往上。雖然今天游戲玩家花大幾千或者上萬的價格買張顯卡還處在可以理解的范疇,但這是因為圍繞這張顯卡已經建立起了豐富的生態。而在30年前是沒有這么多所謂的3A大作的,消費級市場不會有人愿意花這么多錢買個電子元件回來當擺設。
所以黃仁勛他們圍繞DRAM搞了技術創新,使得英偉達產品需要的內存空間大大降低,從紅杉那里融到的1千萬美元很大部分也都花在了這個“遙遙領先”的解決方案上。黃仁勛本來以為這會給他們的產品帶來差異化的競爭力,但到創業的第二年,DRAM的價格就從單價50美元跌到了5美元。
這意味著英偉達前期瞄著內存優化做的巨大投入完全打了水漂。
后來的幾乎所有文章都把英偉達NV1這款產品的失敗,歸結到跟OpenGL路線的三角渲染模式不兼容上面,但實際上不兼容并不是NV1失敗的真正原因。給NV1造成致命打擊的,是內存價格暴跌把NV1從先進變成了不先進,而一款不先進的產品并沒有機會參與行業標準的塑造,最終的不兼容其實是結果而非原因。
DRAM價格暴跌的原因是供過于求,新產能的主要貢獻者是亞洲人。在九十年代,韓國和臺灣的經濟都出現了爆發性增長,兩家的經濟模式都是出口導向,支柱產業是電子和半導體。以韓國為例,在政府支持下,幾家財閥借助從銀行獲得的貸款大量進行資本開支,生產規模迅速擴張。僅韓國內存行業產能在1991到1995的短短幾年里就增長了8.3倍。
由于行業特性,內存晶圓廠需要保持很高的產能利用率才能攤平固定成本。內存廠商甚至會在明知供給遠超需求的情況下繼續生產,這進一步推低了產品價格。不過這些余波對黃仁勛而言已經不重要了,因為此刻的英偉達要拋掉過去另起新灶了。
02、英特爾不是對手,是黑洞
在NV1發布的兩年后,英偉達迎來了第一款成功的產品:RIVA128。RIVA128這塊產品標志著英偉達在技術路線上的重大轉向,英偉達徹底放棄了之前與行業不兼容的解決方案,選擇全面擁抱Direct3D和OpenGL的技術規范。
這個時候3Dfx公司生產的Voodoo顯卡已經成為行業標桿,而剛推出的RIVA128由于驅動問題在圖像質量上跟Voodoo有明顯差距。
不過英偉達通過后續的固件更新,很快使RIVA128輸出的圖像畫質趕上甚至超越Voodoo。在這種情況下,RIVA128兩個設計優勢就體現了出來。
一方面,大概是前期走自主路線累積的技術基礎,英偉達在RIVA128上通過特殊的內存架構設計,使得其能夠輸出更高分辨率的圖像。另一方面,跟Voodoo顯卡不同,RIVA128同時集成了2D和3D圖形芯片,這使得插RIVA128的電腦不需要一張單獨的2D顯卡來處理輸出。
接下來的時間里,RIVA128及其改款產品幫助英偉達在顯卡市場站穩了腳跟。1999年,英偉達發布了第一款GeForce系列產品:GeForce256。盡管在這之前其實已經有了類似的概念,但英偉達仍然把GeForce256稱之為“世界上第一款GPU”,GPU這個新潮的詞匯走向大眾化也是從這開始的。
GeForce256的確算得上是一張劃時代的GPU,它第一次把多邊形轉換與光源處理(T&L)相關的幾何計算從CPU肩上解放了出來。
這里我們不妨對芯片特點做個簡單的科普。所有的芯片大致可以分成兩個類型,通才和專才。通才類型的芯片就是CPU,它們是不折不扣的多面手,能夠執行各種通用普遍的計算任務。而GPU則更接近專才,它們就像精通某項技藝的大國工匠,擅長于把聚焦范圍內的任務做到極致。
而芯片行業歷史上的一個大趨勢,就是由于摩爾定律的存在,CPU能做的事情越來越多,性能也越來越強。這就導致很多計算任務開始是由專有設備完成的,但當這些任務變得普遍同時又趨于穩定的時候,把它們集成進CPU就是水到渠成的轉折。
這個過程中,CPU廠商加強了產品競爭力,消費者因為集成獲得了性價比,只有原來這些專有廠商被掃進了歷史的垃圾堆:通才型芯片像個黑洞一樣,把專才芯片吸納進去。
比如,密碼學作為現代網絡通信的關鍵基礎設施,初期就是靠單獨的集成電路實現的,后來變成了CPU的幾條指令。其他像音頻卡、視頻卡之類的產品,也都重復了類似的發展路徑。
在這個背景下,再來看GeForce256將T&L計算任務從CPU那里拿過來的操作,就有了非同一般的象征意義。因為從行業發展方向來說,這是跟我們上面描述的“通才吸納專才”這個過程完全相反的動作。
作為芯片行業一個剛剛起步的玩家,在看到那些同行前赴后繼的悲慘命運過后,黃仁勛明白只有創造獨特價值,企業才有長期存在的可能。
幸運的是,跟密碼學或者普通的音視頻解碼相比,3D圖像領域有著高得多的天花板。普通用戶總是在期待畫面質量更加精致,圖像刷新速率更高,這帶來了對GPU性能的追求。而反過來當GPU對現有需求進行回應后,又會再度激發新的需求,這構成了長期維持的正向循環激勵。
直到現在,最旗艦GPU往往也只是剛好滿足最苛刻3A游戲的性能需求。同時,像元宇宙這類新的應用前景,已經因為觸及現有的算力瓶頸而難以到達。
所以現實的情況總是,即便核顯達到了幾年前獨立GPU的性能,英偉達新的GPU又與之拉開了顯著的差距。對英特爾而言,在很長一段時間里它其實算不上英偉達的對手,因為它并不想進入并主導GPU這個行業,而是在等待吞并并消滅這個行業,就像它曾經多次做到的那樣。
03、漫長季節里長出的CUDA
到目前為止的30年里,除了創立初期那段時間,此后的英偉達幾乎再也沒有遇到過生死存亡的危急時刻。在把昔日巨頭3Dfx收入囊中過后,GPU行業進入了英偉達/ATI寡頭壟斷時代。隨后十幾年里英偉達的市場份額穩步提升,但整體營收則在2008年達到40億美元過后,緩慢振蕩提升,最終在2016年才艱難到達50億美元的里程碑。
與之對應的是,在2016年之前,英偉達的股價保持在10美元以下的區間隨業績表現浮動。這是一段漫長的季節,過程中黃仁勛帶領同事做了辛勤的嘗試,英偉達龐大帝國的地基在此期間悄然建立。
我們在上個部分曾經談過,為了避免被集成,造GPU的英偉達需要跑得比造CPU的英特爾更快。這個目標是通過造更強大的芯片,同時向開發者群體提供更多能有效利用這些強大芯片的工具棧來實現的。
這個群體里比例最大的一部分是游戲開發者,所以英偉達發明了可編程著色器(programmable shader)這樣的技術,來使得游戲開發在畫面呈現上有更多的靈活度和特色。
黃仁勛本人把可編程著色器視為英偉達史上最關鍵的創新之一,它擴張了行業邊界,也正是這項技術使GPU能夠消耗掉越來越多的晶體管和算力,也就避免了被CPU或者主板上的芯片組集成吞并。
但黃仁勛的技術遠見在于,他不只是帶著英偉達沿著計算圖形這條路走到底,還很早就看到了GPU和CPU在計算范式上的本質區別,并以極大的耐心和勇氣為此做了充分的準備。
人們在進入千禧年后不久,其實就已經發現摩爾定律在逐步失效,因而多核CPU漸成趨勢。發展到今天,頂級的消費級CPU已經堆到16個物理核心,服務器CPU甚至有高達128個物理核心,因此面向CPU的多線程并行編程早已變得相當普遍。
但CPU的多核并行跟GPU出發點完全不同,多核CPU的出現更多是為應對單核性能難以繼續保持大幅提升的退而求其次,而GPU從一開始方法論就是把大問題分解成盡可能多的小問題,然后再用盡可能多的“弱”計算核心去解決這些小問題。
舉個例子,跟如今高端消費級CPU的16個核心相比,像4090這類高端的消費級GPU擁有超過16000個核心,千倍的量變顯然意味著質變。
以可編程著色器為代表的技術,只是上述模式在圖形計算領域的應用,將其進一步推而廣之至通用計算領域將有更廣闊的新世界,而英偉達打開這個新世界的鑰匙就是CUDA。
用黃仁勛的話說,第一步是“make graphics programmable”, 第二步則是“open up GPU for programmability for all kinds of things”。
在英偉達推出CUDA之前,GPU編程是件非常麻煩的事情,需要寫很多底層代碼。CUDA的易用性使得更廣泛的人群成為開發者,釋放出GPU這個計算平臺的潛力。但在英偉達的每張顯卡上都嵌入對CUDA的支持是種成本很高的做法,CUDA體系的研發和維護也都需要巨量的資源投入。
不過無論黃仁勛如何苦口婆心地闡述CUDA是項多么偉大的創新,華爾街的分析師們并不買賬,所以英偉達的股*長期保持在個位數美元的位置徘徊。站在今天往回看,當然會有人罵這群分析師身在寶山不識寶。不過分析師也有話說啊,畢竟這些年里科技公司吹過但沒實現的牛逼太多了。
04、失敗的Tegra,成功的Orin
2013年9月5日,雷軍在北京國家會議中心發布了第三代小米手機。黃仁勛當時作為特邀嘉賓,也來到了現場。當時小米還沒有PC產品線,黃仁勛來北京是為了給旗下的手機SoC站臺,小米3的移動版用的是英偉達Tegra4四核CPU。
盡管發布會上兩人談笑風生,但雷軍并沒有把寶全壓在英偉達上面,小米3的聯通和電信版都用的高通處理器。
這是英偉達進軍移動計算領域的高光時刻,也是黃仁勛當時為英偉達尋找的下個星辰大海。在智能手機浪潮興起后,黃仁勛認為移動計算領域的蓬勃需求將誘發一場革命,這最終甚至會反過來顛覆PC和服務器市場。
2011年初,黃仁勛接受科技媒體VentureBeat采訪時說到,Tegra系列芯片將會使英偉達的有效市場擴大6倍。
不過在說完這句話后,黃仁勛還順便跟了句諾基亞從塞班系統向Windows的轉型會是英偉達的“絕好機會”。除諾基亞之外,Tegra芯片的另一個關鍵客戶是摩托羅拉。旗下的安卓平板Motorola Xoom正是使用的Tegra2芯片。在蘋果的iPad2代500美元起售的情況下,Xoom這款平板的定價達到了800美元。
事后來看,這些細節大概已然預示了英偉達Tegra產品線進入移動芯片市場將遭受的失敗。
不過英偉達對Tegra的投入并非竹籃打水,頗有失之東隅收之桑榆的幸運感。在最終因為基帶問題徹底退出手機市場后,Tegra系列產品轉變了設計目標,從此前瞄準功耗和效率的表現調整到專注于性能。
典型的代表產品是Tegra X1,該款芯片被用在了任天堂的Switch游戲主機上面,被認為帶來了優質的畫面體驗。
更進一步的,研發Tegra系列芯片的過程中,英偉達積累了豐富的SoC開發經驗,這雖然最終沒能撬開移動市場,但卻幫助英偉達快速布局了智能汽車時代。在采用軟硬件全棧自研之前,特斯拉汽車上就搭載的Tegra X2芯片。
同時,當前高端智能汽車上標配的Orin芯片也是屬于Tegra這個系列。實際上,目前英偉達服務于駕駛輔助的“Nvidia Drive”和服務于嵌入式設備自動化的“Nvidia Jetson”都是基于Tegra系列芯片。
自動駕駛芯片是智能駕駛平臺的關鍵要素,在英偉達之外,高通和英特爾也對此雄心勃勃。不過就目前的形勢來說,英偉達仍然處于明顯領先的位置。
英特爾這邊,在以高額溢價支付153億美元收購Mobileye過后,雖然一舉跨進了汽車零部件供應商的第一陣營,但在高端產品性能上已被英偉達拉開差距。根據Mobileye向美國證監會SEC提交的文件,Mobileye的估值已從去年3月的500億美元大幅下滑至160億美元。而高通這邊,在以440億美元收購恩智浦的交易告吹后,主要聲量更多集中在以驍龍8155為代表的座艙芯片上面。
05、算法、硬件和彩票
愛迪生在1877年造出了世界上第一臺留聲機,隨后這項發明跟黑膠唱片一起,在那個年代的音樂愛好者群體里擴散開來。但愛迪生本人對這個現實感到沮喪和失望,因為他最初為留聲機設計的用途是記錄臨終之人的遺言。跟這個設想比起來,拿留聲機聽音樂這事就有點太low了。
在科技史上,這種不按劇本走的發明其實不少,另外一個較為著名的例子是輝瑞公司研發的心血管藥物西地那非。這種命運的奇特安排有時是一種捉弄,有時則被證明是一種幸運,就像英偉達一樣。
當然,這么說并不是要否定黃仁勛的技術眼光和商業才能,而是強調在個人奮斗的因素之外,也要考慮到歷史的行程。
黃仁勛當然一直知道在電子游戲之外,英偉達的GPU存在更多的潛力,從一種新的計算范式角度來理解GPU,將會帶來大得多的可能。但根據福布斯2016的一篇文章,他并沒有實際上預料到深度學習會成為GPU的爆發性應用。
深度學習的基礎性工作早在上個世紀就已經奠基完畢:反向傳播算法最早在1963年就已經提出,深度卷積神經網絡則是在1979年就存在了。但在中間這幾十年里,這些概念并沒有被發揚光大,直到我們有了足夠多的數據和充分的算力。
事實上,Google Brain一位叫做薩拉·胡克的研究員把深度學習通過現代GPU設備取得的進展稱之為中了“硬件彩票”。雖然薩拉那篇論文的核心觀點是想提醒公眾,如今在學術界和業界取得成功脫穎而出的研究想法,很大可能并不是因為這些想法本身在解決對應問題上優于其他失敗的idea,只是因為這類想法更符合現有的硬件環境。
她認為深度學習在GPU這類并行計算設備幫助下取得的成績,或許就是例子。但從薩拉的觀點中,我們顯然也可以反過來窺見一絲GPU最終被深度學習選中的偶然性。
今天我們談起深度學習的起源和英偉達的命運拐點時,總是繞不開的一個標志性事件,即2012年Hinton及他的博士生Krizhevsky和Sutskever參加ImageNet圖像識別大賽時,用卷積神經網絡把錯誤率從上年度的25%一舉降到了15%。而Krizhevsky等人在訓練神經網絡模型的時候,使用了兩張英偉達的GeForce游戲顯卡學習了120萬張圖片。
但Krizhevsky等人并不是第一個使用GPU來訓練深度神經網絡的學者。吳恩達的斯坦福團隊在2008年就寫了一篇《Large-scale Deep Unsupervised Learning using Graphics Processors》的論文,里面提到用GPU可以大幅加速神經網絡模型的學習過程。
然而直到2013年的英偉達GTC大會上,黃仁勛演講時的keynote里都基本沒有怎么提AI。要等到第二年的GTC,我們才會看到黃仁勛把人工智能領域看作英偉達最關鍵的業務。
這也說明黃仁勛并非一開始就推all in AI,而是在業界已然形成風氣后才做這件事。不過即便從這時間節點上來說,英偉達的動作也算相當早了。
當然,如之前所說,沒有精準預見AI會在多年后成為英偉達的帝國基座,并不影響黃仁勛的偉大。
某種程度上說,從最初沿著圖像計算這個方向的創新,到后來圍繞CUDA建立的技術生態,英偉達的布局注定將會長出驚艷的果實。黃仁勛沒有預料到這個果實具體會是什么,但他知道它一定會長出來。
最新的二季度財報顯示,英偉達本季營收達到了破紀錄的135.1億美元,同比增長101%。其中,最大貢獻為數據中心業務,當季業務收入為103.2億美元,同比增長171%,同創下歷史新高。即便在之前的業績指引里,已經預料到這個季度營收和利潤會爆,但管理層和華爾街都沒想到會爆的這么厲害。
自2021財年Q2數據中心營收超過游戲業務以來,前者日益成為英偉達業績的壓艙石。二季度數據中心業務收入占總收入的比例從去年同期的35%上升到了76%。
如果要提英偉達近幾年唯一經歷的一個挫敗,大概就是2020年對Arm公司的收購因監管原因告吹。
我們之前在第二部分里提到過,從芯片的分類來說,英特爾和英偉達分別處于通才和專才兩端。當下數據中心的發展趨勢是系統集成程度越來越高,越來越往SoC的方向發展,芯片公司需要整合CPU和GPU,就像蘋果在消費者業務里M系列芯片做的那樣。
而隨著數據中心業務對于兩家公司的重要性不斷提升,二者都在試圖彌補自身的短板。
英特爾一直都是做CPU的,它需要往專才的方向靠,所以過去幾年接連收購了Altera、Mobileye、Habana Labs等公司;而英偉達一直都是做GPU的,所以它需要往通才的方向靠,這構成了它收購Arm的基本邏輯。另外,從這個角度看,AMD由于在很早之前就收購了ATI,有著多年CPU和GPU兩方面的打螺絲經驗,所以理論上說它其實有些獨特的優勢。
當然,這樁收購案告吹的最大受害者可能是孫正義,即便他剛從Arm上市中回了波血。
當時軟銀因終止收購獲得的12.5億美元分手費,對于本來可能獲得的收益來說顯得不值一提。因為2020年的時候英偉達的收購要約是120億美元現金,加上215億美元的英偉達股*。如果按照最新市值計算,這筆交易的價值已經在千億美元規模。這樣看,孫正義愿景基金上個財年虧損的320億美元,或許都有機會找補回來。
06、寫在最后
英特爾的創始員工和第三任CEO安迪·格魯夫曾說過一句話,“成功引起自滿,自滿導致失敗,只有偏執狂才能生存”。
我們很難說這是否道出了英特爾錯失新浪潮的原因,但可以確定的是,黃仁勛的偏執是今天成就英偉達的關鍵。在商業和技術兩方面,他都稱得上是天才。
在目所能及的范圍內,當下的英偉達還沒有與之匹敵的對手。但萬億英偉達所昭示的簡單事實是,它正處在一條前途光明但又令人趨之若鶩的賽道上。谷歌亞馬遜微軟這些大廠都在嘗試自己設計的AI加速芯片,瞄準自動駕駛和其他AI算力的創業公司如雨后春筍,而已被甩在身后的AMD和英特爾更有充分的可能卷土重來。
黃仁勛仍需帶領英偉達的同志繼續保持謙虛謹慎、不驕不躁的作風。