48271 向量數(shù)據(jù)庫這杯“啤酒”與“泡沫”

热re99久久精品国99热-亚洲 中文 欧美 日韩 在线-99久久精品无码一区二区毛片-97久久精品亚洲中文字幕无码

服務(wù)熱線:400-858-9000 咨詢/投訴熱線:18658148790
國內(nèi)專業(yè)的一站式創(chuàng)業(yè)服務(wù)平臺
向量數(shù)據(jù)庫這杯“啤酒”與“泡沫”
2023/07/28
和AI、大模型一樣,向量數(shù)據(jù)庫要品出味道,離不開時間的窖藏和醞釀。
本文來自于微信公眾號“腦極體”(ID:unity007),投融界經(jīng)授權(quán)發(fā)布。

就像啤酒注定要有泡沫,每一場淘金熱都不缺被捧上了時代風(fēng)口的人。

大模型這一波熱潮中,向量數(shù)據(jù)庫就是那個幸運(yùn)兒。

一方面,技術(shù)層面并沒有太大突破。向量數(shù)據(jù)庫并不是一種特別新的數(shù)據(jù)庫技術(shù),在AI領(lǐng)域已經(jīng)應(yīng)用了七八年,谷歌在2015年就宣布使用RankBrain語義檢索來處理搜索任務(wù)。相比N家的卡、液冷的算、全光的網(wǎng)、升級的存,向量數(shù)據(jù)庫在技術(shù)方面并沒有特別亮眼的突破。

而另一方面,向量數(shù)據(jù)庫的投資熱潮又特別旺盛。在上半年成了創(chuàng)業(yè)公司、云計(jì)算廠商、老牌數(shù)據(jù)庫公司,以及投資人們“群起而攻之”的風(fēng)口,Pinecone、Chroma和Weviate等向量數(shù)據(jù)庫初創(chuàng)公司都獲得了融資,有的融資額高達(dá)上億美元。這在全球經(jīng)濟(jì)不明朗的投資形勢下,還是非常亮眼的成績。

不同于GPU卡那樣短期內(nèi)需求堅(jiān)挺、供不應(yīng)求,加上摩爾定律的約束,即使有泡沫,也是鐵做的。也不同于存算網(wǎng)這類“新基建”,長期投入的戰(zhàn)略價(jià)值,得到了廟堂和民間的一致重視。

向量數(shù)據(jù)庫這杯“啤酒”與“泡沫”

向量數(shù)據(jù)庫,更多是作為一種AI基礎(chǔ)技術(shù)和產(chǎn)品,開始為大眾所知曉。

僅憑這樣,就在投資市場上一飛沖天,多少有點(diǎn)讓人不安。加上最近,大訓(xùn)模型的熱度開始降溫,ChatGPT訪問量下降,更多大模型已經(jīng)到地里田間礦井“干活兒”去了。

不禁讓人好奇,隨著大模型的風(fēng)口下沉,向量數(shù)據(jù)庫的投資概念還能飛多久,會不會倏忽而來,倏忽而去,留下喝了“一嘴泡沫”的公司和投資人,在風(fēng)中凌亂呢?

我們就來好好品一品,這一杯啤酒和泡沫。

技術(shù)的啤酒

訓(xùn)大模型、用大模型,離不開一系列AI基礎(chǔ)設(shè)施,所以,作為基礎(chǔ)設(shè)施之一的向量數(shù)據(jù)庫,確實(shí)有點(diǎn)東西。引入向量數(shù)據(jù)庫,是能喝到真材實(shí)料的“啤酒”的。

這就有必要先說說這個技術(shù)本身。

數(shù)據(jù)庫不用多說,是必不可少的IT基礎(chǔ)設(shè)施,用于存儲和查詢各種數(shù)據(jù),可以看作是數(shù)據(jù)的“硬盤”。那么,向量數(shù)據(jù)庫就是更適合AI體質(zhì)的“硬盤”,有幾個特質(zhì)來說明這一點(diǎn):

1.必要性。

向量數(shù)據(jù)庫,顧名思義就是專門用于存儲和管理向量數(shù)據(jù)。作為一種數(shù)據(jù)結(jié)構(gòu),每個向量都包含多個維度,每個維度代表不同的特征或?qū)傩?,比如圖像的顏色、文本詞匯的出現(xiàn)頻率等。而AI算法,要從圖像、音頻和文本等海量的非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí),提取出以向量為表示形式的“特征”,以便模型能夠理解和處理。因此,向量數(shù)據(jù)庫比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,更適合AI應(yīng)用。

向量數(shù)據(jù)庫這杯“啤酒”與“泡沫”

2.高效率。

每個元素都有一個索引,便于訪問或修改數(shù)值。基于此,向量數(shù)據(jù)庫可以通過將分組和索引,快速找到與給定查詢最接近的嵌入,實(shí)現(xiàn)高效的相似性搜索,同時減少存儲和計(jì)算成本。

相比傳統(tǒng)單機(jī)插件式數(shù)據(jù)庫,向量數(shù)據(jù)庫的檢索規(guī)模可以提升十倍,支持百萬級每秒查詢(QPS)的峰值能力,同時延遲控制在毫秒級。

想象一下,如果沒有高效的搜索技術(shù)支持,一個大語言模型動輒數(shù)十億、上百億參數(shù),只能處理有限數(shù)量的輸入數(shù)據(jù),無法搜索更大的數(shù)據(jù)庫,那么在AIGC、搜索、廣告推薦算法等任務(wù)的性能表現(xiàn)就會受限。

一個公開數(shù)據(jù)是,通過使用云向量數(shù)據(jù)庫,QQ音樂人均聽歌時長提升3.2%;騰訊視頻有效曝光人均時長提升1.74%;QQ瀏覽器成本降低37.9%,這些數(shù)據(jù)的變化就在于檢索效率、運(yùn)行穩(wěn)定性、運(yùn)營效率、推薦算法等有了較大的提升。

3.需求大。

隨著產(chǎn)業(yè)智能化的加速,以及大模型和其他AI應(yīng)用的爆發(fā),各行各業(yè)的AI用例不斷增多,由此帶來了洶涌的數(shù)據(jù)洪潮和存算任務(wù),向量數(shù)據(jù)庫嵌入向量的長度不受限制,具有良好的擴(kuò)展性,可以根據(jù)AI用例和模型而變化,更好地處理大規(guī)模數(shù)據(jù)集。

而且,向量數(shù)據(jù)庫可以拓展大模型的時間邊界和空間邊界,讓大模型在訓(xùn)練完成后,也可以訪問向量數(shù)據(jù)庫的最新信息,了解最近發(fā)生的事情。

總的來說,向量數(shù)據(jù)庫就是更適合AI體質(zhì)的數(shù)據(jù)庫,在AI任務(wù)上效果拔群,在機(jī)器學(xué)習(xí)領(lǐng)域中日益流行。

那么問題來了,一些在AI領(lǐng)域積淀已久的科技大廠,如谷歌、微軟、Mate以及BAT等大廠,都有向量數(shù)據(jù)庫的技術(shù)積累,也都可以向外輸出相關(guān)能力和產(chǎn)品。此外,一些基于開源技術(shù)的數(shù)據(jù)庫創(chuàng)業(yè)公司,如Pinecone、Weaviate、Odrant、Chroma近年來打開了市場知名度。

可以說,市場上并不缺乏向量數(shù)據(jù)庫的產(chǎn)品和解決方案。那么2023年,這杯技術(shù)啤酒,是怎么咕嘟咕嘟冒出泡沫的呢?

向量數(shù)據(jù)庫這杯“啤酒”與“泡沫”

浪潮之巔的泡沫

向量數(shù)據(jù)庫的市場現(xiàn)狀,說是“從0到1”,并不為過。

首先,大眾市場的認(rèn)知度才剛剛打開。

此前,向量數(shù)據(jù)庫更多是AI企業(yè)在使用,今年才開始為大眾所熟知,這離不開一些AI相關(guān)企業(yè)的推波助瀾。今年3月的NVIDIAGTC大會上,黃仁勛首次提及向量數(shù)據(jù)庫,強(qiáng)調(diào)向量數(shù)據(jù)庫對大語言模型的重要性。

不是所有企業(yè)都有能力自建大模型所需要的基礎(chǔ)設(shè)施,通過MaaS(模型即服務(wù))業(yè)務(wù)來訓(xùn)練應(yīng)用大模型是更靈活的選擇,這就要求云廠商提供全?;A(chǔ)設(shè)施。

百度、京東、騰訊、華為等,都在自家的大模型完整基礎(chǔ)設(shè)施中,提到了向量數(shù)據(jù)庫。目前,云廠商的MaaS業(yè)務(wù)才剛剛開始走向市場,大模型的產(chǎn)業(yè)落地不是一蹴而就的,向量數(shù)據(jù)庫的接受度和規(guī)模究竟有多大,還是個未知數(shù)。

第二,向量數(shù)據(jù)庫的技術(shù),還沒經(jīng)歷“卷生卷死”的迭代。

Pinecone是閉源的領(lǐng)跑者,其他競爭者要么是開源的,比如Weviate,要么是巨頭,包括頭部云廠商和甲骨文、IBM等老牌數(shù)據(jù)庫廠商,開始構(gòu)建AI數(shù)據(jù)庫的產(chǎn)品和解決方案。

大廠扎堆競技,這意味著,如果技術(shù)沒有大的突破,就會陷入高密度的同質(zhì)化競爭,從藍(lán)??焖龠M(jìn)入紅海。而如果技術(shù)有顛覆式變革,很多技術(shù)壁壘不高、客戶認(rèn)知不強(qiáng)的新入局創(chuàng)業(yè)者,很難跟開源生態(tài)或技術(shù)巨頭PK,容易被大浪淘沙。

最后,向量數(shù)據(jù)庫的成本,還沒有降到“可規(guī)模復(fù)制”的程度。

無論是自建向量數(shù)據(jù)庫,還是通過MaaS服務(wù)接入,都還達(dá)不到“付費(fèi)可用”的程度。一般來說,企業(yè)需要先將非結(jié)構(gòu)化的私密數(shù)據(jù)進(jìn)行向量化,產(chǎn)生一個向量的矩陣,再存儲到向量數(shù)據(jù)庫里,來供大模型學(xué)習(xí)和檢索。這個過程涉及到大量的工程化,會耗費(fèi)企業(yè)許多開發(fā)人員、時間成本。

這就需要云廠商或數(shù)據(jù)庫廠商,提供全鏈路的工具,來幫助企業(yè)完成整個數(shù)據(jù)向量化、大模型接入的工作,以及減少后續(xù)運(yùn)維的難度。比如Pinecone就憑借良好的開箱即用的產(chǎn)品體驗(yàn),獲得了非常大的增長,B輪估值達(dá)到7.5億美元。

谷歌云、騰訊云、京東云等也都基于內(nèi)部應(yīng)用的多年積累,推出了一系列面向外部的工具、框架和應(yīng)用。但只是邁出了從無到有的第一步,真正成熟還需要讓各家“卷起來”。

可以看到,現(xiàn)在這個階段,熱捧向量數(shù)據(jù)庫,確實(shí)有AIGC、大模型、云服務(wù)等多方面的現(xiàn)實(shí)需求,但從“概念普及”到“真正可用”之間,還有不短的距離。這之間的地帶,就是泡沫生長的地方。

江湖路遠(yuǎn),風(fēng)高浪急,沒有想清楚的創(chuàng)業(yè)公司或行業(yè)用戶,還是別貿(mào)然“帶資進(jìn)組”了。

啜飲時代的精釀

如果你是數(shù)據(jù)庫廠商,或者是著急布局大模型和AI應(yīng)用的企業(yè),希望早點(diǎn)將啤酒喝到嘴里,怎么辦呢?

篤定遠(yuǎn)一點(diǎn)的未來,有些賽道的泡沫比例是相對少的,需求格外旺盛。

市場方面,國產(chǎn)化替代是不錯的選擇。

科技博弈背景下,加上我國數(shù)據(jù)庫產(chǎn)業(yè)的日益繁榮和技術(shù)突破,金融、電信、能源、交通等關(guān)鍵基礎(chǔ)行業(yè)的企業(yè),在數(shù)據(jù)庫選型時,都開始傾向于國產(chǎn),以保障數(shù)據(jù)的穩(wěn)定性和安全性。

國外廠商在向量數(shù)據(jù)庫上有著更早的探索和積累,國產(chǎn)數(shù)據(jù)庫要補(bǔ)齊短板是需要時間的。

目前,BATH這類實(shí)力較強(qiáng)的國內(nèi)科技企業(yè),沉淀了向量數(shù)據(jù)庫的核心自主技術(shù),與其合作研發(fā)和定制化開發(fā),針對某些具體場景,提供特定優(yōu)化的向量數(shù)據(jù)庫產(chǎn)品,加入國產(chǎn)化替代的賽道是成本更低、風(fēng)險(xiǎn)更可控、市場需求明確的選擇。

策略方面,加入云生態(tài)不要獨(dú)行。

鑒于向量數(shù)據(jù)庫的商業(yè)化前景還不明朗,有業(yè)內(nèi)人士表示,與其投資新的向量數(shù)據(jù)庫項(xiàng)目,還不如關(guān)注現(xiàn)有數(shù)據(jù)庫中,有哪些加上向量引擎可以變得更加強(qiáng)大。

云數(shù)據(jù)庫就是其中之一,上云用數(shù)賦智是大勢所趨,很多政企客戶往往會選擇公有云或行業(yè)云來滿足其業(yè)務(wù)需求,將數(shù)據(jù)遷移到云上,對云數(shù)據(jù)庫的關(guān)注度和接受度上升。

騰訊云、華為云等大型云廠商,具有較高的品牌認(rèn)知度和市場接受度,具有云原生、AI原生的技術(shù)棧和產(chǎn)品體系,經(jīng)歷了海量場景的淬煉和深度優(yōu)化,和這類云生態(tài)一起掘金向量數(shù)據(jù)庫,是更穩(wěn)妥的方式。

和AI、大模型一樣,向量數(shù)據(jù)庫要品出味道,離不開時間的窖藏和醞釀。是在大訓(xùn)模型的熱度下降后,像泡沫一樣湮滅,還是作為啤酒精釀沉淀下去,等待成為下一代數(shù)字基礎(chǔ)設(shè)施的剛需,被行業(yè)客戶所啜飲,是留給數(shù)據(jù)庫玩家和買家的選擇題。

AI 大模型 數(shù)據(jù)庫
評論
還可輸入300個字
專欄介紹
腦極體
43篇文章
你的困惑,來自于無路貼近未知。我們在技術(shù)、思想、傳播的異界,販來極限腦量下的TMT。
+關(guān)注
400-858-9000
免費(fèi)服務(wù)熱線
kefu@trjcn.com
郵箱
09:00--20:00
服務(wù)時間
18658148790
投訴電話
投融界App下載
官方微信公眾號
官方微信小程序
Copyright ? 2024 浙江投融界科技有限公司(m.lezhaigou.com) 版權(quán)所有 | ICP經(jīng)營許可證:浙B2-20190547 | 浙ICP備10204252號-1 | 浙公網(wǎng)安備33010602000759號
地址:浙江省杭州市西湖區(qū)留下街道西溪路740號7號樓301室
浙江投融界科技有限公司trjcn.com版權(quán)所有 | 用戶協(xié)議 | 隱私條款 | 用戶權(quán)限
應(yīng)用版本:V2.7.8 | 更新日期:2022-01-21
 安全聯(lián)盟
在線客服
手機(jī)APP
微信訂閱
主站蜘蛛池模板: 亚洲av无码一区二区三区在线| 亚洲欧美不卡高清在线| 特级无码毛片免费视频尤物| 奶头又大又白喷奶水av| 亚洲av成人网站在线观看| 内射人妻视频国内| 亚洲一区二区观看播放| 少妇一晚三次一区二区三区| 越南丰满bbwbbw| 亚洲国产成人综合精品| 国产激情无码视频在线播放性色| 日韩一区国产二区欧美三区| 波多野结衣久久精品99e| 人妻人人澡人人添人人爽人人玩| 国产又黄又硬又湿又黄的| jizzjizz亚洲日本少妇| 亚洲av色香蕉一区二区三区蜜桃| 欧美老人与小伙子性生交| 国产在线观看香蕉视频| 欧美老妇牲交videos| 精品人人妻人人澡人人爽牛牛| 我国产码在线观看av哈哈哈网站 | 久久久久久久亚洲av无码| 熟妇高潮一区二区三区| 插b内射18免费视频| 成人午夜福利视频| 乱码午夜-极品国产内射| 亚洲成av人片不卡无码| 亚洲国产精品悠悠久久琪琪| 日韩国产成人精品视频| 国产三级a三级三级| 国产寡妇树林野战在线播放| 九九视频在线观看视频6| 国产裸体歌舞一区二区| 又白又嫩毛又多15p| 欧美丰满老熟妇aaaa片| 伊人久久大香线蕉av一区二区| 99国产欧美久久久精品蜜芽| 国产成人av片免费| 草草影院发布页| 野狼第一精品社区|