數據庫作為關鍵 PaaS 能力,一直順應業務和技術發展,不停變更和創新。大模型的興起,對數據庫也有深刻的影響,包括通過大模型賦能的 SQL 改寫,智能診斷,問答等一系列能力。同時數據庫承擔基礎數據管理的作用,數據庫技術如向量數據庫,對解決大模型一些幻覺等也起到關鍵的作用。大模型和數據庫技術相互成就,數據庫技術在過去的一年內取得非常大的創新和發展,介紹這塊關鍵技術的發展,相信可以幫助到感興趣的從業人士以及觀眾朋友。
在2024 年 6 月 14-15 日舉辦的 ArchSummit 全球架構師峰會深圳站上,我們邀請到了百度數據庫產品總架構師朱潔老師來分享數據庫和 AI 的發展史以及最新現狀,以及百度在數據庫和 AI 結合上的關鍵進展以及實際案例。在會議召開前,我們采訪了朱潔老師,幫助讀者提前了解到相關的技術落地細節。
InfoQ:您如何看待大模型時代對數據庫技術創新的挑戰和機遇?對數據庫技術的影響主要體現在哪些方面?
朱潔: 大模型對數據庫技術帶來的機遇是遠大于挑戰的。傳統數據庫技術或者大數據技術處理的還是以結構化數據為主,或者要把非結構化數據先預處理成結構化數據才好處理。但事實上,非結構化數據才是最自然,體量最大的數據。大模型技術讓非結構化數據有新的處理方法,放大非結構數據的價值,因此也帶來了底層數據庫更多的發揮空間。
大模型對數據庫的影響主要可以從兩個方面看,一個是 DB4AI,主要是向量數據庫技術。通過向量數據庫解決大模型知識更新不及時,幻覺問題,以及缺乏企業內部知識,也無法進行細粒度安全管理等問題。另一個是 AI4DB,通用大模型技術對數據庫本身進行優化,主要方向包括數據庫自動運維,SQL 生成,SQL 優化,智能問答等等。
總的來說,數據庫和大模型肯定是相輔相成,數據庫技術在大模型時代有了更大的想象空間。
InfoQ:在大模型的興起背景下,數據庫技術如何適應和應對新的數據處理需求?
朱潔: 大模型技術讓非結構化數據有了新的應用空間,數據庫變化比較大的是對文本等非結構化數據處理,以及未來甚至圖片,視頻等多模的數據。
目前這塊發展很快,主要包括文本拆分,怎么 Embedding 多模數據,怎么實現多路召回,以及向量引擎通過 GPU ,以及更好數據組織模式來實現高性價比等。
InfoQ:在數據庫行業的技術發展中,大模型技術與人工智能的相互作用是如何發揮作用的?
朱潔: 大模型屬于人工智能領域的一個重要組成部分。現在一般說大模型是指生成式 AI 技術(GenAI)。
在數據庫領域一直使用 AI 技術,傳統上主要是一些預測算法,分類算法這些,解決比如運維的問題。大模型誕生之后,在代碼生成,知識處理方面相比傳統 AI 技術有了革命性提升,但是在一些傳統系統運維,調優方面還是傳統算法實現更簡單,效率更高。
因此大模型技術更多的是在原來的技術的基礎上更深入的解決原來不好解決的代碼生成,知識管理等。對原有技術是一個非常大的補充,提升和擴展。
InfoQ:您能分享一些數據庫和人工智能領域的創新案例,特別是在大模型時代的實際應用?
朱潔: 這塊的技術發展很快,各個廠家都在進行相應的嘗試和布局。當前比較創新的數據庫和大模型結合的案例和應用有:
智能問答:通過大模型技術解決數據庫運維問題,DBA 值班等。
代碼生成 & 翻譯:自然語言到 SQL(NL2SQL),或者把一種 SQL 翻譯成另外一種,典型的 Oracle 翻譯成 MySQL 之類。
SQL 優化:改寫、注釋、糾錯、解釋,補全
智能問數:自然語言詢問,內部通過大模型轉成 SQL,查詢出結果,然后大模型再總結以報表,報告形式展示出來。
InfoQ:作為百度智能云數據庫產品總架構師,您如何看待數據庫和人工智能的結合,在實際業務中取得的關鍵進展?
朱潔: 首先我們的大模型在業界有領先優勢,其次是百度智能云在這方面布局很早,也很全。因此我們目前在這塊很有競爭力。我們介紹幾個最新的關鍵的成果:
發布了 VectorDB 1.0,向量數據庫是企業不可或缺的知識庫核心組件,它針對傳統知識庫問答系統遇到的性能瓶頸、維護挑戰及規模限制等問題提供了有力解決方案。全新發布的百度向量數據庫 VectorDB 1.0,不僅集成了全面的運維控制和安全防護能力,還兼容了千帆、LangChain 等主流生態系統,能夠幫助企業輕松管理數以千萬計的文檔知識,最大支持百億向量存儲規模以及毫秒級的向量檢索速度。同時,相比同類型開源產品,VectorDB 1.0 性能最高提升 10 倍。
發布了數據庫智能駕駛艙(Database Smart Cockpit,DBSC),這個服務是利用大模型技術解決數據庫運維,安全,智能問答的能力。通過內置的百度文心大模型能力,再加上百度積累的數據庫運維知識庫等,幫助用戶回答云原生數據庫 GaiaDB、MySQL、Redis 等數據庫產品的各種使用場景復雜問題,以及顯著降低異常問題定位時間,以及提升 SQL 優化效率等。目前這個服務在百度內部已經成功幫助 DBA 團隊降低超過 50% 的運維工作量。