筆者認為,人工智能本身代表新型生產力,是人類的發展方向;Web3與A的結合將使得Web3成為新時代的新型生產關系,成為組織未來人類社會,避免 AI 巨頭形成絕對壟斷的救贖之路。
作為一名長期奮戰在 Web3 一級投資一線,以及曾經的 AI研究者,寫一篇賽道 mapping,弟認為自己責無旁貸。
一、本文目標
為了更充分地理解 A,我們需要了解:
1.A的一些基礎概念如:什么是機器學習,為何需要大語言模型。
2.AI開發的步騾如:數據獲取,模型預訓練,模型fine tune,模型使用;都是在做什么。
3.一些新興方向如:外置知識庫,聯邦學習,ZKML,FHEML,promptlearning,能力神經元。
4.整個 A鏈條上對應 Web3 都有哪些項目。
5.對于整個 AI鏈條 什么環節具有比較大的價值 或者說容易出大項目。
在描述這些概念的時候,筆者會盡量不使用公式、定義,而是用打比方的方式進行描述。
本文盡可能覆蓋了較多的新名詞,筆者希望在讀者心里留下個印象,如果未來遇到,可以回來查其處于知識結構中的什么位置。
二、基礎概念
Part 1
當今咱們熟悉的 web3+ai項目,他們的技術是屬于人工智能 中的 機器學習 中的 神經網絡這一思路。
下面的這段主要界定清楚一些基礎概念:人工智能、機器學習、神經網絡、訓練、損失函數、梯度下降、強化學習、專家系統。
Part 2
人工智能
定義:人工智能是研究開發能夠模擬、延申、擴展人類智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能的研究目的是促使智能機器,會:聽,看,說,思考,學習,行動
我的定義:機器給的結果和人給的結果一樣,真假難辨(圖靈測試)
Part 3
專家系統
如果一件事 有明確的步驟、需要用到的知識:專家系統
Part 4
如果一件事 難以描述怎么做到:
1.有標注數據:機器學習,比如分析文本中的情感
例子:需要的訓練數據
配鑰匙師傅問我:”你配嗎”neutral
隔壁很壯的小王問我:”你配嗎“-negative
2.幾乎無標注數據:強化學習,比如 下棋
Part 5
神經網絡是怎么教會機器一個知識的
機器學習現在涉及的知識和范圍很廣,我們這里僅僅討論機器學習中最經典的套路,神經網絡。
神經網絡是怎么教會機器一個知識的呢?我們可以類比為我們:
如果想教會小狗如何在墊子上小便(經典案例,無不良指向)——(如果想教會機器一個知識)
方法1:如果狗狗在墊子小便則獎勵塊肉,如果不在則打屁股
方法2:如果狗狗在墊子小便則獎勵塊肉,如果不在則打屁股;而且距離墊子越遠,打得越狠(計算損失函數)
方法3:狗狗每走一步,就進行一次判定:
如果是朝向墊子走,則獎勵塊肉,如果不是朝向墊子走,則打屁股
(每進行一次訓練,計算一次損失函數)
方法4: 狗狗每走一步,就進行一次判定
如果是朝向墊子走,則獎勵塊肉,如果不是朝向墊
子走,則打屁股;
并且給狗狗在指向墊子的方向擺一塊肉,吸引狗狗往墊子走
(每進行一次訓練,計算一次損失函數,之后向著能最好降低損失函數的方向,進行梯度下降)
Part 6
為什么最近十年神經網絡突飛猛進?
因為最近十年人類在 算力、數據、算法上突飛猛進。
算力:神經網絡其實上個世紀就被提出了,但是當時的硬件運行神經網絡,耗時過長。但隨著本世紀芯片技術的發展,計算機芯片運算能力以18個月翻一倍的速度發展。甚至還出現了 GPU這種擅長并行運算的芯片,這使得神經網絡在運算時間上變得“可接受”。
數據:社交媒體,互聯網上沉淀了大量訓練數據大廠們也有相關的自動化需求。
模型:在有算力,有數據的情況下,研究者研究出了一系列更高效,更準確的模型。
“算力”、“數據”、“模型”也被成為 人工智能 三要素。
Part 7
大語言模型(LLM)為什么其很重要
為什么要關注:今天我們歡聚于此,是因為大家對Al+ web3 很好奇;而A 火是因為 ChatGPT;ChatGPT 就屬于 大語言模型。
為什么需要大語言模型:我們上面說了,機器學是需要訓練數據的,但是大規模數據標注成本太高;大語言模型以一種巧妙的方式解決了這個問題。