亚洲一区二区三区无吗_中文视频一区_yw.尤物在线精品视频_亚洲一区中文在线

首頁 > 活動線報 > 每日福利 > 谷歌明星開源模型Gemma 2上新9B/27B,挑戰3140億Grok-1

谷歌明星開源模型Gemma 2上新9B/27B,挑戰3140億Grok-1

發布時間:2024-06-28 22:53:23

】昨晚,谷歌正式開源了自家最強的開源模型Gemma 2,直指為全球范圍研究開發者提供實用部署工具。


就在昨晚,谷歌的明星開源大模型系列,又迎來兩位新成員——Gemma 2 9B和Gemma 2 27B!


四個月前谷歌宣布重磅開源Gemma,四個月后Gemma 2上線,專門面向研究和開發人員。

目前,模型權重已經在HuggingFace上公開。


項目地址:https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315

Gemma 2的核心亮點概括來說就是:參數雖小但性能極佳。

而且,27B模型甚至可在單張谷歌云TPU、英偉達A100 80GB GPU或英偉達H100 GPU上,以全精度高效運行推理。


高效新模型的誕生

 

Gemma 2在設計的架構上均有創新,旨在實現卓越的性能和提高推理效率。

在技術報告中,Gemma 2最引人注目的三大創新優勢在于:

首先,性能遠超同同等規模模型。

Gemma 2 27B在同類產品中性能最佳,甚至能挑戰規模更大的模型。

Gemma 2 9B的性能在同類產品中也處于領先地位,超過了Llama 3 8B和其他同規模的開源模型。


與其他大模型在Lmsys同場競技,同等規模模型中Gemma 2的性能「一覽眾山小」。

其次,超高效率,節約成本。

27B模型可用于在單個谷歌Claude TPU主機或NIVIDIA H100 GPU上以全精度高效運行推理,從而在保持高性能的同時大幅降低成本。

用較小的模型規模能夠在更廣泛的硬件上部署,對于開發者和研究人員帶來許多便利。

最后,能夠跨硬件快速推理。

Gemma 2經過優化,可在各種硬件上以驚人的速度運行。

比如在Google AI Studio中嘗試全精度的Gemma 2,在CPU上使用量化版本 Gemma.cpp解鎖本地性能,或通過 Hugging Face Transformers庫在配備英偉達RTX或GeForce RTX的家用電腦上,均可使用。


高效的源頭:架構創新

 

Gemma是谷歌團隊推出的一系列輕量級、先進的開源模型,基于與Gemini模型相同的研究和技術構建的文本生成解碼器大型語言模型。

Gemma 2訓練數據量大約是第一代的兩倍,并沿用了上一代的基本架構,但進行了全方位的改良。

局部滑動窗口和全局注意力
Gemma 2交替使用局部滑動窗口注意力和全局注意力層級進行切換,局部注意力層的滑動窗口大小設置為4096個token,而全局注意力層的設置為8192個token。

在正確捕捉文本細節的同時,又能保持對上下文和全局的正確理解。

Logit軟上限
按照Gemini 1.5版,Gemma對每個注意層和最終層的logit進行軟封頂。

通過將logits設置在一個合理的固定范圍內,可以有效提升訓練的穩定性,防止內容過長。

使用RMSNorm進行前后歸一化
為了使訓練更加穩定,Gemma 2運用了RMSNorm對每個轉換層、注意層和反饋層的輸入和輸出進行歸一化。

這一步和Logit軟上限都使得模型訓練更穩定平滑,不易出現崩潰。

分組查詢注意力
GQA通過對于注意力分組,將算力用于一組注意力的組內。

在計算時顯示出更快的數據處理速度,同時還能保持下游性能。

知識蒸餾
傳統訓練大語言模型的方法主要是根據上一個Token,預測下一個Token,需要大量的數據進行訓練。

但是,人類的學習過程并不依賴走量的知識輸入。比如,一位學生由于閱讀原著的需要學習一門外語,他并不需要看遍所有的書籍,只需要以一本書為綱,通過理解后融會貫通。

而知識蒸餾法與人的學習過程更加類似。一個小模型向另一個已經進行過預訓練的大模型學習,通過這種方式助產小模型對于Token的預測。

站在老師模型的肩膀上,學生模型能用較少的訓練數據達到更好的效果。

每日福利更多>>

北京市首個6G產業專項政策發布,計劃2030年突破核心技術50項以上 地球在變暖,這群人卻用冰做“硬盤” 奇駿榮耀定價11.98萬元起,日產是在打價格戰嗎? 上汽奧迪A5L預售價公布 價格誘人配置還超出想象? 中興1949:重載不降速,效率與實力的全能擔當 智駕新標桿,小鵬G7震撼上市,重塑20萬級SUV市場格局! 1-5月全球電池累計裝車量:寧德時代152.7GWh、比亞迪70GWh…… 比亞迪純電重卡Q3在上海虹口北外灘開啟試運營 小米“車規級紙巾盒”可能是一片藍海 比亞迪海豹06DM-i旅行版上市,10.98萬起開創全民新旅時代 One UI 8動畫文件揭秘三星三折疊手機:采用雙內折設計 限時40.39萬元起 Jeep牧馬人/角斗士侏羅紀世界探索版上市 6月主流車企銷量:比亞迪一哥,零跑新勢力一哥,小米或未來一哥! 價格有驚喜還增配了 2026款起亞賽圖斯限時售7.79萬起 小米YU7爆賣,特斯拉漲價? 啟辰放大招!2026款啟辰大V 6.98萬起煥新,好省好開好看全拿下 樂道L90內飾圖解讀,內飾溫馨三排配置有驚喜! 方程豹6月銷量近1.9萬輛創新高:鈦3破萬重塑純電格局,豹5蟬聯硬派越野冠軍 刪掉了“星紀”二字,恢復“魅族科技”,微信公眾號悄然改名 理想架構再度調整,汽車、AI協同共進 新車市場探訪,沒有了高息高返,油車也得賣啊 全新寶馬M3純電動版內飾諜照曝光!于27年3月份正式推出 歐拉好貓2025款上市!設計煥新+配置下放 家用B級車該怎么選?蒙迪歐VS雅閣,看完對比你就明白了! 如何將一加手機備份到電腦?2024年5種安全方法 5月各省汽車銷冠品牌榜:比亞迪徹底封神 霸榜27省 扎克伯格為AI斥重金“招兵買馬”,消息稱Meta再挖角OpenAI四名研究員 硅谷華人AI大牛被瘋狂挖角!小扎打包帶走4名OpenAI研究員 微軟稱Win11電腦比Win10電腦快2.3倍引爭議:實為新舊硬件對比 韋爾股份更名豪威集團后,向香港聯交所遞交上市申請
主站蜘蛛池模板: 丰宁| 建阳市| 洛川县| 洪湖市| 黎平县| 九江县| 铁力市| 上栗县| 若尔盖县| 巴彦淖尔市| 福海县| 马龙县| 宁陕县| 商水县| 同江市| 龙山县| 布拖县| 金溪县| 星座| 宝应县| 东阿县| 辽宁省| 三门县| 宜春市| 叙永县| 梁河县| 峨眉山市| 彭山县| 金阳县| 和平县| 福泉市| 屏南县| 偏关县| 隆林| 囊谦县| 微山县| 灌云县| 噶尔县| 郁南县| 临西县| 汨罗市|