Scenic 是一個以注意力模型為重點的計算機視覺研究代碼庫。
?? 提供 SOTA 模型和基線模型,以及共享庫和項目。
?? Scenic 采用 JAX 和 Flax 進行開發(fā),為快速原型設計大規(guī)模視覺模型提供支持。
站長之家(ChinaZ.com) 4月7日 消息:Scenic 是谷歌推出的模型,一個專注于計算機視覺領域的代碼庫,主要用于研究基于注意力的模型。
該庫提供了一系列共享的輕量級庫,解決訓練大規(guī)模視覺模型時常見的任務,并包含了幾個使用這些庫的問題特定訓練和評估循環(huán)的項目。Scenic 使用 JAX 和 Flax 進行開發(fā),支持開發(fā)人員在圖像、視頻、音頻和多模態(tài)組合方面開發(fā)分類、分割和檢測模型。Scenic能識別任意長度的視頻內容,并生成詳細描述。針對長視頻,可以在處理完整個視頻前,流式預測視頻內容。
Scenic 提供了一些功能,包括用于啟動實驗、摘要編寫、日志記錄、性能分析等的樣板代碼;優(yōu)化的訓練和評估循環(huán)、損失函數、度量、雙部分匹配器等;以及用于流行視覺數據集的輸入管道和強大的非注意力基線模型。
在 Scenic 中,有一些 SOTA 模型和基線模型,這些模型可能是使用 Scenic 開發(fā)的,也可能是在 Scenic 中重新實現(xiàn)的。一些項目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外,Scenic 還提供了一些重現(xiàn)的基線模型,如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。
Scenic 的目標是促進大規(guī)模視覺模型的快速原型設計。為了保持代碼簡單易懂且易于擴展,Scenic 更傾向于通過復制粘貼而非增加復雜性或增加抽象來解決問題。只有當功能被證明在許多模型和任務中廣泛有用時,才可能將其上游到 Scenic 的共享庫中。