Gate 廣場「創作者認證激勵計劃」開啓:入駐廣場,瓜分每月 $10,000 創作獎勵!
無論你是廣場內容達人,還是來自其他平台的優質創作者,只要積極創作,就有機會贏取豪華代幣獎池、Gate 精美週邊、流量曝光等超 $10,000+ 豐厚獎勵!
參與資格:
滿足以下任一條件即可報名👇
1️⃣ 其他平台已認證創作者
2️⃣ 單一平台粉絲 ≥ 1000(不可多平台疊加)
3️⃣ Gate 廣場內符合粉絲與互動條件的認證創作者
立即填寫表單報名 👉 https://www.gate.com/questionnaire/7159
✍️ 豐厚創作獎勵等你拿:
🎁 獎勵一:新入駐創作者專屬 $5,000 獎池
成功入駐即可獲認證徽章。
首月發首帖(≥ 50 字或圖文帖)即可得 $50 倉位體驗券(限前100名)。
🎁 獎勵二:專屬創作者月度獎池 $1,500 USDT
每月發 ≥ 30 篇原創優質內容,根據發帖量、活躍天數、互動量、內容質量綜合評分瓜分獎勵。
🎁 獎勵三:連續活躍創作福利
連續 3 個月活躍(每月 ≥ 30 篇內容)可獲 Gate 精美週邊禮包!
🎁 獎勵四:專屬推廣名額
認證創作者每月可優先獲得 1 次官方項目合作推廣機會。
🎁 獎勵五:Gate 廣場四千萬級流量曝光
【推薦關注】資源位、“優質認證創作者榜”展示、每週精選內容推薦及額外精選帖激勵,多重曝光助你輕
劍橋華人團隊開源PandaGPT:首個橫掃「六模態」的大型基礎模型
來源:新智元
當下的大型語言模型,如ChatGPT只能接收文本作為輸入,即便升級版的GPT-4也只是增加了圖像輸入的功能,無法處理其他模態的數據,如視頻、音頻等。
最近,來自劍橋大學、奈良先端科學技術大學院大學和騰訊的研究人員共同提出並開源了通用指令遵循模型PandaGPT模型,也是首個實現了跨六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)執行指令遵循數據的基礎模型。
代碼鏈接:
在沒有明確多模態監督的情況下,PandaGPT就展現出了強大的多模態能力,可以執行複雜的理解/推理任務,如詳細的圖像描述生成、編寫視頻啟發的故事、回答有關音頻的問題,或是多輪對話等。
示例
基於圖片的問答:
多模態PandaGPT
和困在計算機內的AI模型相比,人類具有多種感官來了解世界,可以看一幅畫,可以聽到自然界的各種聲音;機器如果也能輸入多模態的信息,就可以更全面地解決各種問題。
目前多模態的研究大多數局限於單模態,或是文本與其他模態的組合,缺乏感知和理解多模態輸入的整體性和互補性。
為了讓PandaGPT具有多模態輸入能力,研究人員結合了ImageBind的多模態編碼器和大型語言模型Vicuna,二者在視覺和音頻基礎的指令遵循任務中都取得了非常強大的性能。
同時,為了使二個模型的特徵空間一致,研究人員使用開源的16萬個圖像-語言指令遵循數據來訓練PandaGPT,其中每個訓練實例包括一個圖像和一組多輪對話數據,對話中包含每輪人類的指令和系統的回复。
為了減少可訓練參數的數量,研究人員只訓練用來連接Vicuna的ImageBind表徵,以及Vicuna的注意力模塊上的額外LoRA權重。
值得注意的是,當前版本的PandaGPT只用對齊的圖像-文本數據進行訓練,但通過利用凍結的ImageBind編碼器中繼承的六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)的綁定屬性,PandaGPT展示出了湧現,即零樣本跨模態的能力。
限制
儘管PandaGPT在處理多模態及模態組合方面有驚人的能力,但還有幾種方法可以用來進一步改進PandaGPT:
PandaGPT的訓練過程可以通過引入更多對齊數據來豐富,比如其他與文本匹配的模態(音頻-文本)
研究人員對文本以外的模態內容只使用一個嵌入向量來表徵,還需要對細粒度的特徵提取畸形更多研究,如跨模態的注意力機制可能會對性能提升有好處
PandaGPT目前只是將多模態信息作為輸入,未來可能會在生成端引入更豐富的多媒體內容,比如在音頻中生成圖像和文字回复。
還需要有新的基準來評估多模態輸入的組合能力
PandaGPT也可以表現出現有語言模型的幾個常見缺陷,包括幻覺、毒性和刻板印象。
研究人員也指出,PandaGPT目前還只是一個研究原型,不能直接用於現實世界的應用。
參考資料: