5g影院天天5g天天爽视频,边做边爱完整版视频播放,徐若瑄裸戏

理大開(kāi)發(fā)嶄新長(zhǎng)視頻推理多模態(tài)框架加速生成式人工智能應(yīng)用於視頻分析

責(zé)任編輯：鄭嬋娟 2025-06-10 16:40:11 來(lái)源：香港商報(bào)網(wǎng)

人工智能發(fā)展迅速，但不少模型在理解長(zhǎng)視頻時(shí)仍面對(duì)不少挑戰(zhàn)。香港理工大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)多模態(tài)智能體VideoMind，令人工智能模型能通過(guò)模仿人類(lèi)思考過(guò)程，理解長(zhǎng)視頻及回答內(nèi)容提問(wèn)，並結(jié)合創(chuàng)新的鏈?zhǔn)降椭冗m應(yīng)（Low-Rank Adaptation，LoRA）策略，大大減低消耗資源和所需算力，推動(dòng)生成式人工智能於視頻分析的商業(yè)化應(yīng)用。研究成果已投稿至人工智能頂級(jí)會(huì)議。

視頻，尤其是長(zhǎng)視頻（15分鐘以上），不單純是疊加的靜態(tài)畫(huà)面，其內(nèi)容包含隨時(shí)間推移產(chǎn)生的資訊，例如事件的發(fā)生時(shí)序、前因後果、連貫性及場(chǎng)景轉(zhuǎn)換等。人工智能模型要理解視頻，不但要識(shí)別當(dāng)中的事物，還要兼顧時(shí)間維度的訊息，即事物如何隨時(shí)間變化。由於畫(huà)面佔(zhàn)用了大量標(biāo)記（token），導(dǎo)致視頻推理需要消耗龐大算力和記憶體，令一般大模型難以應(yīng)付太長(zhǎng)的視頻。

理大計(jì)算機(jī)及數(shù)學(xué)科學(xué)學(xué)院暫任院長(zhǎng)及視覺(jué)計(jì)算講座教授陳長(zhǎng)汶教授帶領(lǐng)的研究團(tuán)隊(duì)在長(zhǎng)視頻推理研究取得突破，團(tuán)隊(duì)參考了人類(lèi)理解視頻的過(guò)程，在其開(kāi)發(fā)的VideoMind框架內(nèi)設(shè)計(jì)角色化流程，以漸進(jìn)式推理的方式，解決模型在理解時(shí)序上的困難。框架內(nèi)的四個(gè)角色分別為負(fù)責(zé)決定如何調(diào)用其他角色的規(guī)劃者（Planner）、搜尋及定位與問(wèn)題相關(guān)片段的定位者（Grounder）、透過(guò)裁剪片段及放大畫(huà)面等方法驗(yàn)證片段的驗(yàn)證者（Verifier），以及分析選定片段並生成答案的回答者（Answerer）。

VideoMind的另一核心創(chuàng)新在於採(cǎi)用了鏈?zhǔn)絃oRA（Chain-of-LoRA）的策略。LoRA是最近兩年新興的大型語(yǔ)言模型微調(diào)技術(shù)，透過(guò)在既有模型內(nèi)進(jìn)行低階調(diào)整，令模型不需要重新接受全量（full-parameter）訓(xùn)練，亦能執(zhí)行特定功能。團(tuán)隊(duì)提出的創(chuàng)新鏈?zhǔn)絃oRA策略，只需要在同一基礎(chǔ)模型上，載入四個(gè)輕量級(jí)的LoRA適應(yīng)器，對(duì)應(yīng)不同角色，即可令模型按需要自行啟動(dòng)不同的適應(yīng)器，動(dòng)態(tài)切換角色，減省了需要?jiǎng)佑玫哪Ｐ土考跋嚓P(guān)成本，同時(shí)提高單一模型的效能及靈活度。

VideoMind框架參考人類(lèi)理解視頻的過(guò)程，並拆分為規(guī)劃者（Planner）、定位者（Grounder）、驗(yàn)證者（Verifier）及回答者（Answerer）四個(gè)角色，再以鏈?zhǔn)絃oRA的策略實(shí)現(xiàn)動(dòng)態(tài)角色切換。

研究團(tuán)隊(duì)已在GitHub和HuggingFace平臺(tái)開(kāi)源VideoMind項(xiàng)目，以公開(kāi)測(cè)試的長(zhǎng)視頻任務(wù)，涉及14個(gè)人工智能模型基準(zhǔn)測(cè)試集。團(tuán)隊(duì)將VideoMind與多個(gè)先進(jìn)大語(yǔ)言模型及多模態(tài)模型作比較，發(fā)現(xiàn)VideoMind在處理平均時(shí)長(zhǎng)達(dá)27分鐘的長(zhǎng)視頻時(shí)，定位準(zhǔn)確度較GTP-4o、Gemini 1.5等尖端大模型更優(yōu)勝。值得注意的是，團(tuán)隊(duì)同時(shí)測(cè)試了較小的20億（2B）參數(shù)量及較大的70億（7B）參數(shù)量的VideoMind，發(fā)現(xiàn)2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陳長(zhǎng)汶教授表示：「人類(lèi)觀看視頻時(shí)會(huì)切換思維方式，先拆解問(wèn)題，再找出相關(guān)片段，然後反覆重溫及核對(duì)，才對(duì)內(nèi)容下結(jié)論。此過(guò)程效率極高；大腦總功耗僅25瓦左右，比相同算力的超級(jí)電腦要低100萬(wàn)倍。我們從這種人類(lèi)的思考模式中獲得啟發(fā)，設(shè)計(jì)角色化流程，真正讓人工智能像人類(lèi)一樣理解視頻，並成功透過(guò)鏈?zhǔn)絃oRA策略降低算力和記憶體需求?！?/p>

人工智能浪潮席捲全球，但算力不足和耗能過(guò)高的情況日益嚴(yán)重。VideoMind以開(kāi)源、參數(shù)量少的多模態(tài)模型Qwen2-VL為骨幹，配置優(yōu)化工具，降低了技術(shù)成本和部署門(mén)檻，為人工智能模型功耗過(guò)高的問(wèn)題提出可行解決途徑。陳教授補(bǔ)充：「VideoMind框架不但突破了人工智能在視頻處理的限制，更可作為一個(gè)模組化、可擴(kuò)展、具解釋能力的多模態(tài)推理框架，拓展生成式人工智能的應(yīng)用範(fàn)圍，如智能保安監(jiān)控、體育競(jìng)技及娛樂(lè)視頻分析、視頻搜尋功能等領(lǐng)域?！?/p>

頂圖：理大計(jì)算機(jī)及數(shù)學(xué)科學(xué)學(xué)院暫任院長(zhǎng)及視覺(jué)計(jì)算講座教授陳長(zhǎng)汶教授帶領(lǐng)的研究團(tuán)隊(duì)開(kāi)發(fā)多模態(tài)智能體VideoMind，令人工智能模型能通過(guò)模仿人類(lèi)思考過(guò)程，理解長(zhǎng)視頻及回答內(nèi)容提問(wèn)，並結(jié)合創(chuàng)新的鏈?zhǔn)降椭冗m應(yīng)策略，減低消耗資源和所需算力，推動(dòng)生成式人工智能視頻分析的商業(yè)化應(yīng)用。

責(zé)任編輯：鄭嬋娟理大開(kāi)發(fā)嶄新長(zhǎng)視頻推理多模態(tài)框架加速生成式人工智能應(yīng)用於視頻分析