公交车扒开稚嫩挺进去小说,国产伦精品一区二区免费,粗大的内捧猛烈进出A片小说,亚洲精品久久国产高清情趣图文

香港商報(bào)
-- 天氣
理大開(kāi)發(fā)嶄新長(zhǎng)視頻推理多模態(tài)框架 加速生成式人工智能應(yīng)用於視頻分析

理大開(kāi)發(fā)嶄新長(zhǎng)視頻推理多模態(tài)框架 加速生成式人工智能應(yīng)用於視頻分析

責(zé)任編輯:鄭嬋娟 2025-06-10 16:40:11 來(lái)源:香港商報(bào)網(wǎng)

人工智能發(fā)展迅速,但不少模型在理解長(zhǎng)視頻時(shí)仍面對(duì)不少挑戰(zhàn)。香港理工大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)多模態(tài)智能體VideoMind,令人工智能模型能通過(guò)模仿人類(lèi)思考過(guò)程,理解長(zhǎng)視頻及回答內(nèi)容提問(wèn),並結(jié)合創(chuàng)新的鏈?zhǔn)降椭冗m應(yīng)(Low-Rank Adaptation,LoRA)策略,大大減低消耗資源和所需算力,推動(dòng)生成式人工智能於視頻分析的商業(yè)化應(yīng)用。研究成果已投稿至人工智能頂級(jí)會(huì)議。

視頻,尤其是長(zhǎng)視頻(15分鐘以上),不單純是疊加的靜態(tài)畫(huà)面,其內(nèi)容包含隨時(shí)間推移產(chǎn)生的資訊,例如事件的發(fā)生時(shí)序、前因後果、連貫性及場(chǎng)景轉(zhuǎn)換等。人工智能模型要理解視頻,不但要識(shí)別當(dāng)中的事物,還要兼顧時(shí)間維度的訊息,即事物如何隨時(shí)間變化。由於畫(huà)面佔(zhàn)用了大量標(biāo)記(token),導(dǎo)致視頻推理需要消耗龐大算力和記憶體,令一般大模型難以應(yīng)付太長(zhǎng)的視頻。

理大計(jì)算機(jī)及數(shù)學(xué)科學(xué)學(xué)院暫任院長(zhǎng)及視覺(jué)計(jì)算講座教授陳長(zhǎng)汶教授帶領(lǐng)的研究團(tuán)隊(duì)在長(zhǎng)視頻推理研究取得突破,團(tuán)隊(duì)參考了人類(lèi)理解視頻的過(guò)程,在其開(kāi)發(fā)的VideoMind框架內(nèi)設(shè)計(jì)角色化流程,以漸進(jìn)式推理的方式,解決模型在理解時(shí)序上的困難。框架內(nèi)的四個(gè)角色分別為負(fù)責(zé)決定如何調(diào)用其他角色的規(guī)劃者(Planner)、搜尋及定位與問(wèn)題相關(guān)片段的定位者(Grounder)、透過(guò)裁剪片段及放大畫(huà)面等方法驗(yàn)證片段的驗(yàn)證者(Verifier),以及分析選定片段並生成答案的回答者(Answerer)。

VideoMind的另一核心創(chuàng)新在於採(cǎi)用了鏈?zhǔn)絃oRA(Chain-of-LoRA)的策略。LoRA是最近兩年新興的大型語(yǔ)言模型微調(diào)技術(shù),透過(guò)在既有模型內(nèi)進(jìn)行低階調(diào)整,令模型不需要重新接受全量(full-parameter)訓(xùn)練,亦能執(zhí)行特定功能。團(tuán)隊(duì)提出的創(chuàng)新鏈?zhǔn)絃oRA策略,只需要在同一基礎(chǔ)模型上,載入四個(gè)輕量級(jí)的LoRA適應(yīng)器,對(duì)應(yīng)不同角色,即可令模型按需要自行啟動(dòng)不同的適應(yīng)器,動(dòng)態(tài)切換角色,減省了需要?jiǎng)佑玫哪P土考跋嚓P(guān)成本,同時(shí)提高單一模型的效能及靈活度。

2.png

VideoMind框架參考人類(lèi)理解視頻的過(guò)程,並拆分為規(guī)劃者(Planner)、定位者(Grounder)、驗(yàn)證者(Verifier)及回答者(Answerer)四個(gè)角色,再以鏈?zhǔn)絃oRA的策略實(shí)現(xiàn)動(dòng)態(tài)角色切換。

研究團(tuán)隊(duì)已在GitHub和HuggingFace平臺(tái)開(kāi)源VideoMind項(xiàng)目,以公開(kāi)測(cè)試的長(zhǎng)視頻任務(wù),涉及14個(gè)人工智能模型基準(zhǔn)測(cè)試集。團(tuán)隊(duì)將VideoMind與多個(gè)先進(jìn)大語(yǔ)言模型及多模態(tài)模型作比較,發(fā)現(xiàn)VideoMind在處理平均時(shí)長(zhǎng)達(dá)27分鐘的長(zhǎng)視頻時(shí),定位準(zhǔn)確度較GTP-4o、Gemini 1.5等尖端大模型更優(yōu)勝。值得注意的是,團(tuán)隊(duì)同時(shí)測(cè)試了較小的20億(2B)參數(shù)量及較大的70億(7B)參數(shù)量的VideoMind,發(fā)現(xiàn)2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陳長(zhǎng)汶教授表示:「人類(lèi)觀看視頻時(shí)會(huì)切換思維方式,先拆解問(wèn)題,再找出相關(guān)片段,然後反覆重溫及核對(duì),才對(duì)內(nèi)容下結(jié)論。此過(guò)程效率極高;大腦總功耗僅25瓦左右,比相同算力的超級(jí)電腦要低100萬(wàn)倍。我們從這種人類(lèi)的思考模式中獲得啟發(fā),設(shè)計(jì)角色化流程,真正讓人工智能像人類(lèi)一樣理解視頻,並成功透過(guò)鏈?zhǔn)絃oRA策略降低算力和記憶體需求?!?/p>

人工智能浪潮席捲全球,但算力不足和耗能過(guò)高的情況日益嚴(yán)重。VideoMind以開(kāi)源、參數(shù)量少的多模態(tài)模型Qwen2-VL為骨幹,配置優(yōu)化工具,降低了技術(shù)成本和部署門(mén)檻,為人工智能模型功耗過(guò)高的問(wèn)題提出可行解決途徑。陳教授補(bǔ)充:「VideoMind框架不但突破了人工智能在視頻處理的限制,更可作為一個(gè)模組化、可擴(kuò)展、具解釋能力的多模態(tài)推理框架,拓展生成式人工智能的應(yīng)用範(fàn)圍,如智能保安監(jiān)控、體育競(jìng)技及娛樂(lè)視頻分析、視頻搜尋功能等領(lǐng)域?!?/p>

頂圖:理大計(jì)算機(jī)及數(shù)學(xué)科學(xué)學(xué)院暫任院長(zhǎng)及視覺(jué)計(jì)算講座教授陳長(zhǎng)汶教授帶領(lǐng)的研究團(tuán)隊(duì)開(kāi)發(fā)多模態(tài)智能體VideoMind,令人工智能模型能通過(guò)模仿人類(lèi)思考過(guò)程,理解長(zhǎng)視頻及回答內(nèi)容提問(wèn),並結(jié)合創(chuàng)新的鏈?zhǔn)降椭冗m應(yīng)策略,減低消耗資源和所需算力,推動(dòng)生成式人工智能視頻分析的商業(yè)化應(yīng)用。

責(zé)任編輯:鄭嬋娟 理大開(kāi)發(fā)嶄新長(zhǎng)視頻推理多模態(tài)框架 加速生成式人工智能應(yīng)用於視頻分析
熱門(mén)排行
24小時(shí)
7天
香港商報(bào)PDF
股市

友情鏈接

承印人、出版人:香港商報(bào)有限公司 地址:香港九龍觀塘道332號(hào)香港商報(bào)大廈 香港商報(bào)有限公司版權(quán)所有,未經(jīng)授權(quán),不得複製或轉(zhuǎn)載。 Copyright ? All Rights Reserved
聯(lián)絡(luò)我們

電話:(香港)852-2564 0768

(深圳)86-755-83518792 83518734 83518291

地址:香港九龍觀塘道332號(hào)香港商報(bào)大廈