(資料圖片)
上證報(bào)中國證券網(wǎng)訊(記者譚镕)11月21日,騰訊混元大模型團(tuán)隊(duì)正式發(fā)布并開源HunyuanVideo 1.5。這是一款基于Diffusion Transformer(DiT)架構(gòu)、參數(shù)為8.3B的輕量級視頻生成模型,支持生成5至10秒的高清視頻。目前,騰訊元寶最新版已上線該模型能力。用戶可通過兩種方式即可體驗(yàn):一是輸入文字描述(Prompt),直接實(shí)現(xiàn)“文生視頻”;二是上傳圖片配合文字描述,將靜態(tài)圖片轉(zhuǎn)化為動態(tài)視頻。
此前,視頻生成領(lǐng)域的開源SOTA旗艦?zāi)P椭辽儆?0B,需要超過50GB顯卡方可部署。HunyuanVideo 1.5的出現(xiàn)大幅降低了硬件部署門檻,以極低的門檻就可以獲得旗艦?zāi)P偷捏w驗(yàn),目前模型已上傳至Hugging Face和Github社區(qū)。
據(jù)介紹,HunyuanVideo 1.5模型具備全面且強(qiáng)大的核心能力,支持中英文輸入的文生視頻與圖生視頻。模型還具備強(qiáng)指令理解與遵循能力,能夠精準(zhǔn)地實(shí)現(xiàn)多樣化場景,包括運(yùn)鏡、流暢運(yùn)動、寫實(shí)人物和人物情緒表情等多種指令;同時(shí)支持寫實(shí)、動畫、積木等多種風(fēng)格,并可在視頻中生成中英文文字。在畫質(zhì)方面,模型可原生生成5至10秒時(shí)長的480p和720p高清視頻,并可通過超分模型提升至1080p電影級畫質(zhì)。
同時(shí),HunyuanVideo 1.5創(chuàng)新的SSTA稀疏注意力機(jī)制(全稱Selective and Sliding Tile Attention, 選擇性滑動分塊注意力)在保證高質(zhì)量生成的同時(shí)顯著提升推理效率,配合多階段漸進(jìn)式訓(xùn)練策略,在運(yùn)動連貫性、語義遵循等關(guān)鍵維度均達(dá)到商用水平。
HunyuanVideo 1.5 GSB(Good Same Bad)評測結(jié)果
騰訊元寶稱,自上線以來,元寶不斷拓展AI能力的邊界,此次“一句話生視頻”的上線,標(biāo)志著元寶在多模態(tài)能力上邁出了關(guān)鍵一步,正式實(shí)現(xiàn)了從文本、圖片、音頻到視頻的“圖文音視”全模態(tài)覆蓋。這不僅是元寶產(chǎn)品能力的升級,更讓AI成為一個(gè)貼近用戶的實(shí)用工具。
標(biāo)簽: 騰訊 視頻 元寶 HunyuanVideo 一句話
上證報(bào)中國證券網(wǎng)訊(記者譚镕)11月21日,騰訊混元大模型團(tuán)隊(duì)正式發(fā)布