新聞中心back
阿里巴巴深夜宣布!
文章來(lái)源:阿里數(shù)字人才科創(chuàng)中心發(fā)布時(shí)間:2025-02-26 06:12:29瀏覽量:162次
2月25日深夜,阿里云視頻生成大模型萬(wàn)相2.1(Wan)重磅開(kāi)源,此次開(kāi)源采用Apache2.0協(xié)議,14B和1.3B兩個(gè)參數(shù)規(guī)格的全部推理代碼和權(quán)重全部開(kāi)源,同時(shí)支持文生視頻和圖生視頻任務(wù),全球開(kāi)發(fā)者可在Github、HuggingFace、魔搭社區(qū)下載體驗(yàn)。

據(jù)悉,萬(wàn)相2.1在技術(shù)性能方面,展現(xiàn)出了碾壓式的優(yōu)勢(shì)。在權(quán)威評(píng)測(cè)集VBench中,它以86.22%的綜合得分傲視群雄,遠(yuǎn)超OpenAI的Sora等頭部閉源模型。14B版本在處理復(fù)雜運(yùn)動(dòng)和物理規(guī)律模擬等場(chǎng)景時(shí),表現(xiàn)尤為出色,甚至能夠精準(zhǔn)生成中英文特效文字視頻,被譽(yù)為“首個(gè)理解中國(guó)風(fēng)指令的模型”。而1.3B版本則以其驚人的顯存效率和推理速度,僅需8.2GB顯存即可在消費(fèi)級(jí)顯卡上生成480P視頻,速度比同類(lèi)模型快2.3倍,成為了“平民玩家的好萊塢制片廠(chǎng)”。
在關(guān)鍵技術(shù)方面,萬(wàn)相團(tuán)隊(duì)突破性地解決了長(zhǎng)視頻生成的難題。通過(guò)自研的因果3D VAE架構(gòu)和特征緩存機(jī)制,實(shí)現(xiàn)了無(wú)限1080P視頻的生成,徹底擺脫了顯存的限制。同時(shí),空間降采樣壓縮技術(shù)使得模型在保持畫(huà)質(zhì)的前提下,內(nèi)存占用直降29%。此外,基于DiT架構(gòu)的全局注意力機(jī)制,讓生成的動(dòng)作和物理效果更加逼真,堪比物理引擎。
萬(wàn)相視頻模型架構(gòu)圖
此次開(kāi)源不僅帶來(lái)了代碼和權(quán)重,阿里云還配套推出了Gradio體驗(yàn)、xDiT并行加速推理等工具鏈,支持Diffusers和ComfyUI生態(tài)。開(kāi)發(fā)者們紛紛實(shí)測(cè)并給出好評(píng),如“輸入中文提示詞后,10秒內(nèi)即可生成視頻,連水墨暈染的細(xì)節(jié)都能精準(zhǔn)呈現(xiàn)”。結(jié)合阿里云此前開(kāi)源的千問(wèn)(Qwen)系列,其AI模型家族已全面覆蓋語(yǔ)言、圖像、視頻等模態(tài),衍生模型數(shù)量超過(guò)10萬(wàn)個(gè),構(gòu)建起了全球最大的開(kāi)源生態(tài)。萬(wàn)相2.1的開(kāi)源無(wú)疑給視頻生成行業(yè)帶來(lái)了地震級(jí)的影響。學(xué)術(shù)機(jī)構(gòu)可以低成本地開(kāi)展相關(guān)研究;短視頻創(chuàng)作者能夠?qū)崟r(shí)生成帶有雙語(yǔ)特效的素材;甚至普通網(wǎng)友也能利用一張老照片讓祖輩的肖像“動(dòng)起來(lái)”上演小劇場(chǎng)。業(yè)內(nèi)專(zhuān)家評(píng)論稱(chēng):“阿里的這一波操作,不僅展示了其強(qiáng)大的技術(shù)實(shí)力,更是將視頻生成從‘巨頭游戲’轉(zhuǎn)變?yōu)榱巳窠钥蓞⑴c的狂歡?!?/section>