AI技术让静态照片施展舞步,网民纷纷跟风试验


随着人工智能技术的不断突破,越来越多的黑科技应用被开发并席卷网络。2024年的第一个工作日,各种兵马俑、知名企业家马斯克甚至普通网友跳科目三和其他流行舞蹈的视频就在社交媒体和朋友圈中大行其道。这些时长大约10秒的视频并没有真实的演员出镜,而是通过一款大模型算法生成的。就这样,一个低门槛的“舞蹈体验”活动迅速火起来。

这个刷新网友体验方式的应用,来自于阿里云通义千问APP。用户在APP中输入特定口令,如”通义舞王”或”全民舞王”,便可进入体验页面。通过上传一张照片,用户就可以在十几分钟内得到一段神形兼备的舞蹈视频。视频不仅忠实地保留了人物的面部表情、体型、服饰以及背景等特征,更有着极为生动的舞步表演。目前平台提供了包括科目三、蒙古舞、划桨步、鬼步舞等共12种热门舞蹈模板给用户选择。

这背后的核心算法是阿里通义实验室自研的Animate Anyone视频生成模型。它的名字早在2023年11月底就在推特、Youtube等国外社交平台上爆红,相关视频的播放量突破了1亿大关。并且在技术开发者社区Github上,该项目获得的Star数在短短几日之内便突破了1万,成为近期大模型领域内备受欢迎的先进算法之一。

Animate Anyone算法之所以能够吸引全球开发者和网友的目光,不仅是因为它所生成的视频效果惊人,更有其背后精妙的技术路线值得业界研究。在人物形象的视频生成领域,国外的科技巨头如谷歌、Meta、Runway等都在激烈竞争,然而Animate Anyone算法成功解决了之前技术中的多项难题。比如,它能够生成动作一致、流畅自然并且没有时间上的瑕疵的人物动作视频。这得益于它所集成的ReferenceNet技术,通过捕捉原图信息来高度还原人物特征和动作。同时,算法中的Pose Guider姿态引导器确保了动作的准确性和可控性,而时序生成模块则让视频帧间的连贯性得到有效保障。

综观当前技术水平,Animate Anyone在同类模型中的性能表现无疑是突出的。今年9月,通义千问成为国内首批获得官方备案的大模型服务,持续升级APP功能。除了这一革命性的视频生成服务,通义千问还提供文本和语音对话、翻译、PPT大纲辅助、小红书文案创作等多项服务,极大地丰富了人们对人工智能技术的使用体验。

PG电子 免费试玩

麻将胡了
麻将三缺一,等您来开杠!

亡灵大盗
擒拿头号强盗团以获取千万赏金!

赏金女王
夺走藏宝图,寻找尘封的宝藏!

微博
twitter
instagram
Telegram

PG电子于2016年进军亚洲市场,为提供玩家安全优质的娱乐体验,经过多道严格评估及筛选,最终由亚洲久赋盛名的知名平台
【E世博esball】
获得
PGSoft在亚洲地区的独家授权,并在此期待未来能够携手共创辉煌