阿里版“马良神笔”来了,轻轻一抹让蒙娜丽莎对你微笑
36氪
2024-01-13 15:58:15

原标题:阿里版“马良神笔”来了,轻轻一抹让蒙娜丽莎对你微笑

作者 | 王怡宁

编辑 | 邓咏仪

近半年来,文生视频、图生视频类的工具层出不穷,让人眼花缭乱。但不少实际体验过的用户一定会感受到,脑中的想法转化为语言尚且不易,而人类的语言复杂而精妙,想要再找到准确的提示词,让AI正确理解我们的意图,继而转换为图片和视频,实在是太难了。

为了把用户和AI都从这种“词不达意”的困境中解救出来,开发者们做了很多有趣的探索。

比如阿里云科研智算团队近期开源的图生视频模型Animate Anything,就开发了运动笔刷功能,就像用了“马良神笔”一般让图片一抹即动。

不仅要动起来,还要准确和真实

一个简单好用的图生视频工具应该长什么样?最近,阿里云科研智算团队给出了他们的答案:高保真+高可控性。

Animate Anything是阿里云科研智算团队从去年7月就着手研究的图生视频项目。当时,虽然已经有不少文生图领域的公司如Midjourney、Stability AI等走红,但图生视频领域的研究都还非常少,更别说有成熟可用的模型了。

Animate Anything的开发团队就开始探索通过什么技术让图片动起来既精准、又连贯。

以往AI生成视频的一个常见问题是精细度受损——图片在生成视频的过程中,常常容易出现原图被扭曲变形的问题,尤其是在人物面部特征和皮肤纹理这些细节上,导致生成视频很容易就有“一眼假”人工感,甚至在几秒内就让人“改头换面”。

就像以下这张马斯克的经典图片一样,经过Gen-2的“巧手”,简直是本人来了都不敢相认的程度。

图源:X

但是,Animate Anything通过技术手段提高了生成视频对原图像的保真度。团队在阿里VideoComposer模型的基础上做了微调,清理过滤了千万量级HD- VILA-100M数据集,从中挑选出了20万个视频片段。在训练过程中,算法工程师通过保留每一个视频的第一帧,往剩下帧上加入噪声的方法,让网络学习并预测出完整视频。这种方式让图片在“动”起来的同时,还能对原图的画面保持较高的还原度。

可控性的提高也提升了生成视频的良品率。也就是说,以往用户可能需要生成10个视频,才有1个符合要求。但现在,用户可以在两三次尝试后就得到一个满意的视频,这有助于用户体验感的提升。

图源:Animate Anything

在图生视频工具的使用中,另一个常常让用户体验大打折扣的点在于,如何让AI准确地理解文字提示词。特别是当一张图片所呈现的内容丰富且复杂时,如何能够实现仅仅只让前景或后景的一部分动起来呢?

Animate Anything提供了一种能够精确控制部分区域动起来的工具“运动笔刷”(motion brush),即使画面繁复如张择端的《清明上河图》,也只要在图上轻轻一抹,就能实现车水马龙的自然流动感。

图源:Animate Anything

据开发团队介绍,这一功能主要是通过在图片上添加「运动图层」(motion mask)来实现的。

简单来说,在训练模型时,算法工程师从真实的视频素材中生成了只有指定区域运动的视频,将这部分区域标记为可动区域图层,再引导网络学习可动区域图层与真实视频之间的运动关系。

最后,当用户输入图片与指定的运动图层以后,网络就可以实现让图片特定区域动起来的效果。

图源:Animate Anything

以上图为例,用户涂抹红色和绿色部分以后,模型结合以往基于在真实视频中添加运动图层的训练,就可以预测行人和游船的动态效果。用户输入图片以后,模型识别到需要动态化的区域,叠加运动图层,就可以让红色区域的行人走动起来,让绿色区域的船穿行水上,实现精准地动态视频生成效果。

除了让图片动起来以外, Animate Anything团队引入了「运动强度」(motion strength)这一标准,来衡量物体的运动速度,让物体的运动更符合用户的体感。此外,Animate Anything还提供了更多参数调整的设置,比如可以控制动作的幅度、强度等。

以官方放出的视频为例,运动强度从4增强至20,可以让图中的兔子实现从双耳晃动到全身跳跃的姿态变化。

图源:Animate Anything

图源:Animate Anything

图源:Animate Anything

Animate Anything开发团队告诉智能涌现,「运动笔刷」和「运动强度」两个功能的引入,颇受合作商的青睐。尤其是对于一些从事传统出版业务的合作伙伴,在数字化过程中,如何解决让以往教科书中的图“动起来”是关键问题,而运动笔刷和运动强度的控制,为他们提供了一种操作难度更低的选择。

现在,Animate Anything也已经被集成到了阿里云内部的“数字出版Copilot”工具中,AI工具+传统编辑器=更好用的Saas服务,从一线业务出发的导向也让Animate Anything早早走通了商业化之路。

构建高质量数据集是技术难点

2023年是大语言模型的浪潮席卷全球的一年,也是多模态模型不断涌现的一年。

除了Animate Anything以外,阿里在去年还发布了多个多模态模型。

比如,阿里在去年11月发布的Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频。

图源:Animate Anything

目前,基于Animate Anyone技术开发的全民舞王已经在通义千问App内正式上线。用户只需要上传一张真人或动漫全身照即可生成热舞视频,并且现在支持科目三、秧歌舞、蒙古舞等多种类型。

兵马俑跳“科目三”

不过,这一赛道的竞争也是相当激烈。事实上,就在阿里推出Animate Anyone后几天,字节就紧随其后发布了Magic Animate,还抢先一步实现了开源。

放眼硅谷,竞争同样激烈,Midjourney、Runway等不断迭代优化,大厂们如OpenAI和Google也蓄势待发,不断优化着自研模型。

不过,如果说文字领域的GPT模型已经迭代到GPT-4时代,那么在AI生成式视频领域则还处在更早期。不少业内从业者都表示,如今的AI生成式视频,技术发展阶段大概在GPT-2时代——也就是说,这一领域的“ChatGPT时刻”还没到来。

从现状看,当前文生/图生领域的技术路线尚未收敛,各家厂商都还在技术探索期。Animate Anything开发团队也表示,图生视频领域还有很多技术难点没有解决。

比如,最大的问题是清晰度受限,以及生成视频时间较短(普遍在2-3秒左右)的问题。就算能够拉长视频时长到十来秒,但其中的动作细节、清晰度也无法达到理想水平。

而如果要让视频更长、更清晰,海量高质量的视频训练素材必不可少。所以,如何构建高质量的训练数据集,是未来这一领域的模型构建要解决的关键问题。Animate Anything开发团队直言:

“如果构建了高质量的数据集,就已经成功了一半了。”

近期,Stability AI开源了它们的AI视频大模型Stable Video Diffusion,吸引了更多团队进入AI视频生成领域。目前,各家的训练路线还都比较接近,也意味着未来一两年内,这一赛道可能会迎来较为激烈的竞争。

不过,Animate Anything对后续的产品升级迭代有较为明确的想法,希望增加模型参数和训练视频的规模。此外,团队还计划在目前的基础上进一步加入视频编辑功能,在提升可用性的同时,让这个产品在商业上有更多的想象力。

👇🏻 扫码加入「智涌AI交流群」👇🏻

欢迎交流

相关内容

热门资讯

【财经早晚报】字节将禁用第三方... 今天值得关注的国内外新闻有: 1. 外交部:中国对沙特、阿曼、科威特、巴林4国试行免签 2. 工信部...
GTCFX:多元化产品组合满足... 摘要: 探索GTCFX多元化产品组合,满足您的交易需求,实现投资目标的最佳选择。立即点击了解更多,开...
上汽大众成立动力系统新公司 含... 每经AI快讯,天眼查App显示,近日,上海峰梅动力系统有限公司成立,法定代表人为李文辉,注册资本10...
惠民消费券叠加世界美酒!宁夏·... 6月9日-11日,第五届中国(宁夏)国际葡萄酒文化旅游博览会-国际葡萄酒名庄名酒展将在银川国际会展中...
基金分红:华夏合肥高新产园RE... 证券之星消息,5月28日发布《华夏基金管理有限公司关于华夏合肥高新创新产业园封闭式基础设施证券投资基...
凯辉创新基金三期完成10亿美元... 5月28日,凯辉基金正式宣布旗下凯辉创新基金三期圆满完成最终关账,基金管理规模达10亿美元,成为欧盟...
直击蓝晓科技股东大会:董事长高... 界面新闻记者 | 陈慧东 2024年,蓝晓科技(300487.SZ)营业收入25.54亿元,同比增...
总起价近20亿!深圳光明挂牌一... 粤进深 赵盼盼 5月28日,深圳光明区挂牌一宗宅地,宗地号为A509-0074,挂牌起始价19.94...
清华大学互联网产业研究院院长朱... 5月28日,由北京商报社、《中外企业文化》杂志社主办的“2025深蓝媒体智库年度论坛”在北京国际饭店...
原创 A... 昨夜的美股高歌猛进,虽然这与A股的关系不大,但是美股大型科技股的上涨跟我们多少还有些关联吧,比如说看...
原创 深... 文丨詹詹 郭小兴 编辑丨杜海 来源丨新商悟 (本文约为800字) 近期,深蓝汽车可谓连遭舆论风波。...
原创 武... 武清,已经找到了楼市“甜区”。 今年以来,大打改善牌,核心地段的改善洋房掀起一股热潮。 城投春上...
重磅活动!王涵:长期视角下的经... 上证·首席讲坛”由上海证券报和中国首席经济学家论坛共同打造,致力于搭建高端交流平台,邀请业内顶级专家...
银行行业28日主力净流出6.1... 5月28日,银行行业上涨0.28%,今日主力资金流出6.1亿元,成分股21只上涨,17只下跌。 主力...
深铁5个月四次“输血”万科近1... 金融界5月28日消息 在万科深陷债务的关键节点,已经从万科退休多年的大佬王石罕见发声,正在尝试与万科...
原创 A... 今日的A股,成交量又只有万亿成交量了,比昨日更离谱的是沪深300成交量只有1600亿,TMT赛道的成...
医疗大模型浪潮:讯飞医疗领航,... 在医疗人工智能领域,大模型的发展正迎来政策与市场的双重机遇。近日,动脉智库发布了《2025医疗大模型...
食品饮料-零食行业:鸣鸣很忙(... 今天分享的是:食品饮料-零食行业:鸣鸣很忙(02143),招股说明书梳理,零食量贩龙头,引领万亿元赛...
收评:沪指震荡跌0.18%,医... 27日,两市主要股指盘中弱势下探,深证成指、创业板指一度跌约1%,全A成交额再度萎缩。 截至收盘,沪...
刚刚,备案!万亿巨头出手 【导读】泰康稳行完成私募基金管理人备案登记,泰康人寿首期投资规模预计为120亿元 中国基金报记者 吴...
助小微企业走出融资困境 小微企业创新迭代快捷、市场反应敏锐、细分领域广泛,在推动科技创新、吸纳人员就业、丰富文化业态等方面发...
越跌越买!红利又被抢疯了 上周三$中证红利ETF(SH515080)$创了阶段新高后有些回调,一下子又被买疯了,这周一和这周二...
李彦宏念念不忘,百度电商重启在... 文/华尔街科技眼 Leon 临近6.18大促,各大平台、商家都开始了预热。网红罗永浩于5月23日...
特朗普:若加拿大成为美国第51... 当地时间5月27日,美国总统特朗普在其社交媒体平台“真实社交”上发文表示,加拿大非常希望成为美国“金...
煤炭板块午后逆势上行,国企红利... 5月28日,三大股指午后小幅走低,而国企红利板块逆势上涨。截至下午13:30,国企红利ETF(159...
比亚迪回应山东经销商“资金链断... 针对近期“比亚迪山东经销商济南乾城汽车贸易有限公司‘资金链断裂’”传闻,比亚迪集团品牌及公关处相关人...
精致时代下,国际品牌如何赢得中... 汇聚行业论坛洞察,解读前沿报告观点,提炼关键趋势,为您呈现深度思考与精准研判。 作者|Huiyan ...
重磅!牧原递交港股IPO申请,... .................. 5月27日,牧原股份向香港联交所提交上市申请。牧原股份提到,按...
东南亚消费者为何愿为猫人买单?... 在国货出海浪潮奔涌的当下,越来越多中国品牌怀揣着“品牌全球化”的野心踏浪而行。 当多数玩家困守低价红...