欢迎光临哈尔滨之窗!

今天是 2024年05月03日 星期五

关注社会热点

一起实现我们的中国梦

当前位置: 首页 > 财经

阿里整大活,一张照片让“TA”给你跳“科目三”

如果回忆过去一年最让人印象深刻的科技事件或现象,那 AI 得是数一数二的。

AIGC 大模型的火热,让我们每个普通人都切身感受到了 AI 的神奇魔力。不说别的,就大家在刷微博刷抖音时,也一定越来越频繁会看到由 AI 创作的奇妙图片、视频。



这不,最近又有一个 AI 大模型火出圈了。

上传一张真人的,或动漫卡通的人物照片,就能免费生成一段这个人物舞蹈的视频,听起来是不是就很有趣?



就是这样一个有趣的大模型,前段时间在推特、Youtube 等海外社交媒体平台得到爆炸式传播。比如推特大 V Dreaming Tulpa 一条由多位网红、模特照片生成的跳舞视频,小编写稿时单条视频已经有5060 万的播放量!



每一个模特跳舞的动作都十分自然,几乎可以乱真。而且看到他们从静止突然变成“妖娆多姿”,魔性又喜感。



海外老铁们一边赞不绝口,一边求体验入口。



然后,我们就看到各路大 V 也纷纷开始转发,各种花活应接不暇。

比如让梅球王摆各种 Pose;



蒙娜丽莎魔性起舞;



还有各路明星也“惨遭毒手”……



其实,这个功能的背后,就是国内阿里巴巴自研的视频生成模型 Animate Anyone。

早在去年 11 月底,该研究论文便已经在海外爆火,相关视频播放量超 1 亿,Github 上的 Star 数超 1 万,还登上了Reddit 社区 Stable Diffusion 频道热度第一。



Animate Anyone,显然已经成为目前最受欢迎的大模型项目之一。

看到大家分享的有趣视频,小编也忍不住做了体验。

其实体验的方法很简单,这个功能已经在这两天集成到阿里云通义千问 App 中了。下载通义千问 App,然后在输入框里输入“通义舞王”或“全民舞王”等关键词,就能直接进入体验页面。



通义千问首批为用户提供了10 多种热门舞蹈模板,包括科目三、蒙古舞、鬼步舞等等。



小编就选最近很火的“科目三”吧,点击进入后需要按要求上传一张照片。这里小编找来一张游戏人物的卡通照,符合要求,点立即生成就可以了。



然后会进入等待生成的界面,上面提示要 15 分钟,但实际等待没那么久,大概十分钟就可以了。视频生成后,你可以选择分享或下载、点赞等操作。



大家看游戏里小姐姐跳舞的视频,神形兼备,关键是游戏角色穿的是拖沓的长袍,生成跳舞视频后需要对衣服的形态进行模拟,从结果来看,很自然,衣服没有出现穿帮。



接着小编又用自己的真人照片测试了“鬼舞步”的跳舞模式,同样是很自然,很好地保留了原来的面部表情、身材比例、背景等特征。



可以看到,如果说有趣是 Animate Anyone 能火出圈的关键,那功能体验简单顺滑、效果自然,就是“火出圈”更底层的保证。

那么 Animate Anyone 是如何做到这一切的?在技术上有什么独到之处?

相信很多朋友都体验过用 AI 大模型生成文字、生成图片,效果都不错。但能生成视频,并且效果体验还好的,属实不多。

究其原因,还是因为视频生成太难了,特别是人物动作视频的生成:

  • 形象一致性难保持;
  • 动作流畅度难把控;
  • 动态时序很难无瑕疵;
  • 推理等待时间长。


总之,人物是视频生成中的核心元素,也是核心难点,目前像谷歌、Meta、Runway 等巨头都在积极布局,解决这些困难,也确实诞生了一些方法来化解挑战。阿里研究团队的 Animate Anyone 算法,也就是在这种背景下研发出来的。

整体来看,Animate Anyone 算法从一致性、可控性、和稳定性三方面保证了视频的效果。

例如,它引入 ReferenceNet,用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节;同时使用了一个高效的 Pose Guider 姿态引导器 ,保证了动作的精准可控;另外,还通过时序生成模块,有效保证视频帧间的连贯流畅性。



根据评测集结果显示,Animate Anyone 的性能表现是要显著优于国内外同类模型的。





目前市面上类似的专注人的视频生成主要有两种:

一种是用人体 mask 来控制视频生成,人体会变形到 mask 的形状,无法保持照片中人的比例;

另一种是基于视频的重绘,只保留了人脸的信息,身体、服装、背景都不保留。

两种显然都有一定的瑕疵,而Animate Anyone 是完整的保留了人脸、身材比例、服装细节、背景信息,能更好的还原图片信息。

而且,相比 Gen2、Pika 等文本生成视频的产品,Animate Anyone 可以更聚焦到人的视频生成。可以对生成的动作做精准控制,且在技术上生成的视频长度不受限制。

由此可见,Animate Anyone 在算法上确实具备相当的领先性,特别是在人物一致性和画面稳定性上表现极佳,一改当下很多视频生成画面局部扭曲、细节模糊、抖动跳帧等问题。

并且,这项技术未来可能还会有更广泛的应用场景,包括各种图生视频的应用,还有在线零售、娱乐视频、影视、艺术创作和虚拟角色创建等等,想象空间很大。

而这些背后,显然是阿里大模型团队研发能力的又一次例证。

值得一提的是,最近他们还推出了一款一键试衣的模型,Outfit Anyone,仅仅依靠服饰的平铺图,就可以实现上下装的试穿。



从效果看,这个模型不仅能保证人物本身脸部的 ID,并且通过 3D 和 2D 技术的结合,确保模特姿势、身材等信息的还原,在此基础上,针对任意的单件上 / 下服饰、上和下组合套装等服饰进行直接试衣穿搭。

试想,这个技术如果应用普及了,以后我们在网上买衣服,岂不再也不用为合不合适发愁了?一键虚拟试衣,简直爽歪啊。

无疑,这又是阿里云通义大模型生态下的一次杰作。

要知道,阿里云早在 2019 你那就投入到了大模型的研究中,得益于阿里云领先的基础设施,以及深厚的大模型研发经验,他们在自研大模型及大模型生态的构建上很早就处于业界领先地位。

从去年 4 月,“通义千问”开始邀请用户测试体验开始,通义大模型家族就马不停蹄地开启自我完善之路。



6 月,聚焦音视频内容的大模型产品“通义听悟”上线;

7 月,AI 绘画创作大模型通义万相开启定向邀测;

10 月,智能编码助手通义灵码、AI 阅读助手通义智文、个性化角色创作平台通义星尘、智能投研助手通义点金、智能客服通义晓蜜等一系列行业模型先后上线。



短短几个月,通义大模型家族就不断丰富,并全面覆盖了文本、语音及图像等模态。

目前,通义千问 App 已经可提供文本对话、语音对话、翻译、PPT 大纲助手、小红书文案、视频生成等几十项功能。

而在技术能力上,阿里自研大模型已获得诸多权威机构的认可。

IDC 发布的 AI 大模型评估报告显示,通义千问在全部 11 项测试中获得通用能力、创新能力、服务能力、平台能力、生态合作等 6 项满分,名列前茅。



12 月 22 日,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问成为首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。



不仅如此,阿里云还通过开源研究成果的方式,积极促进大模型生态的繁荣。

他们是国内首个开源大模型的大型科技公司。截至目前,阿里云已开源通义千问 18 亿、70 亿、140 亿、720 亿参数的 4 款大语言模型,以及视觉理解 Qwen-VL、音频理解 Qwen-Audio 的 2 款多模态大模型,进一步降低了大模型初创公司的研发门槛。



阿里云甚至还推出了一站式大模型应用开发平台,阿里云百炼,开发者可在 5 分钟内开发一款大模型应用,几小时即可“炼”出一个企业专属模型。这么做,就是为了让开发生态把更多精力专注于应用创新。



值得一提的是,除了通义大模型,目前中国一半大模型都跑在阿里云上,像百川智能、智谱 AI、零一万物、昆仑万维等等,这主要得益于阿里云人工智能平台 PAI 提供的全球领先的训练性能和高效的算力资源。

拥有如此强大领先的基础设施算力底座、丰富且开源的产品、完善的工具链和智能化平台、以及开放创新的生态,通义大模型能够持续诞生出 Animate Anyone、Outfit Anyone 这样奇妙的应用并风靡全球,也就在意料之中了。

而目前,大模型技术还在迅速发展,智能化时代也正快速到来,相信长在阿里云上的通义大模型会持续推动应用的落地和创新,推动大模型成熟应用规模化的进程,而我们的生活,也会因为这些应用而深刻改变。

本文来源于网络,不代表哈尔滨之窗立场,转载请注明出处
我要收藏
0个赞
转发到:
推荐阅读
  • 日前,在2024哪吒汽车春季发布会上,360集团董事长周鸿祎公开点评法拉第未来(Faraday Future,以下简称“FF汽车”)起诉高合一事,指出贾跃亭没明白中国的优势在哪里。4月24日,FF汽车创始人贾跃亭亲自录制视频进行回应,直言“[全文]
    2024-04-25 02:02
  • 一季度A股市场,先抑后扬。上证指数在1月份延续了下跌走势,但在2月6日触底后开始反弹,并在2月23日重返3000点。政策和流动性不断改善,央行的货币政策保持宽松,监管不断出台积极措施,如降准降息、扩大ETF增持范围,“国家队”持续入市,投资[全文]
    2024-04-24 02:41
  • 专题:中国发展高层论坛2024年年会 3月25日,中投公司总经理兼首席投资官刘浩凌在中国发展高层论坛2024年年会举行的“中国持续发展的机遇与国际合作”专题研讨会上表示,当前,全球宏观形势正发生深刻变化,产业链[全文]
    2024-03-26 02:30
  • 北京3月15日讯今日,信达澳亚基金管理有限公司发布关于信澳红利智选混合型证券投资基金延期结束募集的公告,截止日由原来的2024年3月15日,延长至2024年3月22日。基金经理林景艺从2010年起于博时基金管理有限公司先后任量化分析师、基金[全文]
    2024-03-16 02:33
腾讯云秒杀
阿里云服务器

Copyright 2003-2024 by 哈尔滨之窗 haerb.csrib.cn All Right Reserved.   版权所有

未经授权请勿转载 | 网站所有内容来源于网络,如有侵权联系我们删除。