商汤发布首个“可控”人物视频大模型

7 月 4 日电 2024 世界人工智能大会(WAIC 2024)4 日在上海开幕,商汤科技推出首个向广大用户开放的可控人物视频生成大模型 Vimi,该模型更获颁 WAIC 展览展示最高荣誉“镇馆之宝”殊荣,成为本届大会最具创新展品。Vimi 基于商汤日日新大模型的强大能力,只需要一张任何风格的照片就能生成和目标动作一致的人物类短片,并支持多种驱动方式,可通过已有的人物影片、动画、声音、文字等多种元素进行驱动。

商汤发布首个“可控”人物视频大模型

Vimi 可通过一张照片生成人物短片

随着大模型和生成式 AI 技术快速发展,让照片中的人物动起来已不是新鲜事,但目前市面上相关产品的实际应用仍存在挑战,包括:

• 人物动作、表情动作无法精准控制,只能频繁尝试各种 Prompt。

• 效果不稳定,人物外貌、背景效果变幻莫测。

• 时长有限,只能生成 3 至 4 秒短片等,无法满足广大短片创作者的需要。

为解决这些实际应用问题,商汤可控人物视频生成大模型 Vimi 应运而生。与图片表情控制类技术只能控制面部表情动作不同,Vimi 不但可以实现精准的人物表情控制,还可控制照片中人物上半身的自然肢体动作,并自动生成与人物相符的头发、服饰及背景变化。同时光影变化也能做到合理生成,让人物动作和视觉效果流畅自然,画面和谐唯美。更重要的是,Vimi 具备极强的稳定性,可稳定生成长达 1 分钟的单镜头人物类短片,画面效果不会随着时间变化而降低品质或失真,真正满足娱乐互动等需要长时间稳定短片生成的需要。

Vimi 将完全向广大用户开放使用。用户只需上传不同角度的高清人物照片,即可自动生成数字分身和不同风格的写真短片。由 Vimi 生成的短片人物不再只是呆板的五官运动,而是搭配手势、肢体动作、头发等,形成更完整的人物动作,让创作者可基于生成的短片素材进行剪辑和二次创作。

针对喜爱自拍的用户,Vimi 支持聊天、唱歌、舞动等多种娱乐互动场景;对于热衷表情包的用户而言,Vimi 通过单张图片即可驱动生成各种具趣味的人物表情包,玩法多样,实现创作自由。此外,Vimi 亦提供唯美写真风、奇幻风等多种生成风格,让用户仿佛穿越不同次元,享受富电影感的沉浸式视觉体验。(完)

原创文章,作者:星阁,如若转载,请注明出处:http://www.xgrl.net/n/202407051643261878.shtml

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注