AI迅猛势头依然不减,海内外视频大模型百花齐放。作为国内首个对标Sora的视频大模型,生数科技旗下的Vidu大模型2024年7月全球上线,20天用户数突破百万,上线100天用户数突破千万,目前全球超过200个国家和地区的用户在Vidu平台上生产了上亿条视频。作为在技术上具有世界领先优势的中国潜在独角兽创业企业,在视频大模型赛道,生数科技在海外被称为“中国的下一个DeepSeek”。
Vidu近日正式推出2.0升级版本,AI视频生成进入“秒级生成、‘分’级价格、人人可用”的时代。生数科技联合创始人兼CEO唐家渝也带着最新版Vidu做客本期《Global Talk》,他是清华大学计算机系硕士、CCF大模型论坛常务委员,拥有人工智能副高级职称。他将围绕前沿视频生成技术的现在与未来,以及AI技术的新一轮畅想,给出最一手的观察洞见。
Eric:对比1.5版本,2.0版的Vidu有哪些核心能力可以展开谈谈?
唐家渝:2.0版本实现了一次全面升级。一方面,最大的提升是生成速度,特别是在泛娱乐场景下,普通用户的耐心不足,快速生成很关键。我们现在生成4秒钟视频的时间可以控制在10秒以内,短期来看,Vidu 2.0推动视频生成进入“秒级时代”;长期来看,随着生成速度的提升,视频生成将逐步实现实时化,催生互动短剧、互动游戏等全新的用户体验形式。除了生成速度,Vidu2.0把价格打了下来,直接推动视频生成走向“分”时代,生成1秒视频仅需4分钱。另一方面是参考生视频的准确性、画面稳定性、精细度等方面都做了全方面提升。
(注:“参考生视频”指“主体参照”,通过这个功能,用户只需上传一张任意主体的图片,就可以锁定该主体的形象,并通过输入不同的描述词来变换场景,从而生成主体形象一致的视频)
Eric:之前 AI 视频基本上都是明显的数字人或者固定创意模板。像Vidu做的“参考生视频”还是比较少。
唐家渝:在视频一致性生成能力方面,Vidu一直在引领行业。最开始我们拥有人脸一致性的生成能力,后来扩展到整个人体,包括妆容和服饰,甚至杯子、床、汽车等物品以及虚拟 CG 角色。Vidu1.5版本能够实现“多主体一致”,比如输入我的人脸、杯子、环境三张照片,“我拿着杯子在这个环境里喝茶”,Vidu能自动化生成视频。模型底层智能化程度更强之后,它有举一反三的能力。这些能力对于创作者非常重要。
Eric:真正意义上实现了视频元素化拆解,这样跨越式的技术突破是如何布局、如何实现的?
唐家渝:我们讲好一个故事的时候,肯定会介绍主角、背景等重要主体。在所有片段当中,主体肯定是一致的,这是内容创作非常基本的需求,也是之前创作者们用AI生成视频的痛点。之前有可能生成几个视频后,发现第一个视频跟第二视频里面的人物形象完全不一样,这故事就没法讲。从这个需求出发,我们训练出一个更具有举一反三能力的底层模型。给你一张图,就能在接下来几个场景里保持住图中主体形象。
Eric:在实现多主体一致上,Vidu遇到哪些挑战,又是如何解决的?
唐家渝:最直接的挑战是算法。团队一直深耕生成式模型领域接近二十年时间,我们非常擅长从底层核心层面解决这些问题,基于之前的积累和对行业需求的理解,从算法层面提出了架构创新,使得模型变得更加聪明。
现在视频生成、图像生成、音频生成等工具的底层通用架构是 Diffusion+Transformer 架构,这也是我们在全球最早提出来的,比 Sora 底层同样的架构还早几个月提出。
Eric:所以Vidu也被称为“中国的Sora”,Deepseek爆火后,海外媒体称生数科技是视频大模型赛道的下一个Deepseek,需要提前被预防,对此您怎么看。
唐家渝:Sora最早出圈,非常直观地占领了海内外学术圈、行业圈甚至是普通人的心智。我们是中国首个长视频大模型且在能力方面全面对标Sora,所以“中国版的Sora”就这么被传开了。但其实在创新方面(包括一致性生成能力等等),Vidu一直是更领先的,拥有非常不同于 Sora 和其他模型的特点和能力,例如前文提到的“多主体一致性”——我们能够精准保持多个主体形象的一致性,并进行融合生成。此外,Vidu 的生成速度也远超 Sora,可在秒级完成视频生成,而非 Sora 的分钟级。未来我们会根据自己的洞察,进行模型的迭代,我们很少拿自己去跟谁比对,因为我们其实一直都是“驭浪者”,不是“追逐者”。
DeepSeek爆火后,的确有看到海外媒体在渲染生数科技与DeepSeek的相似之处,提到了中国背景、创业公司、技术原创优势等,但是我们还是希望保持务实,在视频大模型赛道持续发力,暂时不想被关注太多。

Eric:Vidu的企业类客户以哪些行业为主?
唐家渝:第一类是泛娱乐。像 AI kiss、 AI Hug 等玩法,海外有非常多面向C端用户的摄影、相册相关应用底层接的Vidu;第二类是视频内容创作,例如广告素材和动漫影视里的特效或片段,也有很多在制作上用到了Vidu。
广告营销公司,包括电商公司例如亚马逊也是我们的客户,我们帮助他们生成网站商品图。Vidu 2.0版本的生成速度是全球最快的,非常好地支撑广告营销素材的大量制作需求。
Eric:在营销场景中,创意内容生产最难的是“从无到有”。Vidu 的参考生视频能一定程度上实现进步。你认为这之后的方向是什么?
唐家渝:我们会继续往下做参考生视频。
一方面,参考维度需要提升。现在有人物或物品形象做参考,但是很多时候有更多参考诉求,比如某种拍摄风格、某种运镜等更“虚”的东西。例如“王家卫的风格”,我们俩脑海中的画面是大差不差的,人能很好的理解并做模拟,我们希望 AI 也能做到,不仅是希望,我们确定 AI 可以做到。我们会在参考维度上去做提升。
另一方面,参考准确度精细度需要提升。Vidu 2.0版本相对于 1.5版本在这方面有进一步提升。
Eric:对于比较抽象的表达,AI如何达到理想效果?
唐家渝:比如刚刚的例子——参考王家卫的风格。我们当然也可以去抽离出抽帧感、高对比、高饱和等特征,但是更多还是靠一些非文字的表达去呈现。这也是为什么做通用多模态模型的原因,对于一个世界的理解、感知和交互,一定是多模态才能更加准确,表达更加充分。
Eric:AI有没有可能未来会主动发起和人的沟通,去消除这些认知差异?
唐家渝:一定会发生,而且很快就会发生。从产品设计和交互设计上,大家也会往这个方向去设计。
Eric:技术发展到什么阶段可能脱离“参考生成视频”,进入到真正“从无到有”的过程?
唐家渝:二者是不矛盾的。从创作和表达来看,最初都会设定人物形象、场景布景等。当然也有一些场景没什么可参考的,一个脑海中的画面,我们现在的模型也能支持。未来我们会加入更多互动式修改能力,把脑海中的画面真实反映出来。
Eric:Vidu在海外市场应用较多,本地化问题怎么解决?
唐家渝:我们现在是训练通用的视频模型。它对世界方方面面的知识都有学习,对于特定国家的特殊偏好、风土人情或者文化等,我们也可以特定地多让他学习一点相关文本、视频、图像等知识,它能更好地理解。包括我们也会在一些特定国家去定制化符合当地文化趋势或流行趋势的特效玩法,让大家更便捷地玩起来。
Eric:往后多想几年,除了和视频结合之外,您觉得 AI 技术下一个覆盖方向是什么?
唐家渝:我们现在底层做的是多模态通用模型,视频模态蕴含的信息最为丰富,表达的情感内容也最为丰富,所以我们现在最关注。视频其实就是数字世界的内容,这个多模态化能力也能很好地跟物理世界做交互,比如学习各种传感器信息、理解这个世界,同时也能操控机械人、机械臂等实体。我们觉得多模态模型其实是能打通数字世界和物理世界的。
Eric:非常有体感的新世界。在AI技术加持下,传统生产力和生产人员还是面临比较大挑战的。
唐家渝:多模态通用模型可以很好地泛化到各种场景。过去的刀削面机器人或某种质检机器人能做的是特定任务,而多模态通用模型能做通用任务。比如它做视频生成,能生成动漫、现实、奇幻各类风格,同理它在做现实世界交互理解和操纵的时候也是通用的,我们对于多模态通用大模型的未来非常看好。
Eric:回归到商业社会,AI 产品技术如何取得商业化成功?
唐家渝:我们当下聚焦视频模态,除了因为技术上它拥有更丰富的信息表达,更有商业化的考虑。
现在大家接触到的信息当中,视频占绝对主导性,并且极具多样性。视频生成能力每上一个台阶,都能覆盖到更多视频应用场景和更深的落地深度。我们始终看好视频模态的发展,在发展过程中尽可能去覆盖到尽量多的场景和行业,同时我们有自己的判断标准,在两到三个行业重点做深耕落地。
Eric:这可能就是最朴素的商业化思路。技术的迭代更新是目的,也是手段;寻找行业解决方案落地,是手段也是目的。二者脱离不开。
唐家渝:脱离不开,相辅相成。大家之前有一个误区是觉得 AI 无所不能,方方面面都要推,都要做得很好。第一本身是不现实的,第二商业化是很难成功的。而是你真正识别到已有的 AI 能力可以在哪些场景中解决他们的核心问题,把这些问题做透,把行业真正扎根下来才是最重要的。一开始不要贪广,不要贪多。
Eric:生数科技这个名字背后有哪些含义?
唐家渝:“生数”其实是一个中国古代的词,远古时代流传下来的河图洛书里讲:生数生五行,五行生万物。其实就是“生数生万物”的推演,很好地代表了我们做的生成式 AI,希望利用多模态模型生成万物,更好地服务于创造力释放和生产力提升。我们觉得这个词的中文意象非常好,就将公司命名为了生数。
Eric:非常期待生数科技能够实现生万物的愿景!感谢唐总今天给到我们关于AI、关于参考生视频的具象化看法以及观点。最后也请唐总给《Global Talk》栏目一个寄语吧。
唐家渝:首先祝《Global Talk》栏目越办越好,也希望钛动科技能帮助越来越多中国创业者走出中国,走向世界!