Future Tech | Joy戴成君:首度分享靖亚资本投资多模态领域Pixverse、Viggle、VAST背后的故事


3月19日,在清华大学校内,一场聚焦“AI+应用创新:穿透场景迷雾,定义价值落地新范式”的Future Tech Demo Day举行。系列活动由清华创协、WAIC Future Tech发起,靖亚资本(Eminence Ventures)协同本场主办。活动汇聚了来自技术、产业与投资一线的多位嘉宾,共同探讨一个当下最核心的问题:当模型能力快速迭代、应用创新层出不穷,AI究竟该如何真正穿透场景,完成价值落地?
本次活动的嘉宾阵容,恰好构成了对这一问题的多维回应。
VAST首席科学家曹炎培(清华博士)带来《3D与世界模型的技术发展趋势》,从技术前沿切入,讨论3D与世界模型的演进方向;Viggle Founder&CEO楚航分享《端侧、实时的世界模型与互动游戏产品探索》,聚焦实时交互、端侧能力与新一代产品形态;靖亚资本MD Joy戴成君则以《Pixverse、Viggle、VAST的投资:从过去到未来,多模态领域的投资故事》 为主题,从一线投资人的视角,系统复盘了多模态赛道过去几年的关键分化,并给出了对未来机会的结构性判断。因此,这场分享并不是一份“旁观式”的赛道点评,而更像是一位长期身处产业一线的投资人,对多模态浪潮所做的一次深度复盘。


为什么是多模态?
如果说过去三年AI行业最热闹的关键词层出不穷,那么真正能够持续穿越周期、反复被验证、并不断生长出新机会的主线并不多。多模态,是其中最重要的一条。
从2022年开始,靖亚资本就已将多模态视为重要投资主题之一。围绕这一主线,团队持续关注底层模型、内容社区和工具应用,也从Video、3D、Video和3D结合等不同技术维度布局了几家优秀公司。
在Joy看来,多模态之所以重要,并不是因为它“看起来酷”,而是因为它同时具备几个极为稀缺的条件:它既承接底层模型能力的技术大跃迁,也能最快转化为用户可感知的产品体验;既具有显著的技术驱动特征,也天然拥有消费传播属性。
从市场结果来看,这一判断已经获得印证。
当前估值超过2亿美元的AI软件应用层公司中,约三分之一来自多模态领域;
并且视频、3D也正是华人团队在全球竞争中持续霸榜的领域,无论从底层技术能力还是上层场景应用。

多模态真正残酷的地方,不只在技术,而在节奏
多模态领域的创业故事,从来不是一个单纯由技术推动的线性故事。技术当然重要,但在今天的AI创业里,真正拉开差距的往往不止技术。底层模型训练需要持续烧钱,市场推广需要参与全球竞争,用户规模越大,token消耗越大,而顶级算法工程师的成本也始终居高不下。放在这样的产业现实里,融资不再只是一个财务动作,而已经变成与产品技术并列的核心命题:什么时候融、什么估值、融谁的钱,都会直接影响一家AI公司的发展轨迹。
Joy在现场提到,2023年下半年,市场上出现了第一批做AI原生视频生成的公司,彼时的融资估值大致落在两千万到五千万美元之间。她谈到,其中有一家自己当时非常喜欢的公司,方向很前沿、团队技术也很强,因为考虑到视频生成模型对底层资金的需求,融资要价比较高,但由于当时国内投资人对这一方向的理解还没有完全形成共识,这个价格并没有被很好承接。等到2024年下半年它再次进入融资市场时,外部环境已经完全变了——Sora出现之后,市场情绪、资本偏好和头部效应都迅速重构,大量资金开始向更明确的头部项目集中,已经丧失了最好的市场融资窗口期。而同样类似方向的另一家创业公司,在2025年初成立,短短一年时间迅速成为独角兽。
相似的方向,不同的融资时点,带来创业公司完全不同的命运。这背后折射出的,是AI赛道一个越来越清晰的现实:错过融资窗口,往往不只是少融一轮钱,而是可能直接错过一个时代位置。

从2021到2025:多模态视频赛道,经历了怎样的几轮分化?
为了说明这一点,Joy把视频方向过去几年的演进重新放回时间线上。

在GenAI全面爆发之前,市场已经开始出现一批从需求端变化出发、结合CV技术突破创业的公司,例如HeyGen、OpusClip、Creatify、Fancy Tech等;
到了2023年下半年,最先感知到GenAI技术浪潮的技术型创始人开始密集入场,包括遥光科技、Morph Studio、鹿影科技、HiDream、爱诗科技、生数科技等;

(靖亚资本在2023年底对全球腰部以上的应用层公司盘点:大量公司集中在通用、半人工半AI领域)
2024年,随着Sora横空出世,整个视频赛道被迅速加热,有人借势腾飞,也有人逐渐沉寂;
进入2025年后,模型继续迭代,融资开始明显分层,产品商业化方向也逐步拉开差距,团队综合能力被推到更前台的位置。
这条时间线所揭示的,并不是“谁更早出现”,而是多模态赛道经历的几轮价值重估。每一轮浪潮都会筛出不同类型的赢家:有的团队赢在更早感知需求变化,有的赢在技术浪潮刚刚成型时率先下注,有的赢在关键融资窗口,有的则会赢在模型能力逐渐收敛后,对用户场景和商业化理解更深。
换句话说,技术突破不会自动导向商业胜利,决定最终排位的,是团队能否在不同阶段识别真正重要的变量。

行业已经从“模型打榜”走向“产品商业化”
Joy在现场给出的一个核心判断是,行业已经在逐步告别单纯比拼模型效果的阶段,转而进入更考验产品化和商业化能力的新阶段。

此前几年,市场的焦点更多集中在模型能力本身:谁的效果更强,谁的技术路径更清晰,谁能持续打榜、持续吸引资本,谁就更容易获得注意力。Sora的出现进一步强化了这一阶段的行业特征,也推动视频生成赛道进入更高强度的技术竞赛。
但随着底层能力不断成熟,不同模型之间的差距逐步缩小,竞争的重心也在发生迁移。下一阶段,比的将不再只是“谁更强”,而是谁能把模型能力以更低成本、更高效率、更符合真实工作流的方式交付给用户。模型厂商会围绕若干大场景打造面向消费者的产品,而应用层公司则更贴近用户,承担起模型整合、场景适配和使用方法沉淀的职责。
这也是靖亚资本看多模态应用层的核心逻辑之一。

为什么应用层仍然有很大机会?
在很多人看来,底层模型越来越强,应用层似乎会被不断压缩,甚至沦为简单的接口包装。但Joy的判断恰恰相反。
随着模型能力成熟,应用层反而会迎来真正的价值释放期。一方面,不同模型一定会有不同特点:有的擅长生成质量,有的擅长速度,有的更适合某类创作流程。最终用户并不关心调用的是哪家模型,他们关心的是结果是否更好、过程是否更顺、价格是否更便宜。能够围绕具体需求做模型编排和能力整合的应用层公司,反而可能建立起清晰的产品壁垒。
另一方面,场景know-how会变得越来越重要。即便模型已经很强,当前无论B端还是C端,AI的真实渗透率仍然很低。大量终端用户并不知道怎样把这些模型能力真正用进自己的工作流和创作流程中。也因此,应用层的价值不只是连接技术,更在于帮助用户完成从“知道AI很强”到“真正把AI用出结果”的最后一公里转化。
从这个角度看,应用层不是一个中介角色,而是重新定义产品体验、用户教育和场景落地效率的关键层。未来真正值得期待的,也不是所有应用,而是那些真正懂用户、懂流程、懂创作、懂场景的应用公司。

靖亚资本在看什么样的未来?
围绕未来多模态的机会,Joy在分享中重点提到三个方向。
首先是2D/视频应用层公司的机会。这类机会的核心,不是简单包装模型,而是围绕模型集合能力与场景know-how,去重构内容生产流程。谁离用户更近,谁更懂工作流,谁就更有机会做出真正有留存、有商业闭环的产品。
其次是端侧、实时互动内容。这也是Viggle所代表的重要方向之一。相比传统内容生成,实时生成、端侧交互、即时反馈将带来完全不同的产品体验,也可能催生出下一代互动娱乐和数字内容消费的新入口。
第三是3D与世界模型。这也是本次活动另一条非常鲜明的主题线索。VAST首席科学家曹炎培、Viggle Founder&CEO楚航分别从技术和产品侧讨论了这一前沿方向,而从投资视角看,3D与世界模型并不是遥远的未来概念,而是下一代空间交互、内容理解与虚实融合体验的重要基础设施。相关故事,才刚刚开始展开。
这也是靖亚资本希望传递出的投资理念:在AI时代,投资不只是寻找一个热门方向,而是识别那些能够把技术、资本、产品、用户与场景组织成闭环的公司。对多模态而言,真正的价值机会既不只在模型,也不只在应用,而是在两者之间不断迁移的价值重心之中,在每一次产业范式切换时,对“什么能力最重要”的准确判断之中。








