字节、阶跃之后,张心皓押注Human Loop:Agent Loop赢家通吃,创业要走另一条路

张心皓在字节跳动待了 10 年。
参与了今日头条从几百万 DAU 做到接近一亿的过程,从零开始建起皮皮虾。2023 年出来创业,公司被阶跃星辰并购,在里面做了两年 ToC 产品合伙人,把冒泡鸭和跃问都经历了一遍。
去年 6 月,他出来做了 Jovida。
Jovida 的产品目标只有一句话:「Zero Friction from Desire to Action,从愿望到行动之间,零摩擦。」区别于以「自动完成任务、Agent 替代白领工作」为方向的 Agent Loop 路线,Jovida 想做的是「Agent in the Human Loop」,让 Agent 真正进入用户的生活。
「Claude Code 定义了纯 Agent Loop 的智能上限,它会越来越全能,正在把所有工具效率类产品的天花板一个接一个打穿。」
「到今年年底,我判断人类在 Agent Loop 中干的事情接近 0%。那人类真正剩下的东西,就只有自己的体验和行为了。」

工作效率是大厂和顶级创业公司的战场。工作之外的 16 个小时,那些想做但没做的事、想要但还没发生的改变,依然没有人好好解决。Jovida 想做的,就是这件事。
以下是 Founder Park 与张心皓的对话,经编辑整理。
产品官网:https://jovida.ai/
采访 | 万户
编辑 | 夏天
Founder Park 正在持续寻找值得被看见的 AI 团队与项目。
我们将通过「AI 产品市集」、内容报道、社群分发等方式,帮你触达早期用户、获得真实反馈,以及建立关键连接。
如果你正在做 AI 相关的事,欢迎和我们聊聊。
01
纯陪伴产品不成立,
但陪伴的价值是存在的
Founder Park:先聊聊你的个人经历?
张心皓:严格来说这是我第三次工作经历。第一段在字节跳动,待了差不多十年,2014 年到 2023 年。最开始以应届生身份加入今日头条,当时头条只有几百万 DAU,大家一起做到了将近一亿。之后在字节内部一直在探索各种内容平台、UGC 平台,从 0 到 1 做了皮皮虾。
皮皮虾峰值做到差不多 10 亿左右的营收,团队有上百号人。基本上是短视频大浪潮之前,做得比较成功的一款偏娱乐社区的产品。但短视频来了之后,天花板比较受限,我就把产品交给别人,重新加入教育这边负责一款 ToB 产品,最后在字节人力那边做了一年半,负责组织改革和创新,这十年参与或见证了字节跳动几乎所有产品与组织从 0.5-1-100 的所有过程。
2023 年初出来创业,做了一个招聘方向的 Agent,三个多月后公司与阶跃星辰合并,在里面做了两年 ToC 产品合伙人。先探索了冒泡鸭,之后转到跃问。去年六七月出来,创业做了 Jovida。
Founder Park:字节这 10 年,给现在做 AI 产品,哪些东西还在复用?哪些东西反而成了束缚?
张心皓:反而是对人才的判断上面帮助最大。 AI 时代很多具体做产品的思路甚至是束缚,或者要反着来,但字节很鼓励的是看人看本质,EGO 要小,Context not Control,这些非常本质的关于人的判断,我觉得是一直受用的。
但具体到很多做产品的套路或策略,很多时候甚至要故意反着想。
Founder Park:阶跃两年最大的收获是什么?
张心皓:在大厂做移动互联网,更像是在别人给出解题思路的环境中去解特定的题。字节那套解题思路是张一鸣给点拨的,足够先锋、足够第一性,围绕组织、人才、一系列 APP 进行的综合训练。到了阶跃,更像是在一个完全不同的解题框架内,从 0 开始学习。
从阶跃出来还有一个原因:阶跃作为大模型公司,核心是服务于大模型本身的提升。对于偏产品、偏业务的同学,基本上没有能力去提升模型智能的上限。但当我出来的时候,整个行业范式已经从大模型进化到了 Agent 范式。Agent 最近有个更时髦的词叫 Agent Harness,它更像是大模型时代的操作系统。这个操作系统一旦成熟,对所有业务同学来说就有了非常多机会去开发各种应用。
包括我跟行业里很多大模型公司的业务同学交流,会发现大家好像都有点有劲使不出,但 Agent 时代到来之后,大家又充分可以释放每个人的想象力做出各种各样的产品。
Founder Park:2023 年底大家都在做 AI 陪伴,现在回头来看,那一轮探索给你们留下了什么?
张心皓:更多的是在平衡确定性和探索模型边界。那个节点行业内能用的产品,一个是 Perplexity 把搜索结合进去,第二块就是 AI 陪伴。
一系列探索下来,冒泡鸭的留存非常好,日活用户时长将近两个小时,但最大的几个问题在于:第一,它没法帮助模型智能提升,纯闲聊对模型智能帮助不大。第二,用户天花板有限,对虚拟角色陪伴感兴趣的用户天然是一小撮。
但我们团队从一开始就明确,纯 IP 或纯角色陪伴一定不行。所以做了一个转变:把角色陪伴融入到互动故事和互动游戏中。单纯跟角色聊天,时长越长 Token 消耗越高;但如果模型生成一系列互动故事,Token 的边际成本是递减的。做了一两个月就转型了,产品路线跟星野、Character.AI 也不完全一样。
最核心的收获是对陪伴价值的认知。很多人可能因为纯陪伴类产品天花板有限,就否定了整个「陪伴」这个属性的价值。但我们现在做的是服务于人个体变好的产品,会发现陪伴价值非常大。把陪伴作为 100% 要素做成一个产品形态,在那个节点不成立。但陪伴的价值如果融合到更多产品场景中,比纯工具效率类产品的价值大得多。
以前更像是基于对话的 chatbot 式陪伴,上下文就是你说的话;现在更像是你身边真实社交关系的陪伴,它了解你更多的上下文,能干更多的活,在过程中交付某种陪伴价值。
02
不做工作效率 Agent,
做工作之外的个人 Agent
Founder Park:去年 6 月出来,为什么是那个时机?
张心皓:发现 Agent 的机会变得非常确定了。相比 LLM,Agent 离用户场景更近。基于 LLM 能做的事情有限,但 Agent 一旦出来,解锁的机会太多了。对做业务、做产品的人来说,这是一个极好的武器。回头来看,天时地利人和都到了一个很好的击球点。
而且创业是一个更充分地跟市场竞争的状态。塔勒布有本书叫 Skin in the Game,让自己的肌肤之痛参与到市场竞争中。自己创业让身心都能感受到市场风险,这反而是创业非常重要的要素。
Founder Park:方向一开始就定了?
张心皓:都确定了。我在 2023 年 3 月到 6 月就创业做过一个招聘 Agent,那时就在探索 Agent 的可能性了,只是技术更不成熟。2025 年更像是 Agent 技术成熟之后的确定性方向。
方向确定之后,我们没经过太多讨论就把「帮助个人健康」敲定了。我们团队里的产品合伙人,通过一个营养师减肥,三个月瘦了 40 斤。我们觉得营养师这个角色是一个非常好的可以被 Agent 化的工种,而且大部分交付都在纯线上。
从这个原点出发,我们思考:从减肥到各种泛健康,这些领域背后都有一个「教练」角色可以被 Agent 化。我们始终在思考:现实生活中一个人怎么做好这件事,我们就应该努力让 Agent 像人一样做好这件事。
Founder Park:为什么不做工作效率?
张心皓:我天然不太希望陷进一个所有人都在卷的红海。整个工作效率赛道,不管去年还是今年,都是巨头的主战场。真正没有被满足的,是非工作时间的 16 个小时。
往两个方向看:一类是帮人更好地消磨时间、获得某种体验和情绪价值;另一类是帮人改善生活状态,让想要的东西真正发生变化。我们更偏后者。从冒泡鸭到 Jovida,更像是一点点把一个模糊的「个人生活方向」收敛成了当下更具体的命题。

Jovida 上的目标可以很自由
Founder Park:所以你在找弱共识的赛道?
张心皓:共识不是不对,共识往往意味着确定性很高。但作为创业公司,你要想好你的结构性优势是什么。如果你没法确保自己在和大厂、和其他创业公司的厮杀中取得竞争优势,那就逼着你去思考那些当下弱共识、但长期会成为共识的事情。我们希望更早地占据时间优势。
在冒泡鸭的时候就是这样,23 年我们在角色陪伴上做了一个弱共识的探索:内容互动和游戏互动。24 年在跃问做了一个 Vibe Coding 创意板,回过头来看类似于现在 Loopit 那种 AI 生成小游戏。我不希望去跟别人卷 chatbot 或卷工作效率。
Founder Park:有没有担心做得太早?
张心皓:提前一步是先锋,提前两步就是先烈了。最大的关键是 ready 的技术会不会在未来 6 个月内到来。
从 Deep Research 开始,OpenAI 已经把第一代 agent 能力解锁出来了。模型不只是会 chat,它真的可以围绕一个目标去规划、检索、调用工具、整理结果。之后 Manus 和 Claude Code 又把这种能力覆盖到越来越多场景。
如果穿透到底层去看,这个方向的确定性已经很高。它可能在模型、上下文、记忆管理上还有很多阈值要提升,但 agent 技术本身已经成熟。
用户教育当然是更大的风险。但在 AI 产品层出不穷的阶段,谁先让用户知道一个场景,谁就能更早取得认知优势。承担教育用户的成本,本身也是获得先发收益的方式。
Founder Park:所以你的意思是,技术成熟度差不多了,如果市场和用户教育还没有被做好,反而是你们的机会,因为先下场的人能更早拿到用户认知?这会不会有点像先占住用户心智?
张心皓:这确实是一个更大的问题。很多 Agent 产品出来之后,用户还没有很好地适应产品背后的场景。但教育市场本身就是谁先抢到先机、谁就获得最大收益。它是风险最大、但收益也最大的事情,Manus 就是典型,出来之后既完成了教育用户,又获得了大量用户。
在 Agent 产品层出不穷的时间段内,谁最先让用户在你的场景中了解你,就可能取得相当大的用户认知。认知在当前节点是非常重要的事情,当然比认知更重要的肯定还是产品体验以及用户粘性。
03
从愿望到行动,
产品目标是消除中间的摩擦
Founder Park:Jovida 这个名字怎么来的?
张心皓:首先比较务实,先看有没有人注册商标。AI 时代产品名字本身没那么重要了。Vida 来自 Vita,代表生命和活力。Joy 是快乐。太多的人关注工作效率能不能提升,但我们希望用户能在生活中感受到更多快乐。Joy 和健康是人类长久以来希望获得的两种东西,合二为一,就是 Jovida。
Founder Park:你们产品的核心价值是什么?
张心皓:从第一天就定义得很清楚,而且回头看也没太大变化。Zero Friction from Desire to Action,从愿望到行动之间的零摩擦。
我们想帮助用户把从「想要一个事情」到「真的去做」之间所有摩擦消除。
过去我们经常用工具价值或陪伴价值概括产品,但在我看来,要分清楚目标和手段。我们的目标是消除愿望到行动之间的摩擦;工具价值和陪伴价值都是手段,而且两者都要用好。
工作效率类产品已经有越来越多纯 agent loop 产品在解决,Claude Code 是典型代表。它可以非常好地解决大量工作和执行类问题。
但在工作之外的 16 个小时里,有非常多想做但没做的事。比如你在 B 站或小宇宙刷到一个播客,真正把这两个小时的播客内容转成行动,中间有大量摩擦。你在小红书刷到一个演唱会信息,从计划抢票,到机酒安排,每一步也都是摩擦。你刷到一个旅游目的地,从向往到规划,也需要有人推着你,才更大概率完成。
单纯工具或单纯陪伴都搞不定这件事。不同愿望和目标是动态变化的。有的用户更需要情绪支持,有的用户更在乎结果交付。产品应该根据不同场景、不同需求,用工具价值和陪伴价值帮用户抵达真正想要的结果。

Founder Park:降低摩擦,但不是改变行为。这个边界怎么把握?
张心皓:改变人是反人性的,几乎不可能。我们做的是让人们本来就想做的事更容易发生。
这里有一个学界理论叫福格行为模型。一个行为为什么发生,背后有三个要素:motivation,动机;ability,能力;prompt,触点。
任何一个行为,都是动机、能力和触点共同作用的结果。抖音、美团外卖、多邻国这些产品,都可以用这个模型解释。只要把这三个点做到某个阈值,用户行为一定会发生。
比如减肥。首先用户要有动机。如果一个人完全没有动机,我们很难唤醒他。其次是能力,能不能降低行动门槛。比如用户要减肥,agent 能不能直接通过外卖 API,把健康餐送到用户面前?很多人真正痛苦的地方,往往不在吃不吃健康餐,更多在选外卖、找健康餐厅这一步消耗了大量摩擦。
第三是触点。传统工具是定时提醒。我们希望基于 context,在合适时刻提醒。比如知道你今天晚上 8 点在涮羊肉店坐下,就告诉你今天涮肉可以把麻酱换成海鲜汁,多吃蛋白质和蔬菜。
agent 擅长这三件事:它能营造个性化外部动机,能用工具降低行动门槛,也能知道 context,在合适时机触达。
Founder Park:这套行为模型是你们一开始做产品时就在参考的吗?
张心皓:是的。我自己很早就在关注福格行为模型,甚至在它还没有被翻译成中文版的时候,就已经在思考这套理论到底有多少可实施性和科学性。
我们从做这件事的第一天开始,就在寻找一种跟人类行为、跟人性不对抗的理论方式。字节给我的产品教育里,很重要的一点就是做符合人性的产品,或者做符合人性的机制。很多人一听减肥,会觉得它逆人性,但逆人性的地方往往来自过度关注意志力,或者强求一个没有动机的人去减肥,这些都不符合行为科学。
04
不去定义人,
去定义场景
Founder Park:你们会有明确的用户画像吗?
张心皓:我在思考「用户画像」这个概念是不是也是古法做产品的思路。你要先框定一个很具体的用户画像,几十到几十岁的男生或女生、收入多少、是不是白领。但 Agent 天然是更通用的东西,你在思考用户画像的时候不应该再围绕古法画像去思考,而是思考你的产品能不能圈定一部分用户价值,再把这些价值搭配上一个又一个场景 sell 给不同的人,而不是一上来就框定到特定画像的人群。
所以我们更关注的不是他是谁、什么样子,而是他现在有没有一个想做但没做的事。只要有这么一个 gap,我们就有机会创造价值。 不去定义人,去定义场景。甚至这个场景可以有非常多,而不是一个很 niche 的很小的场景。
Founder Park:那 PMF 怎么判断?
张心皓:PMF 这个概念在 agent 时代也要重新思考。
过去 PMF 意味着,一个产品在一段时间内,用相对稳定的方式满足用户一种相对稳定的需求。但 agent 时代,模型能力、工具能力、交互范式都在变化。
如果一个产品过早定义甚至以为自己找到了 PMF,就意味着它跟用户稳定需求极为匹配。但另一端,agent 能力在指数级提升。过早相信自己找到了 PMF,团队就会在一个确定的 PMF 上做局部最优,反而错失下一轮能力跃迁带来的机会。
AI 创业最大的风险,不在没找到 PMF,风险在过早以为自己找到了 PMF。
我们现在的策略,是每个阶段都达到一个还不错的匹配状态,但同时更早为下一代 agent 能力做好准备。在光谱上,我们会稍微偏离用户稳定需求一点点,离模型智能上限更近一点点。
Founder Park:那你们怎么确认需求是确定的?
张心皓:上一代产品已经验证了很多需求。
语言学习有多邻国,月活 1.5 亿左右。减肥、睡眠、祷告提醒,每个品类在移动互联网时代都有大几百万甚至上千万 DAU 的产品。这些产品都在单点场景下验证了需求,只是它们用纯工程化方式解决问题。
我们今天做的是,用 agent 方式覆盖更多场景,更好地满足这些需求。
比如抖音替代了看电视,刷视频和换台,本质上满足的是同一类需求。我们也能从上一代产品里看到,用户需求已经存在,只是产品表现形式会变。
Founder Park:单就学英语这个场景,你们产品跟多邻国对用户来说有什么区别?
张心皓:多邻国是个挺伟大的产品,我们核心是看能不能把多邻国的核心理念 AI native 化。具体来说有三个维度的差异:
第一是动机层面。Jovida 允许用户自己创造陪伴自己的 IP,可以是知名角色,也可以是自己喜欢的角色,千人千面地提升动机。多邻国的 IP 是团队运营多年的最大公约数形象,但一定不适合所有人。
第二是能力层面。多邻国的内容是人工定义的填空题、连线题;Jovida 可以让用户自定义学习方式。比如你想学大模型相关的英语,可以把一个海外发布会视频直接扔给 Jovida,它就能把视频变成语言学习的材料。这种定制性多邻国做不到。
第三是触点层面。多邻国的触点是固定时间推送,非常死板。我们知道用户的日历和日程,知道某段时间有 5 分钟空隙,就引导用户来看 5 分钟感兴趣的语言材料。
但我们更大的优势在于关联性。多邻国学英语和学法语的 context 之间没有什么互相促进的作用。但对我们来说,知道了你的演唱会意图、睡眠意图、护肤意图,这些意图之间完全可以互相关联,让 Agent 帮你挖掘更多意图,也让单个意图表现更好。

Founder Park:用户在什么时候会体验到 aha moment?
张心皓:短期的 aha moment 一定来源于最浅层的陪伴价值。包括我们每天学多邻国的时候,最 aha 的其实不来源于你把题做对了,而是做对之后给你的特殊动效、当天的连胜。
但还有一种 aha moment 来源于多个目标之间的涌现效应。比如我知道你要去看演唱会,就把你喜欢的明星的歌词转成今天英语测试的题。你并不是在学一门枯燥的语言,而是模型自动帮你准备好了你喜欢的明星演唱会歌词的英语版让你来测试。
或者你的一个目标是想要更好的穿搭,我把国外服装品牌推荐给你,把品牌名当成英语练习的词汇,怎么发音、什么意思、起源是什么。五一要去东南亚旅游,今天练习的词汇就是旅游相关的;6 月要去硅谷了解 AI 创业,提前两周帮你准备和 AI 创业者交流的词汇。
我们的 aha moment 不来源于单点场景做得多好,而来源于 Agent 知道了你足够多的上下文之后,能把这些上下文之间互相联系起来。
Founder Park:更像是打通了多点意图之后涌现出来的一些新的惊喜。
张心皓:「涌现」这个词非常准确。而这一切的前提是用户愿意把生活中的意图分享给我们,我们创造了足够强的动机,整个事情就循环起来了。
05
Claude Code 之后,
创业公司要做 Agent in Human Loop
Founder Park:你怎么看 Claude Code 这类产品的 PMF??
张心皓:Claude Code 基本上定义了纯 Agent Loop 的智能上限,而且这种上限能够吃掉非常多的垂类 Agent。 以前有 PPT Agent、表格 Agent、各种垂类 Agent,现在 Claude Code 全都能搞定了;你用 Claude Code 编辑视频、生成图片、做调研,甚至当成简单的 chatbot,都可以。
而且这里面还有个额外的优势:在工具效率场景下,上下文之间是可以互通并解锁新场景的。我们公司内部把代码、设计稿、产品文档,甚至飞书文档都融到一个 context 里面,从数据分析再到产品分析,再到 bug 查找,整个链路全都被 Claude Code 覆盖了。
工作中整体是一个需要重协作的完整链路,一方面从能力角度会发现赢家通吃,另一方面从上下文角度也是赢家通吃。如果有另外一个数据分析 Agent,它只能拿到数据分析相关的上下文,哪怕效果优化得足够好,也完全无法像 Claude Code 一样贯穿整个链路。
我们最近在对比 Claude Code 生成 PPT 和 Gamma 这种在 PPT 领域沉淀了很久的老牌产品,完全降维打击。
Founder Park:这岂不是意味着工具效率赛道创业者没什么机会了?
张心皓:如果一个团队做的是纯粹的 Pure Agent Loop,有机会的概率会很小。可能做成一个生意,但很难做成一个大赛道。因为通用的 Claude Code 会变得越来越全能越完善。
到今年年底我判断,在纯 Agent Loop 中人类做的事情几乎等于 0% 了,它已经远远超过大多数人能做的事。
Founder Park:你们提到 Agent in Human Loop,跟 Human in the Agent Loop 最大的差别是什么?
张心皓:最大的差别在于到底是以 Agent 为本还是以人为本。我们起步是希望帮助人变得更健康,所以天然更在意人。Agent Loop 可以没有人,但 Agent in Human Loop 无法把人取代。
在 Claude Code 变得越来越强之后,我们会发现这种纯 Agent Loop 会替代越来越多的工作岗位。当越来越多工作岗位被取代之后,人类真正剩下的东西其实就只有自己的体验和自己的行为了。足够大基数的市场只有 Agent in Human Loop。
而且 Agent Loop 的用户只能作用一小撮高净值用户或公司,帮公司节约人力成本,订阅费也很贵。但 Human Loop 的用户基数不是少数人,是作用于更多用户的。我们越来越觉得,能不能也让大多数人享受到 Agent 进步带来的红利?因为大多数人其实只能感受到 Agent 进步带来的对自己工作的威胁,体验不到红利。
Agent in Human Loop 一方面用户基数足够大,第二方面它是我们的产品起点,第三方面它又有非常多不同的细分场景,天然适合创业公司去找到用户价值点。长期看来,对创业公司来说选这条路风险更低,也更有可能形成护城河,而且跟大厂的利益完全不冲突。
大厂天然的业务激励函数跟用户利益不完全一致。比如一个用户可能不希望沉迷 YouTube,但谷歌不会让 AI 帮用户少刷 YouTube,那会影响广告业务。Apple 也不会做一个 AI 让用户减少屏幕时间。Human Loop 中间的奖励函数跟大厂的奖励函数是不一样的。
Founder Park:这两条路线会互相吃掉对方吗?
张心皓:不太会。Agent Loop 吃的是工作大盘,Human Loop 吃的是生活大盘。生活场景足够多,用户需求足够分散,背后没有像 Agent Loop 那种清晰的 Benchmark 来衡量,融入了太多个体感受层面的东西。两个东西更多是互补的。Agent Loop 越强,Agent 就越能有效帮助 Human Loop。但纯粹的 Agent Loop 不需要人参与,也吃不掉 Human Loop 的生活盘子。
06
上下文飞轮是「Agent 时代真正唯一的壁垒」
Founder Park:Jovida 会怎么获取生活场景里的 Context?
张心皓:很多人一谈上下文,会去寻找更花哨的技术路径,比如强迫用户授权,或者做一个新硬件获取上下文。这些事情有价值,但对偏生活化、personal 的上下文来说,更大的阻力不在技术,而在于能不能创造一个场景,让用户有动机把上下文喂给你。
创造场景和动机,比用某种技术获取独特上下文更重要。
如果一个产品足够泛,用户不知道你拿上下文干什么,就没有动机分享。但如果产品明确能帮你减肥,你自然会分享体重、身高、每天吃的东西。如果你想看某个明星演唱会,把小红书帖子分享给 Jovida,它就知道你喜欢这个演唱会,知道你在哪个城市,知道你想什么时候去。
场景创造了上下文。
Founder Park:现在你们会收集哪些上下文?
张心皓:一类是手机系统能开放的东西,比如日历、健康、运动信息等。
另一类更重要,是用户在外部平台看到的东西。比如小红书、B 站、小宇宙,海外可能是 YouTube、Instagram、Twitter。用户可以把看到的内容一键分享给 Jovida,我们帮他学习、拆解,转成每天的 action。
未来我们还会有电脑端、邮件、电话、WhatsApp 等即时通信软件的上下文,围绕用户 personal context 构筑完整的低摩擦获取渠道。
Founder Park:最重要的上下文是什么?
张心皓:用户意图。
用户意图是最重要的上下文。意图背后就是动机。只要捕获了用户短期动机和愿望,就能延展出很多可能性。
比如用户有护肤意图,我们能不能进一步帮他推荐睡眠相关目标?用户有旅游愿望,能不能推荐旅游服装、防晒霜?一旦获取了用户的欲望或目标,就可以延展出非常多可能性。
Founder Park:是不是也意味着,你们越早下场、越早建立用户认知,就能越早拿到用户更多上下文;上下文积累得越多,越能给用户更多惊喜?
张心皓:我觉得 AI agent 创业时代,真正的护城河是上下文飞轮。
移动互联网时代大家讲数据飞轮,但现在数据飞轮这个词已经过时了。大模型没有壁垒,agent 编排也没有太多壁垒,创业公司唯一可能拥有的,就是你创造了某个场景,并且把这个场景体验满足得极好,让用户愿意在这个场景下源源不断地分享上下文,然后因此形成壁垒。
站在用户角度,他会感觉 agent 越来越懂我,越来越能帮我干更多事,也越来越能在合适时机像一个人一样触达我。我们评判产品场景的时候,也主要看三个标准:第一,agent 有没有真的越来越懂我,是不是知道我更多上下文之后,能给我更个性化的东西;第二,agent 能不能真的帮我干很多事,而不是只在那里说两句话,最后还是让我自己干;第三,它能不能在合适触点给我一个恰当提示,让我在那个时间点真的往前走一步。
Founder Park:但如果站在这个点上,像微信或者苹果这种天然拥有更多上下文的公司,它们如果自己做一个类似产品呢?
张心皓:这是一个很好的问题。但站在我的角度看,微信和苹果更多要做的是平台,平台的核心目的更偏向让自己的生态足够强,让底层能力更强,让整体生态之间的联动足够好,不会天然聚焦在消除愿望到结果之间的摩擦。所以这里面会引出一个问题:平台的激励函数,或者说激励目标,跟我们这个消除摩擦的 agent 并不完全对应。
比如苹果一定不会天然希望用户少买几个订阅,苹果更希望自己的订阅生态越来越丰富;但用户在 Jovida 这里可能会提出完全相反的目标,比如我每个月 AI 支出太高了,能不能帮我合并订阅、降低 AI 支出、降低总订阅支出。所以平台的定义、模式和商业目标,天然跟我们不一样。
反过来,当苹果、微信这类平台给第三方产品提供更多基础能力,比如日历、健康、跨 APP 消息、微信小程序里的接口和载体,我们其实会更受益,因为我们能够拿到更丰富的 context、更底层的权限接口,以及更顺滑的用户触达。所以我觉得我们跟平台并不是简单替代关系,很多时候,两边会互相促进。
07
ARR 不是目标,
用户愿不愿意持续「付工资」才是
Founder Park:你们怎么考虑商业化?
张心皓:现在大家都讲 ARR,但 ARR 是结果,不是目标。
移动互联网时代沉淀下来的不变东西,是先让用户离不开你,充分满足用户价值,形成稳定日常使用节奏。商业化应该是自然发生的结果。
当然,AI agent 产品天然成本更高,所以商业化节奏要更激进。但节奏激进,不代表顺序倒置。
形式上,我们也会是订阅制。但订阅这个词不本质。我们一直按照「人」或者「劳动力」的方式打造这个 agent。Jovida 更像一个帮你从愿望到行动之间消除摩擦的生活秘书。更本质的形式,是用户愿意为 agent 付工资,让这个生活秘书陪着、带着自己完成一些事。
Claude Code 像公司招了一个 AI 程序员,帮公司干很多事。Jovida 更像用户招了一个生活秘书,陪着、带着他达成生活中的愿望和目标。
Founder Park:如果产品目标是消除摩擦,不直接承诺最终结果,这和付费之间会不会有 gap?
张心皓:会有 gap,因为我们做的是 human loop,不是纯 agent loop。
纯 agent loop 可以追求把 gap 消成 0。但以人为本的产品里,人这一环绕不过去。我们能做的是用行为科学,让 gap 足够小,让用户不需要太多意志力,也能更接近自己的目标。
每个人对最终价值的定义不一样。用户想减肥,但最后可能发现自己真正需要的是建立自我认同。只要达成用户自己认可的价值曲线,也是一种结果。
但如果一个目标完全依赖人的意志力,软件 agent 很难做到。早期我们不会选择太硬核的场景,而会选择用户动机天然比较强的场景,比如旅行、社交、祷告、学习等。
Founder Park:那你们看哪些指标?
张心皓:ARR 如果考虑续费率,是一个综合指标。它代表用户愿意持续为某种结果或价值付费。
但几个指标不能过度追求。比如 DAU,agent 产品成本结构已经变了,DAU 越高,未必对公司财务模型越好。再比如单次 ARR,很多折扣、年付都会让它变得虚荣。
更本质的是两个指标:用户愿不愿意持续用你,以及用户愿不愿意持续付钱。
拆到过程指标,我们更关心用户愿不愿意持续贡献 context,愿不愿意每天打开产品。相比 token 消耗,这两个指标更关键。很多 token 消耗是低价值消耗,甚至是 agent 空转。
如果用户设了一个定时任务,agent 每天消耗很多 token,但用户根本不看,那这种消耗没有太大价值。
08
端云一体,
参考鸿蒙系统的分布式架构
Founder Park:你们的 Agent 架构跟 Manus 或 Claude Code 那种会有大的区别吗?
张心皓:完全不一样。我们设计 Agent 架构时发现市面上几乎没有可参考的范式。
Claude Code 完全是在本地端的 Agent 架构,一旦你关了电脑,Agent 就停了。Manus 基于云端虚拟机,手机端更多只负责交互。我们是端云一体。
当前只在手机端,未来会扩展到电脑端、智能硬件终端、邮件、电话。各个端都会有一个节点,核心目的不只是负责交互,而是感知不同端的能力和 context:手表端感知手表数据,电脑端感知电脑数据,手机端感知手机系统数据。各端节点感知到不同端的数据后,汇总到云端的 Agent 大脑,由云端做执行。
我们设计架构时参考的是鸿蒙系统:完全分布式的操作系统,手机端、电脑端甚至汽车端都可以有不同呈现。既不是 Manus 那种纯云端的,也不是 Claude Code 那种纯本地端的。因为我们是 Personal Agent,要 7×24 小时陪着用户,就得能 7×24 小时感知不同端的数据。
我们不用沙盒制。沙盒一般为单任务服务,任务完成就销毁。我们是终身陪着用户、24 小时在线的,所以给每个用户在云端建了独立的长期状态管理系统。
Founder Park:记忆这块你们和其他产品区别大吗?
张心皓:短期、长期和持久化的状态划分,差异不特别大。但我们的记忆更核心的不是用户的静态记忆,而是怎么把用户持续的 context 转化成持久化的目标记录,把用户的动机、诉求当成持久化的目标去管理。
我们 APP 上的数据是互相打通的,不是单向的 markdown 文件去记忆。你今天瘦了一斤、明天瘦了两斤,每一个字段的数据也是记忆的重要一环。
所有记忆系统围绕着怎么让用户动机变得更强、能力门槛降低、合适触点去搭建,而不只是跟模型 chat 的时候能回忆起某两句话。
Founder Park:在你们场景里,chat 不是高频交互?
张心皓:用户主动 chat 不是高频的,但我们的 Agent 会主动高频地跟用户 chat。Agent 不停地感知今天用户的时间、睡眠时间、步数、在小红书看的东西,自己在那里思考、干活、说话。用户也可以选择不看。只有重要的消息才会提醒给用户,不重要的消息你也可以当成一个对楚门世界的观察,看它怎么存活。我们就是在按照活的、很有活人感的东西在打造它。
Founder Park:模型选择会成为 Jovida 的瓶颈吗?
张心皓:完全不是。
现在模型,包括国产模型,都在不断出现 SOTA。模型本身没有什么壁垒,更重要的是怎么平衡经济性,以及不同场景适配不同模型。
让一个极聪明的模型干非常简单的活,是算力浪费,也会让经济性变差。所以我们要先定义好业务场景,在 agent 编排层兼容不同通用模型。
从第一天开始,模型和我们的编排就是解耦的。我们考虑的是内部 Benchmark 能不能达成。
Founder Park:也就是说,难点变成怎么把合适任务分配给合适模型?
张心皓:是的。
这里还涉及组织。不能用纯体感拉齐 AI 工程师和非工程师,因为大家体感差异非常大。
我们从大模型公司学到的经验,是用 Benchmark 连接用户需求表达和研发实现。什么场景下用什么模型,怎么交付结果,要用 Benchmark 对齐。这个 Benchmark 可能涵盖经济性、吐字延时、agent 编排能力等。
现在对 agent 公司来说,Benchmark 和具象产品 Demo,可能已经取代了上一个时代的产品需求文档,以及产品和研发之间的沟通方式。
我们内部做产品,基本上是产品或设计师先生成一个可交互、可感受的产品 Demo,再有同学出一个 Benchmark。这两个东西加起来,就足够驱动研发理解我们想做什么。
09
AI 创业,
每个维度做到极致才有可能活下来
Founder Park:字节做产品有些很经典的理念,到了 Agent 时代哪些变了?
张心皓:举个比较具体的例子:字节做产品之前,华巍在飞书上有个签名叫「别煮大海」,Don't Boil the Ocean。说产品从 0 到 1 的时候,你不应该煮大海,要从一个更 niche 的方向或场景切入,不要想着面面俱到把所有事都做好。这个在移动互联网时代非常非常重要,因为大部分人会更贪婪,更想做大,没有想着从一个细节去出发把产品做好。
但到了 Agent 时代,前两天 YC 的 CEO Garry Tan 发了一篇文章,恰恰反过来叫 Boil the Ocean。他提到在 Agent 时代做产品,你要煮大海。不是说泛泛地做通用的东西跟大厂竞争,而是在思考之初就应该去想你这个产品的 Agent 能不能给你提供多大的红利,能让你覆盖多少用户场景。
很多做产品的具体切入点都发生了变化。反观我这次创业就会发现,知道了这么多道理,还是在不停犯错。但唯一没犯错的,就是只要对人才的本质足够洞察、足够深刻,字节说的都还是对的。
Founder Park:对比移动互联网时代,除了范式变了之外,今天的产品想活下来是不是也变得更难了?
张心皓:100% 变得更难了。因为竞争维度变多了。以前我刚加入字节的时候,公司对今日头条这款产品的期待,其实是相对低调地发育,在市场还没有充分关注到的时候,慢慢渗透到更多人那里;但现在产品想法已经变得很廉价了,更重要的是你怎么能够把组织、agent 能力、产品体验和用户认知,每一方面都做到足够极致,这样整个团队才有更大的突破概率。
站在创业公司角度看,Manus、Cursor 这些公司其实是在这些方面都做得足够极致的状态,反过来看,还有很多公司或多或少会在某个角度有短板。所以我觉得现在这个阶段是全方位的竞争,每一个维度都要做到极致,才会有存活下去的胜率。
Founder Park:有点像你既要有足够长的长板,短板也不能太短。因为今天做产品变容易了,面临的又是全世界有创造力的人一起竞争,所以短板太短,很容易被别人从那个地方打穿。
张心皓:是的,因为有了 agent 自身的加强,每个人创业和做产品的门槛都大幅降低,从市场竞争角度看,一定会有相同或相似的产品来攻击你,而且它的短板可能比你更少,长板可能和你差不多,甚至比你更长。所以这里面更多是一个数学概率问题,你的短板越多,成功概率就会大幅降低。
移动互联网时代当然竞争也很激烈,但远没有现在 AI 产品这么激烈。现在是全世界所有聪明人都在下场创业,刚工作的 00 后创业者、大厂出来的创业者、学校教授,甚至投资人,都在做 AI 产品。在竞争激烈程度高一个数量级的前提下,你暴露出来的风险越多,数学概率上成功机会就越低。除非你选的场景完全没人竞争,同时又有一撮确定用户需要这个产品,否则只要场景足够大,一定会有无数聪明人涌上来竞争,这时候你没有足够长的长板肯定不行,短板太多也不行。
Founder Park:你今年最焦虑什么?
张心皓:最焦虑的是,怎么在古法做产品和过于通用的 agent 产品之间,找到正确位置。
确定的是,古法做产品不对。但过去的路径依赖、过去的思考方式,很容易沉淀下来,你要不断自我纠偏,甚至否定之前的自己。
同时,你也不能过于激进地追寻最先进、最前沿、大家最共识的东西。没有经过时间沉淀,思考不本质,也会出问题。
所以最关键的是在这个光谱上找准位置。跟上技术变化、竞争变化、确定性打法,都是基础能力。方向偏了,很多努力都会浪费。
Founder Park:如果明年或后年 Jovida 没有做到目标,你觉得最可能因为什么?
张心皓:按概率排,第一是通用和垂直这个光谱上位置没找准。
做得太垂直,可能被更通用的东西降维覆盖;做得太通用,用户在某个场景上又没有被很好激发需求。这是最大风险。
第二,是错过某次 agent 范式跃迁窗口。agent 新概念太多,如果新范式来了,没有及时捕捉,还沉浸在上一轮 PMF 里,就会出问题。
第三,是护城河没有建立起来。比如上下文飞轮没有建立起来,端云一体架构没有很好落地。
Founder Park:如果给字节、阶跃出来创业的人一条建议,会是什么?
张心皓:苹果有个广告叫 Think Different。如果套用这句话,我觉得今天应该是 Think Agentic。
不管怎么在光谱上找准位置,有一个确定结果是:它一定更 agentic。还是要以 agent 为中心去思考每一件事。
我们希望 agent 融入 human loop,结果上是帮助 human,但过程中要以 agent 为中心思考问题、思考组织。
最怕的是沉浸在过去的成功经验、过去的思考方式、过去的工作方式和组织方式里。这是失败风险最大的地方。


AI Native的组织架构应该是怎么样的?Block CEO:每家公司都可以压缩成一个agent
对谈CREAO:20人团队、每天上线8个功能,在Pivot产品之前,我们先Pivot了组织
Canva可画联合创始人独家专访:2.65亿用户的Canva,用自研模型,解决了设计的审美问题
一款好的 AI Native 硬件,硬件只是脚手架,真正壁垒一定是 Agent
转载原创文章请添加微信:founderparker
