今天正好有朋友邀请去他公司做了一个分享,题目是:0-1 打造一个 AI Native 产品有多难——一个毫不知名的 AI Startup 实践自述

本周的 YouNavi 产品日志就借此把这个内容也分享给大家。

0-1 打造一个 AI Native 产品有多难——一个毫不知名的 AI Startup 实践自述
分享主题封面
分享内容示意

2026 年 5 月 22 日 YouNavi 的实践分享

分享主题:从 0 到 1 构建 AI Native 产品:YouNavi 的踩坑、去魅与组织演进
主讲人:Ray —— YouNavi 产品负责人 / Co-founder


一、自我介绍

说实话,我不确定这些内容对大家日常的实际工作能有多少直接的帮助,大家不妨把它当作一个故事来听,这样可能会更符合预期。

今天我想和大家分享的,其实是我在过去一年多的时间里,从 0 到 1 去做一个 AI Native 产品,以及背后一个 Startup 真实的创业过程

这个过程"有多难"?这个重音可以是"多"(第二声)、也可以是"难",听完我的分享后,大家可能自己会有自己的感受。

我们这个产品叫 YouNavi,待会儿我会具体介绍它是干什么的。我是这个团队的产品合伙人。我自己做了 15 年的产品经理,最早是百度的校招生,职业生涯正好完整经历了整个移动互联网最蓬勃发展的阶段,先后在蚂蚁金服和滴滴出行负责产品工作。到了 2022 年,我明显感受到移动互联网的发展遭遇了瓶颈,于是决定跨界,加入了一家新能源造车新势力,也负责过 AI 平台产品。


二、汽车行业的 AI 幻觉:智驾与智能座舱的落差

现在的车企(尤其是最近很火的几家新势力,包括特斯拉在内)最典型的一个宣传口径,就是标榜自己不是传统的制造车企,而是"AI 企业"。但在车企做 AI 的这两年,我发现里面存在很多"幻觉"。

幻觉一:智驾

我是 2021 年左右开始接触 Transformer 这个词的。如果你是正儿八经做 AI 的,在 2017 年那篇奠基性论文发布时就应该知道了;如果你是通过 ChatGPT 发布才了解的,那大概是在 2023 年。我比大家稍微早一点知道这个词,大概是在 2021-22 年左右。

当时,Andrej Karpathy(前特斯拉智驾负责人和 OpenAI 创始成员,最近加入了 Anthropic 的大牛)在特斯拉搞了一套纯视觉方案——结合多路摄像头,通过鸟瞰图(BEV)拼接出视觉模型,并用 Transformer 架构去做智驾感知。我的车也有智驾功能,由于某些原因,该系统从 2024 年开始就不再更新了。但坦白讲,我现在用得依然很好。因为智驾本质上还是个"小模型",它需要的算力和复杂度并没有那么高,但它能达到的水平也就是 L2.x 级别,连真正的 L3 都不到。目前市面上虽然有很多更先进的智驾系统,但在复杂的城市路况下,大多数人依然不敢放心使用。从特斯拉发布这一套架构开始,短短两年内,整个行业都掌握了这套技术,后面竞争就变成了极致的成本压榨和算力堆砌,技术在实际体验上的成长空间已经不大了。

幻觉二:智能座舱

当时车企内部有一个现在想起来有点好笑的推理逻辑:AI 大模型需要极高的算力和能耗,那么从消费终端来看,什么设备最符合这个特征?答案是电车。因为电车有 100 度的电池,车端算力通常也高达几百甚至上千 TOPS,似乎大模型在车端落地是顺理成章的。

但现实是,用户在开车时的真实需求用一只手就能数得过来:导航、听歌、车辆控制,顶多加上副驾小朋友和语音助手聊聊天。用户在座舱里的实际需求,与大模型庞大的能力相比,是严重错配的。这是我在车企感受到的最大的一个跟 AI 有关的幻觉。


三、探索期:从 ToB 的困局到 ToC 的试错

于是在 2024 年下半年,我和合伙人一起开始尝试新的 AI 方向创业。

这里需要先帮大家做个 Recall:2024 年的 AI 行业处于什么水平?当时的主流大模型应该是 GPT4。行业里最火的方案有两种:

  1. RAG(检索增强生成):通过向量检索的方式做知识库问答。
  2. Workflow(工作流编排):以 Dify 和 Coze 为代表的低代码编排平台。

我们初期创业时,也顺着这两个范式做了不少 ToB 项目,涵盖图书馆、景区、高校、银行等系统。但我们很快发现,在国内做 ToB 的 AI 项目和做传统的 ToB SaaS 没有本质区别。客户的需求总结起来就两个:第一是要深度定制,第二是想要白嫖。这种模式不仅极重,而且基本赚不到钱。

到了 2024 年底,我们决定转向 ToC 领域的尝试。虽然团队很小,但我和合伙人都有十余年的 ToC 产品经验。当时我们结合了自己的个人痛点(我合伙人以前在腾讯做过浏览器,我自己也是一个古早 RSS 的重度爱好者,比如 Google Reader),想做一个定制化获取信息的移动端 App。这个思路其实非常类似于后来 ChatGPT 做的 Pulse 产品:结合用户订阅的信息源和全局记忆,再通过大模型做个性化信息推荐。

这个 App 后来做出来了,但我们最终没有选择上线。为什么?我们当时设计的最核心 feature 是:推荐逻辑不用传统的算法,而是用大模型,并结合一个 500 字左右的用户长期记忆画像的 Context(上下文)描述。

但试下来我们发现,当时模型的注意力机制根本无法胜任这件任务。举个例子,我合伙人在那 500 字的个人背景描述里写了一句"有两个小孩"。结果大模型在推荐每篇资讯时,都会生硬地往这个方向靠拢。比如你有两个小孩,应该看看 AI 教育之类的,无论推什么文章,大模型最后都会绕到"你因为有两个小孩,所以应该如何"上。当时市面上的模型在处理这种全局记忆推荐时,无法做到真正 sensible 的注意力分配。


四、YouNavi 的诞生:Deep Research 与沟通录音的缝合

真正的转机发生在 2025 年。一方面是 DeepSeek 把推理模型普及和开源,让高性能大模型的使用成本大幅降低。我们在这个新的技术范式下,看到了两个已经跑通 PMF 的产品方向:

  1. AI Coding:当时虽然还没有 Claude Code,但 Cursor 的体验已经让人惊艳,我也在用它做 demo 和处理文档。
  2. Deep Research:ChatGPT 和 Gemini 都陆续推出了这个功能。

我们观察到,大家在使用 Deep Research 时,主流场景多是输入一个简短的 Prompt,比如去调研某个行业格局或某家公司的股价。但很少有人想到,把一整场长达数小时的会议、沟通录音的文本全部塞给大模型,让它结合里面的具体主题,自动在后台去做一次跨越时间的 Deep Research。

作为一个资源有限的小团队,我们做不了宏大的叙事,我们的策略就是在这些尚未被巨头填满的空白场景中,寻找缝合点。于是,我们决定为身边的创业者、投资人、独立顾问和产品经理,打造一款能够结合上下文做深度研究的分析工具,这就是 YouNavi 的雏形。


五、踩过的坑:产品定位、框架迷信与"屎山"代码

在把 Demo 拿给早期用户测试的过程中,我们踩了非常多的坑。

1. 关于产品定位的坑

最开始,我们也用了 AI PR 稿中常见的宏大词汇,跟早期用户说这是你的"AI 参谋"、"决策助手"或"第二大脑"。但实际沟通中,这些词汇根本无法打动用户。他们会直接问:"你这个和 ChatGPT、Gemini 有什么区别?"你根本解释不清楚,而且无形中把用户的预期拉得极高。

于是我们把定位进行了极大的聚焦,将其定义为:录音分析洞察 Agent。它只做一件事——从你的日常沟通录音里,榨取和洞察最有价值的信息。

最近我去上海虹桥那边摆地摊做用户调研,我们总结出了一个可能更受职场人欢迎的非正式 Slogan——"职场废话回收站"。开会时废话的占比是极高的,一提到这个词,大家立刻心领神会。但同时,我们的产品有很强的落脚点,那就是"沟通"和"录音",如果日常工作不怎么开会或交流,那就不是我们的核心目标用户。

2. 关于开源框架与重构的坑

2025 年 Q4,我们开始动手做这个产品。当时想法很简单,直接在 GitHub 上找了个好评如潮、有几千上万 Star 的字节开源框架——Deer-Flow(底层是 LangChain 和 LangGraph 的 Agent 编排框架)。我们在此基础上进行魔改,加录音同步和文件上传功能。

结果,我们一位实习生魔改了两个月,发现 Demo 的任务运行成功率甚至不到 50%。到了 9 月份,我们终于招募了正式的研发同学,入场做的第一件事就是:彻底推倒重构底层的 Agent Runtime

我想提醒大家:千万不要迷信 GitHub 上的 Star 数。开源框架要直接转化为商业级产品,中间的工程鸿沟非常巨大。(虽然还是要致敬一下 Deer-Flow 这个框架)

3. 关于 AI Coding 与"屎山"

我们团队的同学开始在写代码时大量使用 AI Coding。在这个过程中,我们也遇到了一些团队共识上的冲突。像 React 这种前端框架,对于人类开发者来说是非常好用的,因为它有成熟的组件复用、嵌套和高度的抽象设计。但在当时,大模型在写 React 时非常痛苦。它写着写着就会把代码变成堆叠的"屎山",层级深不见底,人类想去改也无从下手。

后来我们花了将近一个月时间在技术栈上做减法,规范了我们的技术栈和技术规范,将约束条件写进 claude.md。直到 12 月份,代码库才算整洁好用。这时候,像我这样完全不懂代码的产品经理,才开始能直接在这个代码库里提交 Commit,小到修改文案、改静态官网,大到调整端上的一些交互和完整的功能。

4. 从 Web 版转向本地客户端

最开始,我们和大家一样做的是网页版(Web)。我们有一个创新功能,就是可以一键同步飞书、腾讯会议等平台的录音文件。但用户在扫码登录授权时,飞书后台会发送安全警告,提示你在"杭州的某个 IP 地址"登录了,请确认。因为我们公司机房在杭州,这引起了用户对数据隐私的极大担忧。毕竟,会议录音是极度敏感的数据。

为了彻底解决隐私问题,我们果断决定将产品形态全面转向桌面客户端。除了调用大模型需要云端交互外,录音存储、数据同步、数据管理全部保存在用户本地,并与本地文件系统深度绑定。虽然当时 OpenClaw 还没火,但如今回过头来看,这种本地化 Agent 架构已经成为了行业的普遍共识。


六、组织演进:无 PRD 的"赏金猎人"全员 Coding 模式

有了 AI friendly 的代码库,我们彻底抛弃了传统的研发流程。以前常说"Talk is cheap, show me your code",现在我可以说是"Also the code"。

我们现在团队有 7 个人(4 个研发,1 个设计师,1 个增长产运,再加上我)是"全员 Coding"的状态。团队没有任何形式的 PRD(产品需求文档),也没有所谓的需求评审和拉通会。

我的日常运作模式是这样的:每周发布一个类似"赏金猎人"的 Feature List(需求清单),然后分为两个分支:

  1. 轻量化 / 交互分支:由我和设计师直接认领。我们自己通过 Vibe Coding 在本地改代码、跑自测、提 PR。如果 AI 改了两次还改不对,说明这个逻辑确实复杂,我们再把分支转交给研发。对我们而言,代码本身就是产品想法和交互最精准的沟通媒介,不需要画原型和写文档。
  2. 核心工程分支:涉及 Agent Harness(核心运行机制)、全局记忆管理、任务编排、模型串联等底层逻辑,这部分由于技术门槛高,由专业的研发同学主导。但他们写完之后,如果我对文案、边框、交互不满意,我会直接上去拉代码修改。

通过这种"全员 Coding + 异步换手"的模式,我们现在能做到每天 Release 一个内部测试版本,每周发布一个正式版本。目前我们一周迭代的需求量,放在我以前待过的大厂里,我觉得差不多需要一个 10 人团队干上整整一个月。

当然了,我觉得这里有一半的时间节省不是因为开发变快了,而是因为不开很多无效的会了。作为 Startup,所有决策直接下达,没有汇报,没有拉通。


七、研发去魅:回归第一性原理

在实际的工程落地过程中,我对很多所谓的"先进 Agent 技术"进行了祛魅:

1. 祛魅图编排(LangGraph/Workflow)

最初我们因为 LangGraph 的"图编排(Graph)"概念听上去高级、有工程美感而采用了它。但最后发现,这些复杂的人工结构在实际生产中是不必要的。现在大家逐渐达成共识:Agent 运行的最核心逻辑就是最基础的 ReAct Loop。即:输入 → 模型调用工具 → 执行观察(Observation)→ 判断是否完成 → 循环。这样一个简单的 React 环,在合理设计下可以稳定运行数个小时乃至一整天,来完成非常复杂的任务。

2. 祛魅复杂记忆工程

2024 年,行业里充斥着利用"艾宾浩斯遗忘曲线"、"多模态向量库"、"语义与情景记忆分类"等高深理论构建的记忆工程。后来,有人逆向了 ChatGPT 的记忆机制,其实它就简简单单做了三层:

  • 第一层:User Profile(用户全局静态事实,比如职业、偏好)。
  • 第二层:Session Summary(单次会话的逻辑总结)。
  • 第三层:Current Window Context(当前对话窗口的实时上下文)。

再看看行业标杆的 Claude Code 或 OpenClaw,文件记忆系统的做法大同小异,底层几乎都是这三层结构。有些做得好的,也不过是后台每隔 24 或 48 小时跑一个定时任务,把记忆整理成干净的 Markdown 文件。我们没看到有哪家是要去把所谓人类的情景记忆、语义记忆等等十几种记忆理论完美复刻的。

3. 祛魅上下文管理

从 Manus 开始,业界有很多关于上下文卸载、隔离、缓存和动态检索的分享,这些工程实践和理念其实都很好,很受启发。但在实际场景下,我觉得够用就好。现在基座模型的窗口动辄 100 万起步,而我们一场会议的文本通常也就 1、2 万字。目前模型的长文本处理能力,已经足以应付绝大多数连续对话中的上下文关联。


八、当前最大的瓶颈:增长与注意力的争夺

当产品做出来、跑通了、工程去魅了之后,我发现我们面临的真正瓶颈,已经不再是技术和产品本身,而是增长。

在增长这件事情上,我个人觉得 AI 能够给独立开发者带来的红利非常有限。AI 可能可以帮你批量产出一些 SEO 内容、做点简单的投放任务,但实际上这些很难带来质的改变。

目前最大的挑战在于:用户的注意力已经被以 Claude Code、Codex 和 OpenClaw 为代表的巨头或顶级开源 Agent 吞噬了。劝说用户在日常工作流里再去尝试一个全新独立产品的门槛,比以往任何时候都要高。

我们在今年 2 月份产品公测时,跟一个国内很有名的社区做过一次推荐合作,当时带来了非常可观的第一批新用户。到了 5 月份,我们用同样的渠道再次尝试,发现转化率直接下滑了一个数量级。这也是为什么大家现在在小红书上刷到的"独立开发"案例越来越娱乐化——因为纯靠产品本身获取消费级用户的自然增长太难了,很多独立开发的产品在最后只是他们打造个人 IP、做社群和知识付费的"Trigger(引流工具)",而不是一个真正严肃的商业级产品。


九、结语与我们的初心

最后,打一个小的广告。如果大家对 YouNavi 感兴趣,欢迎扫码加入我们的用户群。

用一个更深层的价值内核来阐述我们的 Slogan,就是:我们不希望大家手头里的 Agent,每天都在帮你做一些"交差性质的杂活"。

批量生成小红书笔记、做 SEO、改表格、写基础代码……这些杂活 Agent 确实能做,但现在 SOTA 模型的 Token 成本其实很贵,将如此宝贵的智能廉价地倾注在这些经济价值低的任务上,我觉得是一种浪费。

YouNavi 想做的事,是交付思考。我们可能不会直接帮你一键生成一份平庸的 PPT(虽然我今天分享的幻灯片就是用 YouNavi 生成的版式,但这在今天对 agent 来说已经非常常见了),我们更希望提供一个场域,让你可以和 SOTA 模型进行深度的、推演式的对话,共同去复盘、分析你工作和生活中那些真正需要深思熟虑、能产生巨大杠杆效应的复杂决策。

它目前的着力点非常明确:听懂每一场沟通,过滤废话,洞察水下的非共识,并最终付诸积极的行动。

这就是我今天的分享,谢谢大家!


本周 YouNavi Release Note

本周 YouNavi 升级至 v0.3.6 版本。功能更新如下:

[新增] 支持扫码绑定钉钉智能体(bot),通过钉钉 IM 来跟 Navi 对话

[优化] 重构了用户登录与本地数据逻辑,现在在断网或无网络环境下,录音、本地数据管理等核心功能依然可用

[优化] 优化了全局记忆文件的编辑、新建和导入体验

[优化] 优化了在对话中要求生成 pdf 等文件格式的生成质量(后续会进一步优化 docx、pptx 等文件格式)

[优化] 优化了录音面板交互、录音忘关提醒、browser use 的浏览器交互、图标展示问题等用户反馈的问题

[升级] 全面接入 Gemini 3.5 flash 最新模型

YouNavi 产品研发团队  敬上

2026.05.22