对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人-尧图网站设计

模型会升级Agent会重构但用户长期积累的记忆不会轻易迁移。硬件就位软件缺位1945年美国科学家Vannevar Bush在那篇影响了整个计算机科学发展的文章《As We May Think》中提出过一个名为Memex记忆延展的设想。在他的想象里每个人都会拥有一台机器。它能够存储自己的阅读、照片、笔记和知识并像人的记忆一样随时帮助主人回忆、关联和检索信息——后来人们把它视作个人计算机、超文本乃至互联网最早的思想源头之一。Vannevar Bush Memex过去80年里计算机、互联网和智能手机相继诞生存储容量增长了数百万倍人类积累的信息也以前所未有的速度膨胀。但Bush描绘的那个梦想却始终没有真正实现。原因并不复杂。机器越来越擅长保存信息却始终不会形成记忆它能存下你一生的数据却无法在你需要的时候替你找回某一个瞬间。直到最近这件事情开始出现变化。过去一年AI行业几乎完成了一次基础设施的集体升级。端侧算力第一次不再只是概念而开始成为消费电子产品的标准配置英伟达推出RTX Spark将AI算力直接部署至PC英特尔的Lunar Lake、高通Snapdragon X Elite将笔记本的NPU算力分别提升至60 TOPS和45 TOPS苹果也持续将AI能力整合进M系列芯片。模型也走到了新的拐点。Llama 3、千问、Gemma、Phi等开源模型不断缩小体积却持续提升能力llama.cpp、MLX等推理框架的成熟则让大模型第一次能够稳定运行在普通个人设备上。与此同时Apple Intelligence、Copilot PC以及英伟达围绕端侧AI搭建的开发工具链又把模型进一步嵌入操作系统。芯片、模型、系统以及随着市场教育“端侧AI”逐渐赢得用户信任几乎每一层基础设施都已经准备就绪。但把这些拼图放在一起却依然很难得到一款真正让普通用户每天都会使用的AI产品。问题不在于单点技术而是缺少一个能够把模型、硬件、系统与个人数据真正整合起来的产品。曾经红极一时的“消费级端侧设备”Rabbit R1、Humane AI Pin很快因为产品定义失败成为浪潮中的一捧浮沫。Rabbit R1希望成为一个新的跨端交互入口然而它却没能回答“为什么要在手机之外买一台设备”的疑问Humane AI Pin有替代手机的野心但酷炫的硬件并不能创造需求反而带来体验的熵增。更重要的是这些端侧新物种没有解决一个核心痛点即便处在离用户个人数据库最近的位置AI大脑仍常常陷入“失忆”的窘态。行业缺少一个将模型、端侧和记忆系统整合的玩家。当所有人都在讨论Agent的时候一个更底层的问题开始浮现Agent到底依赖什么长期存在两年前当整个行业仍沉浸在“云端更大的模型”时Clipto.AI创始人康洪文却做出了一个颇为反共识的判断真正的新机会将出现在端侧算力与大模型能力交汇之后催生的新一层基础设施。在他看来只有当两条技术曲线——端侧算力的成熟以及大模型能力的成熟——同时抵达临界点AI才有机会真正成为每个人设备里的“第二大脑”而不仅仅是一个聊天机器人。而真正的机会不仅限于模型本身也属于建立在它们之上的“Memory Layer记忆层”。康洪文和团队研发的产品Clipto正是这个假设的试验场。用户只需要用自然语言描述自己想找的内容Clipto就能在数TB的本地视频、音频、图片和文档中快速定位到相关的片段和信息。但搜索只是Clipto对外暴露的第一个能力。在Clipto背后是由十余个端侧自研大模型、推理架构、算力调度系统以及数据组织能力共同构建的一套Memory Layer——它让原本分散的海量数据持续沉淀为可被AI调用的个人记忆并能够在毫秒内从海量内容中找回那些早已被用户遗忘的信息。2026年5月发布新版Mac端App后Clipto登上了Product Hunt日榜第一端侧和记忆构筑的想象空间正在逐渐落地到田野。Product Hunt榜首截图聪明的人没有记忆也只是一个失忆的人过去一年Agent成了AI行业最炙手可热的关键词。几乎所有大模型公司都在讲Agent创业公司在做Agent资本追逐Agent。从编程、办公到购物、客服越来越多的人相信Agent将成为继ChatGPT之后AI的下一次产品革命。在2026年4月的报告中Gartner将业界对Agentic AI的态度形容为达到“期望膨胀顶峰the Peak of Inflated Expectations”超过六成企业计划在未来两年部署AI Agent即便迄今为止只有17%的企业完成了部署。但在这场几乎没有异议的追捧中Clipto创始人康洪文却不断提出一个看似简单、却很少有人回答的问题一个没有记忆的Agent真的理解用户吗在他看来今天大多数Agent都建立在一个危险的假设之上只要模型足够聪明就能够成为用户的助手。但事实恰恰相反。每一次打开Agent它都像第一次认识你不知道你昨天开过什么会不知道你的照片存在哪里也不知道过去一年积累了哪些文档。它能够推理却没有经历能够回答却无法延续。“一个聪明的人如果没有记忆也只是一个失忆的人。”康洪文说。这也是他过去二十多年一直在研究的问题。开始的前十年康洪文的研究命题是机器如何理解世界。2004年康洪文进入微软亚洲研究院实习让Xbox自动分析用户拍摄的大量家庭照片和视频再从数小时素材中提取关键片段自动生成一段家庭短片。而后他前往卡内基梅隆大学机器人研究所攻读博士师从计算机视觉领域学者Takeo Kanade继续研究图像与视频理解。在他看来理解视频本质上是在理解现实世界。最近的十年康洪文转向研究机器如何生成内容。2017年他创业成立AIGC公司“慧川智能”随后旗下创作平台“智影”在2020年底被腾讯收购。加入腾讯后康洪文继续负责文生图、文生视频和数字人等全栈AIGC产品研发。而今天在Clipto康洪文又把问题重新拉回了”理解”。因为他认为生成已经不是AI最大的瓶颈“真正缺失的是记忆”。端侧大模型的出现让这条技术路线第一次迎来了成熟的时机。康洪文告诉36氪云端模型更像是一个“全球大脑”负责学习公共知识、理解整个世界而端侧AI则应该成为“个人记忆”理解的是每一个具体的人。在他看来未来AI的架构并不会是Cloud AI与Edge AI的简单竞争。真正的演化方向是Cloud Intelligence Edge Memory——云端负责世界知识端侧负责个人记忆Agent 只是连接两者的交互层。“Agent只是站在最上层的交互界面而真正决定它是否聪明的并不只是模型本身而是底下是否拥有一套持续生长的Memory Layer记忆层。”他提到在他看来这是一个被行业长期忽视的架构问题。Living Memory Graph模型会升级Agent会重构但用户长期积累的记忆不会轻易迁移。他提到。围绕“记忆层”Clipto从底层重新搭建了一整套端侧AI技术体系。在康洪文看来很多人理解的Memory更像是模型拥有更长的Context或者接入一个向量数据库。但真正的记忆层远不止于此。Memory不是一个模型而是一整套系统。他在采访中提到。第一层是模型。多模态数据天然具有高度异构性。视频、音频、图片、文档每一种数据都需要不同的理解方式。围绕人物识别、语音理解、OCR、场景分析、事件理解等能力Clipto自研了十余个端侧AI模型其中部分基于开源基础模型进行针对性的后训练部分则完全自主研发。每一个模型都需要针对端侧算力重新设计而不是直接迁移云端模型。第二层是端侧算力架构。与云端拥有几乎无限算力不同端侧设备受到CPU、GPU、NPU、内存、存储带宽以及系统资源的共同限制。为了让多个模型能够长期协同工作Clipto从零搭建了端侧推理框架和算力调度系统根据设备资源动态调度不同模型而不是让它们彼此争抢计算资源。康洪文介绍Clipto的架构能够自动兼容各种不同配置的设备甚至包括仅配备8GB内存的M1 MacBook。而在最新一代的M5 MacBook Pro上Clipto可在24小时左右完成2TB本地视频的离线分析如果完全依赖云端同样的处理成本约需400美元。用户使用Clipto制作视频电脑桌面截屏第三层也是最重要的一层构建记忆本身。模型能够理解内容却不会天然形成记忆。系统还需要持续把分散的多模态信息组织成时间、地点、人物、事件等结构化关系并不断建立跨文件、跨时间、跨来源之间的关联最终形成能够持续生长的个人记忆网络。Agent调用的也不再是某一个模型而是这套不断积累、持续演化的记忆层。在康洪文看来这也是记忆层真正困难的地方。它横跨模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱以及检索系统等多个技术层级。任何一个模块都无法单独构成真正的Memory。只有把这些能力整合成一套长期运行、持续生长的系统AI才真正拥有了记忆。模型会不断升级Agent也会不断演进但用户长期积累的记忆不会轻易迁移。真正的护城河是围绕Memory建立起来的整套技术体系。他对36氪总结。如果说今天的大模型解决的是AI如何理解世界那么Clipto解决的是AI如何长期记住一个人。Clipto不是创作工具而是记忆基础设施Clipto登顶Product Hunt日榜后真正让康洪文感到意外的不是成绩本身而是评论区的用户反馈。按照惯例大多数用户讨论的是产品好不好用、功能是否足够丰富。但Clipto上线后评论区里出现了另一种声音不少开发者开始询问API是否开放、能否作为Agent的长期记忆后端甚至讨论如何把Clipto接入自己的产品——彼时Clipto甚至还没有发布SDK。这释放出一个信号用户关注的已经不只是一个搜索工具而是开始把它视作一层基础设施。这种变化也超出了Clipto团队最初的预期。一开始康洪文以为最先买单的会是视频创作者、摄影师等内容生产者。但随着用户增长团队发现快速扩大的不仅是创作者群体还包括金融分析师、律师、医生、咨询顾问等知识工作者。根据官方数据目前Clipto的用户中大约1/3为创作者其余2/3则是来自金融、法律、医疗等行业的专业职场人。这意味着记忆管理是比内容创作空间更大、更刚性的需求。过去人们总认为多模态数据管理是视频编辑、影视制作等专业场景才需要解决的问题。事实上每一个知识工作者都在不断产生音频、图片、会议记录和文档。会议录音、培训视频、手机截图、播客收藏、PDF文件……这些信息每天都在增长却很少能够再次被有效调用。当AI能够真正理解这些数据之后“记忆管理”便不再是创作者的需求而成为所有人的需求。商业数据进一步验证了这一判断。Clipto上线后三个月便实现了盈亏平衡。2025年公司的ARR年度经常性收入达到了1500万美元。对于一家仍处于产品早期、且坚持端侧部署路线的AI公司而言这样的商业化速度本身就是一个强信号市场愿意付费的并不仅仅是一次性的AI能力而是长期积累的个人记忆。Memory并不是一个未来市场而是一个已经被验证的现实需求。更重要的是它也验证了Clipto团队的能力。当许多AI创业公司仍停留在模型能力验证或Demo阶段时Clipto已经率先完成了从底层模型、端侧基础设施、产品体验到商业化的完整闭环。这种跨越底层研发、产品设计和全球商业化的完整执行能力本身就是团队最重要的竞争壁垒。互联网的发展史本质上是一部基础设施不断演进的历史。PC互联网时代Google建立了信息检索的基础设施它建立的是人类的公共记忆Collective Memory让人们能够找到世界上的信息移动互联网时代Meta和微信构建了社交关系的基础设施让人们能够连接世界上的人AI时代OpenAI解决了如何推理的问题而接下来即将面临的不再是世界知道什么而是我自己经历了什么让人们能够被AI真正理解。这正是下一代基础设施的机会。Clipto希望解决的正是每个人的个人记忆Personal Memory。它并不创造新的内容而是持续理解、组织和连接用户过去积累的数字生活让这些原本沉睡的数据成为Agent可以长期调用的上下文。也因此在康洪文看来未来AI应用真正的竞争并不只是模型能力也不只是Agent的执行能力而是谁能够率先建立起这层长期存在的Memory Layer。“模型可以随时切换Agent也可以重构但用户长期积累的记忆一旦形成迁移成本极高。”过去十年AI公司争夺的是Intelligence未来十年真正不可替代、也最难迁移的将是Memory。围绕Clipto的构想、端侧AI、记忆层36氪近期和Clipto.AI创始人康洪文聊了聊。以下是我们对部分观点的整理36氪Clipto为什么从音视频搜索切入康洪文有两个考虑。首先文本、文件、PPT数据已有不错方案但音视频这种重多模态的数据一直没被服务好单位处理成本高其次音视频天然更多存在端上太重完美贴合端侧优先场景。种子用户有大量音视频、高隐私高价值、现有方案服务不好的人。36氪Clipto的PMF为什么跑得快做对了什么康洪文以终为始我们有宏大的愿景但还是要逼自己尽快做商业化验证。我们做了两个关键决策。首先以App形态切入将端侧AI的能力最高效送到用户手里未来App也可以灵活搭载在PC、手机、智能设备等任何终端硬件上。其次第一天就主打全球市场。不少西方国家用户支付订阅习惯成熟确定性高。我们选择把精力放在高确定性的事上。36氪行业对端侧AI最大的误解是什么康洪文“下个Ollama就能做。”但我们真正做的其实是一整套Memory Layer。第一层是模型。围绕多模态理解我们已经自研了十余个端侧AI模型其中部分基于开源基础模型进行后训练部分完全自主研发。真正做到专业级、多模态理解本身就是非常大的技术挑战。第二层是基础设施。端侧和云端几乎是两套完全不同的技术体系。从推理框架、算力调度到系统优化都需要重新设计让多个模型能够在有限的设备资源下长期稳定协同运行。第三层是记忆构建。模型能够理解内容但不会天然形成记忆。系统不仅需要理解每一个文件更需要持续建立跨文件、跨时间、跨来源之间的关联把原本孤立的数据组织成一个能够不断生长的个人记忆网络。真正困难的并不是某一层技术而是把模型、基础设施和记忆构建长期协同成一套系统。这也是我们认为Memory Layer真正的技术门槛。36氪Clipto定义的记忆和模型记忆、Context有何区别康洪文今天行业里讲的“Memory”其实主要有两种。一种是模型记忆它本质上是参数里的统计性知识更适合学习公共知识、用户偏好和行为模式。另一种是Context它解决的是一次任务里的短期上下文帮助模型完成当前对话但生命周期很短。Clipto做的是第三种记忆。我们关注的是用户长期积累的真实个人数据包括视频、音频、图片、文档和会议记录。这些数据不是抽象概念而是一个人真实经历和工作的完整沉淀。举个例子模型可能知道你最近一直在讨论产品定价也知道你更关注欧美市场这是统计性的”记忆”。但它永远不可能准确回答“5月18日下午那场融资会议里John对欧洲定价策略到底说了什么”因为这些具体、可追溯的事实不应该被编码进模型参数而应该作为个人记忆长期保存并能够随时被AI精准调用。所以我们认为模型负责学习公共知识Memory Layer负责保存个人知识。36氪记忆层会被模型厂商吃掉吗康洪文我觉得不会。我一直认为未来AI会逐渐形成新的分工。模型负责Intelligence持续学习和编码公共知识Memory Layer则负责保存和组织每个人独有的长期记忆。这两者解决的是完全不同的问题。模型的价值来自规模化服务的是所有用户Memory Layer的价值来自个性化它需要持续理解、组织和管理每一个人的数据。所以模型厂商未必天然擅长做Memory Layer就像Google很擅长搜索但并没有天然解决个人记忆的问题一样。我们更相信未来Agent会不断变化模型也会不断升级但Memory Layer会成为长期存在的一层基础设施。原文链接对话Clipto.AI创始人康洪文没有记忆的AI只是一个“失忆”的聪明人-36氪

对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人

相关新闻

jQuery的事件绑定

【每天认识一个国家 | 日本】

ClassLoader深度解剖：双亲委派、Tomcat类隔离、SPI与模块化

归藏提示词库多模型适配：Nano Banana Pro与Seedream的完美结合

Instatic数据库连接管理：连接池配置与监控终极指南

如何在2分钟内完成U校园网课必修题：Python自动化工具完整指南

python-inject源码解析：Injector类的设计与实现原理

Unity Job System与Burst编译：MeshApiExamples多线程网格处理指南

【Springboot毕设全套源码+文档】基于springboot智能药箱系统的设计与实现(丰富项目+远程调试+讲解+定制)

STM32F091RC与LTC6904实现高精度方波信号生成

缺牙修复科普：常见义齿类型与选择参考

终极指南：如何将JSXBIN二进制文件转换为可读JSX源代码

终端里的 AI 驾驶舱：Claude Code 斜杠命令深度解析

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-内存资源分配[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战