iPhone一夜变成AiPhone,但AI手机的未来不在手机里
发布时间:2026-06-09来源:APPSO
更新到 iOS 27 的开发者测试版本后,对国行 iPhone 来说,最大的变化是可以设置调休闹钟,外版用户则迎来了一个独立的 Siri App。这两年,我们一直在吐槽国行 iPhone 没有 AI。但如果今天真的要买一台手机,AI 恐怕还不是大多数人的首要考虑因素。虽然都在说 AI 手机,但大多数手机的卖点还是在相机和电池等方面,包括苹果在 17 Pro 上的主要亮点也是后置三摄大家会比较影像、续航、性能、外观,甚至颜色,却很少有人因为「这个 AI 特别强」而下单。一个有点矛盾的现实是,AI 手机已经喊了两年,但什么是 AI 手机,行业和用户都还没有形成共识。就在这个背景下,苹果这次把新版 Siri 推到了系统层。它有了独立入口,也支持连续对话、文件上传和上下文理解。从功能看,这些能力并不新鲜,很多用户会觉得它只是补上了 ChatGPT 两三年前就已经实现的部分。真正值得关注的是,苹果终于给出了自己对于 AI 手机的答案。目前,对 AI 手机而言,行业里目前存在两种理解。一方面是手机变聪明了,从智能到人工智能。相机能够识别物体,照片能自动扩图、修改视角,搜索框里换了大模型驱动的 AI 引擎,快捷指令用简单的自然语言就能搭出来。这些改进确实让体验变得更好,可是我们跟手机的关系似乎并没改变。这一路线增强的是功能,而第二种路线改变的是交互。我们不用自己的操作,对着手机把想做的事情说出来,系统级的助手,会像 Codex 一样,自动启用 Computer(Phone) Use、Chrome(App) Use 的能力, 调度不同的应用,把事情做好。过去两年我们一直在讨论,也是所有厂商都难做好的,全在第二件事上。问题在于,当 AI 真正开始替用户操作手机,它立刻会碰到权限、应用生态和责任归属的问题。谁有资格代替用户执行操作?App 愿不愿意开放能力?出了问题谁负责?豆包手机刚出来那会儿,确实收获了很多关注。它通过系统权限拿到的能力,可以直接模拟用户点击。一个需要 50 步点击的任务,大概能跑出八成的成功率,能力边界是当时市面上,所有打着 AI 手机旗号的产品中最宽的一个。
但它也最容易踩雷,纯粹地依靠模拟点击,一边是效率的问题,更严重的是合规的问题。效率上,通过识屏的方式找到应用的不同按钮,然后再操作系统进行点击,这种流程被拉得极长。即便可以预先录入一套常见应用的交互方式,但 App 一旦更新,界面重新排布,就又需要再来一次,还可能失效,需要重新学习训练。合规上,豆包手机在去年年底被微信、支付宝集体风控。豆包手机也发布声明回复,所有的权限都在系统允许的范围内操作,后续也主动收缩了操作范围。应用需要确保自己的用户信息安全,无可厚非。现在就连 Codex 上的 Computer Use,都无法正常操作电脑版微信,一旦检测到非人类的点击操作,微信就会自动退出。豆包手机的正式版还在打磨,路线也正在从纯视觉操作向接口协同演进。微信,就在 WWDC 前,联合五大手机厂商推出了 A2A(Agent-to-Agent)助手能力。手机系统 AI 助手解析出用户意图后,通过加密、受控的协议向微信发起「呼叫」,微信在自己的沙盒里原生执行「发消息、打电话」这两个基础动作,系统 AI 碰不到任何聊天记录。这更像是一种停火协议,手机厂商承认,不能绕过超级 App 的边界;微信也承认,系统级 AI 助手正在成为新的用户入口,完全堵住并不现实。更有意思的是,微信同一天还面向小程序开发者开放了微信 AI 生态接入指引。开发者可以授权微信 AI 接入自己的小程序,其中有两种模式,「自动模式」让平台读取源码、分析页面、直接操作;「开发模式」让开发者自主声明能力,经审核后被微信 AI 调用。两种模式可以同时开启。微信现有超过 400 万个小程序,如果大量接入,微信 AI 调度的能力范围将远超「发消息打电话」,点外卖、打车、订票、买东西,一整个小程序生态都有机会实现。把这两件事放在一起看,微信的策略就很清楚了,手机厂商想把微信变成自己助手能调度的一个 App,微信想把自己变成一个更大的 Agent 平台。
再看 Android 和 iPhone,方向其实一致:AI 不再是一个 App,而是在系统里流动。Google 在 I/O 之前的 Android Show 上直接说,Android 正在从 operating system 变成 intelligence system。Google 的优势很明显:它既有 Android,也有 Gemini,还有搜索、Gmail、Calendar、Chrome、Google Play 和车机、手表、眼镜。它完全可以做一个跨屏的 Gemini 操作层。从这个角度看,Google 争夺的已经不仅是一部手机上的 AI 入口,Gemini 承担的是整个 Google 生态的交互层。当用户发出一个需求,调用的可能是搜索、地图、邮箱、浏览器,也可能是电脑、手机、车机和眼镜上的能力。Siri AI 不会是一个「ChatGPT 式」的 AppSiri AI 的新能力强烈依靠 App Intents。开发者要把自己的内容和动作用结构化方式交给系统,比如「我能创建一笔费用」、「我能预约会议」、「我能编辑这张图」。Siri 再用自然语言理解用户意图,调用这些动作。苹果还把 App 内容接进 Spotlight 的语义索引,让 Siri 能理解手机里的个人上下文。这套逻辑和微信小程序的「开发模式」很像,开发者声明能力,平台负责调度。区别是,微信只在小程序生态里做,苹果要把它放到整个 iOS App 生态里。Craig 在 WWDC 主题演讲结束后的媒体交流会上谈到 Siri AI 时说,「我们认为 Siri 不是一个独立的聊天机器人,一个你去那里闲聊的,不整合的地方,Siri 是一个集成的、对话式的工具。」苹果的底层模型也补了一大块。第三代 Apple Foundation Models 包括端侧模型、私有云模型和图像模型,其中端侧 AFM 3 Core 是 30 亿参数,AFM 3 Core Advanced 是 200 亿参数的稀疏模型,按任务激活 10 亿到 40 亿参数。更复杂的任务交给 Private Cloud Compute。苹果也提到新一代 AFM 是和 Google Gemini 合作定制的,最重的云端模型还用到了 Google Cloud 上的 NVIDIA GPU。苹果昨天发布了第三代基础大模型|https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models它的优势是整合最深,Siri、Spotlight、App Intents、照片、信息、Safari、快捷指令,这些东西都在系统里。一次系统升级,就能改变 iPhone 用户「找东西、办事情」的默认路径。但它的限制也很清楚,App Intents 取决于开发者适配多少,Siri AI 真实可用性还要等 beta 之后验证。国行用户还要面对地区限制,而部分端侧大模型的能力,支持的手机产品也只有 iPhone Air 和 iPhone 17 Pro 系列。今天各家争的,还是手机和 App 之间那一层:谁能替用户办事,谁批准,谁执行,谁担责。从豆包、微信、Google 到苹果,虽然它们给出的答案并不相同,有的选择模拟操作,有的选择开放协议,有的选择统一调度层,也有的选择让开发者声明能力。共同点在于,AI 手机正在从「回答问题」走向「完成任务」。1.58-bit、2-bit 这类低比特量化不断降低模型占用,手机上能跑的模型会越来越大。现在很多端侧能力还只是修图、听写、摘要和简单问答,几年后,手机本地模型处理个人上下文、隐私任务、轻量代理工作,会变得更自然。我们不一定要在手机上完成所有工作,但可以用手机发起任务:让电脑里的 Codex 写代码,让云端的 Claude 做研究,让家里的设备准备环境,让车机继续导航,让眼镜把现实世界变成输入。Googlebook 已经把这个方向摆出来了:手机里的 Android App、文件和 Gemini 能力,可以延伸到笔记本。苹果如果把 Siri AI 做扎实,后面自然会接 AirPods、Apple Watch、Vision Pro,甚至传闻中的眼镜和桌面机器人。手机要变成什么,现在还没人说得准,但它正在从「装 App 的地方」,变成我们「随时能调动算力的入口」。
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。