你的智能眼镜，也能养龙虾了？｜AI 器物志

发布时间：2026-03-26来源：爱范儿

智能手机统治了过去十几年的数字生态，它是注意力的黑洞，是我们最私密的随身之物。但手机从设计之初就是为「人盯着它」而生的——它的全部逻辑，都止于屏幕。

AI 的需求却恰恰相反：它需要持续感知物理世界——见你所见，听你所闻，随时在场，而非等你解锁屏幕才醒来。

当 AI 真正成为一种基础能力，它迟早要从屏幕里破壳而出，寻找属于它自己的形状。这将是一个漫长的探索和演化过程。

「AI 器物志」栏目由此而来，爱范儿想和你一起持续观察：AI 如何改变硬件设计，如何重塑人机交互，以及更重要的——AI 将以怎样的形态进入我们的日常生活？

这是「AI 器物志」的第 8 篇文章。

OpenClaw 龙虾潮爆发 2 个月，一个万物皆可龙虾的时代来了。

电脑养龙虾已经属于基操，现在手机厂商纷纷开推官方龙虾，QQ 微信也有了龙虾插件，甚至电动车也能接个龙虾。

不过，最近我发现了一个养龙虾的天选圣体——

这个叫 VisionClaw 的开源项目，可以让 AI Agent 看你所看，听你所听，能得知你的环境上下文，然后利用龙虾实现操作。

VisionClaw GitHub 页面：

https://github.com/Intent-Lab/VisionClaw

智能眼镜，成为「龙虾眼」

严格来说，VisionClaw 其实并不是用「眼镜」本体来养龙虾，毕竟智能眼镜的性能相对有限，本质上龙虾还是养在电脑上，眼镜充当的，是龙虾的「眼镜」和「耳朵」这两个角色。

前置准备也比较简单：一个 Ray-Ban Meta 眼镜，一台 iPhone 或 Android 手机，对应的 Xcode 或者 Android Studio 开发工具，一台部署 OpenClaw 的 Mac，以及一个免费的 Gemini Live API 密钥。

整个 VisionClaw 的架构，是一个完整的「感知-决策-行动」系统，结合了 Meta 眼镜的传感器和数据、Google Gemini 强大的多模态能力，以及 OpenClaw 的自动化执行能力。

感知层面，利用的是 Meta 的 Wearable DAT SDK（数据传输 SDK），实时获取智能眼镜摄像头画面和麦克风音频。通过 WebRTC协议，这些海量的流数据以极低的延迟传输到后端，能够一秒传输一帧画面，相当于「快照」。

Gemini Live 是 Google Gemini 的多模态能力，在手机上下载一个 Gemini 应用，就能调用摄像头和麦克风，让 Gemini 识别现实世界中的事物，据此回答用户的语音提问。

通过 Google 提供的 API，Ray-Ban Meta 也能接入这种能力，使用眼镜「感知层」捕获到的快照和录音，进行「决策」。

如果用户在电脑上部署了龙虾，可以通过网关与手机对接，Gemini 在接到用户的具体任务指令后，它就能调用 OpenClaw 多达 56 个工具和技能，去操作外部 API、网页或本地应用。

这也是这套方案真正有意思的地方，毕竟，不管是 Ray-Ban Meta 还是 Google AI 眼镜，抑或是其他品牌的 AI 智能眼镜，多模态的问答能力都基本是标配，戴着眼镜可以翻译面前的外语，或者对着食物生成菜谱。

有了 OpenClaw 之后，眼镜才从「问答」，真正升级到了「执行」，能真正「影响」你面前的现实世界。

龙虾上眼镜后，真 · AI 助手来了

生成式 AI 浪潮汹涌，「钢铁侠」与他的 AI 助手「贾维斯」成了现实的参照标杆，各类产品和理念争相靠拢，而 VisionClaw，则可能是当下最贴近这一未来愿景的存在。

作为一种「全时陪伴」的 AI 硬件，VisionClaw 眼镜在不少场合都是一个比手机更理想的入口。想象这个场景：当你在路上全神贯注驾驶，因为前方修路不得不绕行，这时，你可以直接呼出 VisionClaw，让它告诉你的朋友要迟到，Gemini 就会利用 OpenClaw，给朋友发出信息——全程，你的手没有离开方向盘，视线也没有离开路况。

这种场景，只是 VisionClaw 多模态感知能力的一种，还远非它的上限。

VisionClaw 的创始人 Xiaoan Liu 分享了一个更加具体并且有趣的用例：他面前有一瓶饮料，于是他呼出眼镜的 VisionClaw 助手，直接说「帮我把这个饮料放进我的 Amazon 购物车」，AI 首先识别出了这是一瓶魔爪草莓味能量饮料，然后操作浏览器，进入 Amazon 官网，进行搜索后将商品加购。

根据 GitHub 的页面，VisionClaw 还能实现一些相对更「科幻」的操作：比如更自然、无感的智能家居控制，戴着眼镜看向一盏灯，发出「调暗」的指令，OpenClaw 就知道该对哪盏灯进行对应的操作。

上线两个月，VisionClaw 吸引了不少极客网友的注意，一些网友认为，这种「语音 + 视觉 + 智能体操作」的方案，几乎就是 AI Agent 第一个「可用形态」。

由于项目开源的特性，VisionClaw 的能力理论上来说没有天花板，开发者可以自己加入、定制自己想要的能力。

龙虾和智能眼镜，为什么是一对天作之合

由于 VisionClaw ≈ 摄像头麦克风 + Gemini Live + OpenClaw 的架构，它其实完全可以部署在手机上。

但我认为，智能眼镜依旧是最适合 VisionClaw 的载体，并且「龙虾」OpenClaw 也需要一个像智能眼镜的容器。

龙虾究竟是什么？具体来说，它是一个部署在电脑的开源 AI 智能体，拥有极强的数据读取和自动化操作能力。

而从一个更宏观的视角去看，「龙虾」是一种理念，一个机器高度自动化的思路，重要的根本不是「OpenClaw」这个智能体本身。

「龙虾」之所以成为了一个潮流，席卷厂商、极客乃至大众，无非是因为它不止能写文章能画画，而是真的能动手能干活，更契合我们最初对「AI」的畅想——一个无所不能的助手，我们动动嘴皮子，就把事情完成了。

在电脑养龙虾，AI 只能处理计算机和互联网中的虚拟任务，虽然能力已经足够强大，但还是偏「孤岛」，无法进一步渗透生活，明明生活中的不少琐事，都很值得交给 AI 完成。

并且，如果日常中想要调用龙虾帮自己做某些事情，不得不用手机或电脑，并提供大量的上下文和指令。

比如上面提到的买饮料，用户必须要先知道这是哪一款饮料，然后告知 OpenClaw，才能让它帮忙加购，这个过程相对繁琐，还不如自己手动操作。

这些问题，刚好都能被 VisionClaw 解决。

Meta CEO 马克 · 扎克伯格一直相当看重「智能眼镜」作为 AI 载体的价值，因为它不仅可以长时间佩戴，作为一个随时就位的 AI 入口；还能通过摄像头、麦克风等环境传感器，收集用户环境上下文，作为 AI 决策的依据，它真的知道你的注意力放在了何处。

在用户现实生活上下文的支撑下，龙虾的能力范围进一步扩张，「自动化」的好处，终于也能在日常生活中得以体现。让 AI 砍掉多余的操作和步骤，极简化地实现原本多个步骤的操作，「龙虾」的意义，才真正从「工具」，转变为「伙伴」。

目前的 VisionClaw，还需要用户下达指令才能执行操作，未来很可能演变成一种更「自觉」的智能能力。

比如说，当用户读自己的体检单，眼镜不仅会将读数转化成具体的身体状况，如果发现一些潜在的疾病风险，还会主动询问用户是否需要帮忙预约医生。

VisionClaw 某种意义上就是智能眼镜愿景的「终点」。这说的并不是「VisionClaw」这个开源方案本身，因为这更多只是一个技术方向的探索方案，很难真正面向大众，它所描绘和证明的「可能性」更有价值。

智能眼镜的结局未必真的能「替代」手机，更可能的未来，就是成为手机的延伸，特别是 AI Agent 的触角和入口，通过语音交互和自动化执行的能力，减少用户掏出手机的次数。

一些智能眼镜厂商，已经发现了「龙虾眼镜」的潜力。Rokid 上线了「自定义智能体」的功能，可以接入 OpenClaw 等平台，集成调用文件系统、浏览器操作以及更多脚本能力。

去年，Meta 推出了首款带单眼显示屏的 Ray-Ban Display 眼镜，但这款产品并没有延续不带显示屏 Ray-Ban Meta 的成功，除开价格要素，使用场景偏窄是更致命的问题，大家不知道，要拿这个显示屏做什么。

在 AI Agent 的加持下，显示屏眼镜的一些生产力场景才得以成立，而 Meta 目前的 AI 能力并不能很好托举这款未来产品，需要「龙虾」这种更强大的自主能力才能助推。目前一些开发者已经在着手，将类似 VisionClaw 的能力移植到 Ray-Ban Display 上，利用好这块显示屏。

试想一下，未来戴一副具有显示屏的「龙虾眼镜」到产品发布会现场，我只要下达一个「帮我写一个上手稿件」的指令，然后上手把玩产品，Agent 就能帮我写出口播稿，我也一边能够在眼镜屏幕上浏览生成的结果，完全不需要用到电脑，而稿件完成后，还可以通过调用远程的电脑，来展开进一步的工作。

VisionClaw 也打开了一扇可能性的大门，今天有龙虾眼镜，明天可能「龙虾手表」「龙虾耳机」也安排上了，不仅能作为离用户更近的 AI 入口，其传感器也能为 Agent 带来更丰富的数据和依据。

厂商们已经在这条道路上全速奔跑。MacRumors 爆料，苹果正在开发一个「AI 胸针」，搭载摄像头和麦克风等多种传感器，与 iPhone 配合使用，为全新的 AI Siri 捕捉现实世界信息。

硬件只是载体，真正重要的是「形态」本身，哪一种形态才能完全释放出 AI 的全部能力，短期内还没有答案，至少在 VisionClaw 身上，我们看到了未来交互的潜力。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。