语音输入喊了这么多年,千问电脑版一出手就把键盘卷没了?

AI 正在悄悄改变人与电脑的交互方式,而下一个被重塑的,可能就是每天发生几百次的「输入」这个动作。
语音输入并非新概念。从早期的 Siri、Google Assistant,到近几年 Whisper、Otter.ai 等工具在海外掀起的语音转文字热潮,这条赛道已经被反复验证过需求真实存在。
但用户的抱怨也从没停过。识别出来全是口语,「嗯、啊、那个、这个……」一个不落,语气词、停顿、口误,说完还得自己改一遍,兜了一大圈,效率并没提升多少。
而且很多工具和真正的办公场景脱节,重活都在电脑上干,语音工具却在手机里。
最近,千问电脑版上线了全新的语音输入法,我们只需对着屏幕开口说话,它就能自动识别当前所在的应用和屏幕内容,理解我们的表达意图,过滤掉语气词和口误,直接输出结构化、可用的文字。
这套语音能力还打通了千问电脑版本身的生产力工具,语音指令能直接调起 AI,帮忙回邮件、润色文案、生成 PPT、整理表格等。
交互逻辑也很简洁,记住两个操作就够了。在任意界面长按右 Alt(Mac 用户长按右 Command),松开后语音自动转文字,不需要额外安装插件,也不需要切换应用。
如果想直接下达指令让 AI 干活,双击同一快捷键即可。查资料、回消息、生成文档、做 PPT,选中内容后双击,千问便能基于当前屏幕内容直接执行任务。

可以这么说,语音输入在这里不只是一个替代键盘的输入方式,相反成了触发整条工作流的开关。
目前,该功能已上线,我们可以下载千问电脑版或访问网页版直接体验,功能全免费、零门槛。
接下来我们就奉上一手实测,看看能开发出哪些提效玩法。
千问网页版:https://www.qianwen.com/
千问客户端:https://www.qianwen.com/download?ch=tongyi_redirect
智能语音输入:打工人最强「嘴替」
先来试试智能语音输入。
我们将输入光标放在钉钉聊天框里,按住右 Alt(Mac 用户按住右 Command),对着电脑说一段完全口语化的内容,不停顿、不整理,就像跟朋友随口聊天那样说出来:
「就是啊,这个项目的话,我觉得吧,嗯,时间线要排一下,然后那个…… 对,就是周四之前要跟客户确认方案,然后内容那边也要催一催,不然可能来不及。」
千问将所有语气词过滤干净,原本散乱的三件事,被整理成逻辑清晰的三句话,意思完整保留,但文字已是可以直接发送的状态。

千问语音输入法效果
以前写 prompt 要斟酌半天,现在可以随想随说。
比如口语输入一段复杂的提示词:
「我要写一份千问电脑版语音输入法上线的营销策划方案,你帮我整理一下。先说产品功能和价值,讲它怎么结合千问 AI 提高办公效率和内容整理能力。然后分析目标用户和市场定位,比如职场白领、内容创作者、学生,他们的痛点和需求,跟竞品比有什么优势。接着帮我设计营销策略,包括线上线下推广、社交媒体、短视频、KOL 合作之类的。再帮我做个预算和 KPI 规划,每个渠道和活动的预算、下载量、转化率、曝光量等。还要分析风险和应对,比如用户认知不足、教育成本高、竞品影响。最后帮我做深度分析和观点拔高,讲 AI 语音输入在办公效率、知识管理、内容创作的趋势,国内外输入法发展和推广动向,以及对数字办公生态和用户习惯的长期影响。」
千问能分条缕析地理清需求,自动按框架分点输出,结构一目了然。
千问语音输入法效果
识别准确率方面,正常语速下中文识别几乎没有错别字,中英文混说也能无缝识别。比如我们语音输入:
「王姐,问你个事儿呗,明天咱们的会是几点呀?我下午有个 Deadline,能不能往后 push 一下?哎呦,楼下新开了一家羊汤馆,挺好吃的。中午咱一块去吃饭去?」

千问语音输入法效果
再来个包含大量英文技术术语的提示词,原话是:
「对话历史太长导致 Context Window 爆了。我想把 ConversationBufferMemory 换成 ConversationSummaryMemory,请给我一个用 LLM 自动 Summarize 历史消息的代码示例。」
千问识别结果依然很准确,中英文混说没有出现任何偏差。
千问语音输入法效果
智能语音指令:不用打字,开口说话就能办公
双击右 Alt(Mac 用户双击右 Command),则进入另一种模式 ——AI 语音指令。我们说什么,千问就能干什么,在任意软件、桌面任意位置均可唤起千问。
比如在邮件页面双击唤起,直接说:
「帮我写一封邮件,告诉客户方案延期两天,周五能交付,态度诚恳一些。」
千问听懂指令后,能感知上下文,识别收件对象,并按邮件格式输出一封带开头、结尾的完整邮件,语气客气不拖沓。

千问语音输入法效果
如果觉得过于正式,再说一句「将邮件语气改得轻松一点」,千问直接重新生成,措辞到位无需手动修改。

千问语音输入法效果
而且它还能进行场景感知。同样一句语音指令「帮我回复下,说我可以」,在钉钉聊天框里,它输出的是:「收到啦!我会准时到达会议室哒~不见不散呀!」保留了即时通讯的口语感,末尾还自然带上表情。
千问语音输入法效果
切换到邮件界面再说同样的内容,话术则变成「收到,我会准时参加」,语气直接切换成商务书面表达。
千问语音输入法效果
同样的指令,它可以根据不同的场景,呈现出截然不同的表达风格。
千问智能语音指令还可以用来记便签,任何时候双击唤起,原话是:
「我觉得可以写一个趣味选题,吐槽当代大学生写论文的现状:很多人先用 AI 生成初稿,再用 AI 扩写润色,最后又用 AI 检测重复率,结果整篇论文几乎全程由 AI 操作,自己动手的部分越来越少。帮我记录这个灵感,并给几个拓展方向,比如学术诚信:AI 写作和扩写的滥用是否影响原创性和学术道德。技术怪圈:AI 生成论文再用 AI 检测的荒诞逻辑和 “自相矛盾” 的现象。写作能力退化:过度依赖 AI 是否导致学生基本写作技能下降。教育制度应对:学校和老师如何应对 AI 写作带来的教学挑战和评估问题。」
千问电脑版能自动识别、记录并提供查看入口。

千问语音输入法效果
接下来我们再试几个进阶场景。
比如语音指令和千问内置的 PPT 功能联动。
千问 PPT 新增专业模式,由 Qwen 最新 AI 大模型编程能力加持,可动态生成复杂结构的 PPT 页面和内容,内容有深度,而且排版专业。
我们在钉钉里选中一段需求,双击快捷键,开口说:「帮我把这段需求整理成待办清单,再做成汇报 PPT。」
千问基于选中的内容,自动梳理逻辑、提炼要点,生成一份结构完整的 PPT。不需要复制粘贴、切窗口,更不需要手动排版。生成后还支持继续修改,直接在原 PPT 上调整,不用推倒重来。

千问语音输入法效果
此外,它还支持多文件处理,将几十份 Word、PDF 文件拖入千问,双击快捷键下达指令,AI 可以自动读取内容、提炼关键信息、生成数据可视化图表,输出一份可直接上台汇报的材料。支持 39 种文件格式,一次性批量处理。
语音指令搭配 Excel 也是需求极高的场景。
我们依然双击快捷键下指令,原话是:
「把财政部 税务总局公告 2026 年第 10 号文件包含的增值税优惠政策具体项目整理成一份 excel 清单,减免方式、政策内容、执行期限。」
千问自动搜集相关政策,并整理成增值税优惠政策清单 Exccel 文件,全程对话式操作。

千问语音输入法效果
整个过程里,我们只需说清楚要什么,执行层全部交给千问。对于日常需要维护各种数据表但又不擅长 Excel 的人来说,这种操作方式的门槛几乎为零。
结语
支撑这一切的,是千问大模型多年沉淀的语音底层能力,包括超亿小时音视频数据训练、端到端的实时响应。扎实的技术底座,本就在等待一个足够日常、足够高频的落地出口。
真正让千问电脑版语音输入法值得单独说一说的,是它重新定义了「语音输入」。普通语音输入法做的是听写,我们说,它转,转完就结束了。而千问做的是理解,是把声音到文字的单次转写,升级为识别 — 理解 — 重写 — 排版的完整智能链路。
这条链路,是专门为语音输入打造的 AI 流水线,Qwen 定制 ASR 模式负责高精度听懂,Qwen 最新序列的 LLM 负责深度理解与表达重构。它同时在听我们说什么、看屏幕上有什么、判断我们正在用哪个软件,再决定输出什么。它真正解决的,是把口头想法快速变成一段可以直接使用的高质量文本。
它也把使用 AI 的流程压缩了。长按说话、双击下指令,AI 能力直接嵌在我们正在用的软件里,输入和执行之间没有断点,注意力也不会因为切换窗口而中断。
这背后,是一个正在成形的更大趋势。苹果将 Siri 全面升级为 AI 助手,OpenAI 持续推进 ChatGPT 的语音对话能力,Google 的 Gemini 也在强化多模态交互…… 语音正在从键盘的补充,演变为 AI 时代最自然的交互入口,因为大模型已经能真正听懂人话、理解上下文,打字反而成了多余的中间环节。
但在电脑端,这个转变才刚刚开始。桌面端的语音输入长期停留在转写工具的层面,没有与 AI 能力真正结合,千问电脑版语音输入法恰好做了一次尝试。
模型有多聪明,决定的是产品的上限。用户能用多自然的方式把意图传递给 AI,决定的是产品能否真正进入日常。
语音输入,正在成为 AI 交互的下一个入口。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
