当办公室都在咕咕嘎嘎……打字，正在变成一种古老的技艺

<h1>当办公室都在咕咕嘎嘎……打字，正在变成一种古老的技艺</h1><p><strong>分类:</strong> 身心健康/思维模型/人际职场/社会趋势/效率工具/人文素养</p><p><strong>原文链接:</strong> <a href="https://mp.weixin.qq.com/s/cL5F0kowd6qB903XQ15Pjw" target="_blank">https://mp.weixin.qq.com/s/cL5F0kowd6qB903XQ15Pjw</a></p><hr><div>编辑｜Panda
这是 Vibe Coding 的时代，这是 Vibe Working 的时代，这也是语音输入的时代……
⌨️键盘，似乎正在变成一件古董。
2025 年 2 月初，Andrej Karpathy 首次提出并命名了「
V
ib
e Coding（氛围编程）
」这一概念：开发者不再逐行写代码，而是用自然语言向 AI 描述需求，让 Claude Code、Codex 这类工具代劳。
这个概念迅速成为 AI 圈的流行语，并在 2025 年底演变为一种更广泛的工作方式：一切知识工作都开始「顺着感觉走」，让 AI 替你把想法变成输出。人们给这种工作方式起了个新名字：
Vibe Working
。
而 Vibe Working 自然需要一种比键盘更顺滑的输入方式。于是，
语音输入
登场了。
语音听写正在和 Vibe Coding 合流：开发者一边踱步一边口述需求，语音工具把语音转成文字 prompt，编程 AI 再把 prompt 转成代码。思维流动的速度，不再受限于手指的速度。
这场融合甚至还引发了一个意想不到的尴尬：Mac Mini 没有内置麦克风。
在 V2EX、知乎、小红书等中文平台上，「买了 Mac Mini 想 Vibe Coding，发现没有麦克风怎么办」成了一个高频问题。有人困惑地翻遍设置找不到输入设备，才发现这台机器的「缺陷」：Mac Mini（以及 Mac Pro、Mac Studio）从来就没有内置麦克风。
图源：小红书 @科尔白
于是，想 Vibe Working 的用户，不得不在下单 Mac Mini 的同时，再配一根 USB 麦克风或鹅颈麦。苹果大概没有预料到，有一天「没有麦克风」会成为一台高性能台式机的硬伤，而不只是一个用户忘记带耳机时才会遇到的小烦恼。
这个尴尬背后是一个真实的趋势。语音输入，正在以超出所有人预期的速度，从边缘走向主流。
硅谷办公室，窃窃私语声
据《华尔街日报》报道，西雅图的 AI 创业者 Mollie Amkraut Mueller 曾经有一个神圣的夜晚仪式：哄孩子睡觉，倒在沙发上，和丈夫各自打开电脑，在客厅的宁静中完成一天剩余的工作。
这种平静后来被打破了。
不是因为孩子哭闹，而是因为 Mollie 自己：她开始在夜里对着笔记本电脑低声嘀咕，时而停顿，时而喃喃纠正自己，时而又接着说。她的丈夫忍受了一段时间，然后提出了抗议。
Amkraut Mueller 迷上了一款叫 Wispr Flow 的语音听写应用，用它与 Claude Code、Codex 搭配，能把散漫的意识流语音，在几秒内转化为连贯、可用的文本。高效，是的。但也确实有点奇怪。
这种奇怪，正在硅谷的办公室里以病毒式速度蔓延。
在一些公司里，这场风潮是从一名员工开始的，然后悄悄蔓延开去。鹅颈式麦克风开始出现在工位上。
越来越多的人放弃键盘，转而对着电脑低语指令。
有位风险投资人描述说，今天去拜访 AI 创业公司，就像走进了一家高端呼叫中心。只不过
每个人
都在
和 AI 聊天
。金融科技公司 Ramp 的工程师们戴着游戏耳机大声和 AI 助理交谈；人力资源公司 Gusto 的联合创始人 Edward Kim 鼓励员工尝试语音听写技术，并预言「未来的办公室听起来会更像一个销售楼层」。
然后他以身作则：「我现在一直在和我的电脑说话，除非万不得已，我不打字。」
这篇题为《Typing Is Being Replaced by Whispering — and It's Way More Annoying》（打字正在被低语取代——而且烦人多了）的《华尔街日报》报道迅速引发广泛讨论。文章作者 Kate Clark 写道：「整个硅谷的工作方式正在被重塑，曾经平静的办公空间正在变成嘈杂的声音巢穴。」
图源:《华尔街日报》
《卫报》也在同月跟进，发表了《打字的终结？为什么工人们突然开始抛弃键盘》。
一时间，「
语音输入
」成了科技圈最热门的话题之一。
这场低语革命，到底是怎么发生的？
硅谷办公室的声音变迁
让我们先做一次简短的声景考古。
1998 年，办公室的主旋律是传真机的拨号嘟鸣声和答录机红灯的闪烁。2008 年，是键盘噼里啪啦的打字声和电话铃声。到了 2018 年，Slack 的消息提示音接管了这一切。
而 2026 年，你走进一家硅谷 AI 创业公司，听到的是此起彼伏的低语——有人在说「给张三发一封关于明天会议的邮件」，有人在念「不，取消，重新开始」，有人则在对着屏幕描述一个函数的逻辑。
NICH 工作室的 Chad Strickland 在 Substack 上记录了这一变化：「
过去一年，我们工
作室
的声音变了。
我们一直以播放精选歌单著称，从进门到最后一个人离开，音乐不停。但是，低语声开始了。现在我们在音乐的选择上非常谨慎，不能有歌词——Jackie Gleason 的古典爵士乐于是开始流行起来。为什么？因为你现在听到的，主要是人们对着笔记本电脑展开单边对话。停顿，半截的词，偶尔一句『不，划掉那句』。」
技术上，促成这场变化的关键节点是 2022 年：OpenAI 发布了开源语音识别模型 Whisper，将语音转文字的准确率推到了一个新高度。此后迭代持续加速。Whisper Large v3 在干净音频基准测试中，词错误率已降至约 2.7%；OpenAI 今年推出的 gpt-4o-transcribe 模型，在第三方评测中甚至跑出了 2.5% 的低错误率。相比五年前错误率极高的语音识别工具，这是质的飞跃。从那时起，AI 语音大模型的成熟期开始加速到来。
但技术的成熟，只是拼图的一块。真正点燃这场风潮的，是一个词：
voicepilled
。
去年秋天，LinkedIn 联合创始人 Reid Hoffman 在 LinkedIn 上坦白：「I am voicepilled。」他论证说，用说话代替打字是计算机领域的下一次伟大飞跃。所谓「voicepilled」，是一种顿悟——当你不再被那个维多利亚时代的打字机遗产（也就是键盘）束缚时，你
可以拥有更高的生产力和创造力
。
图源：LinkedIn：Reid Hoffman
这个词来自电影《黑客帝国》中著名的「红蓝药丸」比喻：一旦你吞下红药丸，看见了另一个世界，就再也回不去了。Voicepilling 这个词迅速成为抛弃键盘的新简称，并以快速传播，因为
AI 语音听写工具的准确率已经高到足以让说话比打字更快
。
一个正在爆发的市场
Wispr Flow 的创业历程颇具戏剧性。
公司由 Tanay Kothari 和 Sahaj Garg 于 2021 年创立，最初目标并非做语音输入软件，而是开发一种带有神经接口的非侵入式可穿戴设备，希望通过读取用户神经信号，实现对电脑和智能手机的控制。团队后来甚至打造出了一款被 Kothari 形容为「像纯粹魔法一样」的蓝牙耳机原型。然而，由于市场需求未能达到预期，公司不得不进行艰难转型，将团队规模从约 40 人缩减到 4 人，并将重心转向语音听写产品。最终，这条转型路线催生了后来广受关注的 Wispr Flow。
这次「被迫转型」，撞上了一个时代的风口。
Wispr Flow 的 Mac 应用于 2024 年秋季上线，此后一路高歌：每月活跃用户增长 50%。Kothari 表示，硅谷几乎每一家顶级风投基金都在使用 Wispr Flow 撰写邮件、备忘录和文件。VC 们自己成了这款产品最狂热的用户，而「VC 用什么」这件事，在硅谷从来都不是小事。
融资随之而来：2025 年 6 月，Wispr Flow 完成由 Menlo Ventures 领投的 3000 万美元 A 轮融资；同年 11 月，又完成了由 Notable Capital 领投的 2500 万美元追加融资，估值达到约 7 亿美元。而根据彭博社今年五月的报道，Wispr AI 正就一轮约 2.6 亿美元的新融资进行谈判，估值有望突破 20 亿美元。
从 4 人小团队到 20 亿美元估值，用了不到三年。
Wispr Flow 并非孤军奋战。早期入场的 Aqua Voice 和 Willow 均为 Y Combinator 支持的公司，此后又有 TalkTastic、Typeless、Superwhisper 等一批竞争者涌入。科技媒体 TechCrunch 将 2025 年评为 AI 语音听写应用真正腾飞的一年，并盘点出多款年度最佳语音听写工具。
Wispr 自称，在用户使用三个月后，平均每位用户超过一半的字符已通过语音输入完成。公司 12 个月用户留存率达 70%，用户基础年增长 100 倍，目前全球下载量已突破 250 万次，并已渗透至财富 500 强中的 270 家企业。
有一个细节值得一提：Wispr Flow 的用户中，英语输入仅占约 40%，其余 60% 来自非英语语言——西班牙语、法语、德语、印地语、普通话等。一款「硅谷创业公司」做出来的语音产品，超过半数的真实使用场景，其实发生在硅谷以外。这或许是整个语音输入趋势最被低估的一个侧面。
这款产品的名人背书阵容也颇为耀眼。Reid Hoffman 公开宣布自己「voicepilled」；a16z 创始合伙人 Marc Andreessen 称其「好得令人震惊（staggeringly good）」；苹果联合创始人 Steve Wozniak 也是日常用户。Superhuman CEO Rahul Vohra 则将它称为「自 ChatGPT 以来最重要的消费者 AI 产品之一」。在硅谷，「VC 们的手机里装了什么」这件事，从来不只是个人选择——它是下一轮融资对话的前奏。
科技巨头也嗅到了风向。2026 年 5 月，谷歌在 Android Show: I/O Edition 2026 上发布了 Gboard 内置的 Gemini 驱动 AI 语音听写功能 Rambler。该功能能够自动去除口头禅、理解用户的中途修改，并支持多语言混合输入，被视为谷歌正式进入 AI 语音听写赛道的重要一步。谷歌 Android 核心体验总监 Ben Greenwood 将其描述为「
重新
发明
键盘
」。
对创业公司来说，这个消息喜忧参半：巨头亲自入场，是市场被验证的最好证明，同时也是最大的竞
争威胁。
与此同时，更「奇葩」的使用场景也在涌现。Willow 的创始人 Allan Guo 在 LinkedIn 上宣布：「我很高兴地宣布，我们已经把键盘从全球最权威的电视奖项里移除了。」——2026 年艾美奖的筹备团队，正在用 Willow 的语音听写工具来处理 Slack 消息、清空收件箱。
图源：LinkedIn：Lawrence Liu & Allan Guo
当一台高性能 Mac 的工位上开始长出鹅颈麦，当艾美奖的运营团队开始对着屏幕小声嘀咕，这场变化就不再只是硅谷的极客把戏了。
根据 Mordor Intelligence 今年一月的报告，全球语音识别市场规模在 2026 年估计达到约
225 亿美元
，预计到 2031 年将增长至
617 亿美元
，年复合增长率约 22.4%。这还只是「语音识别」这一个细分方向，整个语音 AI 领域的市场空间，要远不止于此。
当连谷歌都开始把语音听写内置到默认键盘里时，这件事的走向就已经清晰了。
而中国市场的情况，比外界想象的更早热起来。
中国
用户的语
音输入习惯，其实比硅谷的「voicepilling 风潮」早。
这与中文输入法生态的发展路径密切相关。相比许多西方用户长期依赖键盘输入，
中国用户很早便开始通过手机输入法使用语音转文字功能
。有研究者认为，中文语音识别与拼音输入体系之间存在天然协同，使语音输入更容易融入日常沟通场景；与此同时，移动互联网时代积累的输入习惯，也为语音交互的普及提供了土壤。
在这一过程中，第三方输入法厂商持续推动了语音输入能力的升级。搜狗、讯飞、百度等头部产品长期占据市场主导地位，其中讯飞输入法一直将 AI 语音技术作为核心竞争力。根据讯飞官方资料，其语音</div><br><a href="/">返回首页</a>