当办公室都在咕咕嘎嘎……打字,正在变成一种古老的技艺
分类: 身心健康/思维模型/人际职场/社会趋势/效率工具/人文素养
原文链接: https://mp.weixin.qq.com/s/cL5F0kowd6qB903XQ15Pjw
编辑|Panda
这是 Vibe Coding 的时代,这是 Vibe Working 的时代,这也是语音输入的时代……
⌨️键盘,似乎正在变成一件古董。
2025 年 2 月初,Andrej Karpathy 首次提出并命名了「
V
ib
e Coding(氛围编程)
」这一概念:开发者不再逐行写代码,而是用自然语言向 AI 描述需求,让 Claude Code、Codex 这类工具代劳。
这个概念迅速成为 AI 圈的流行语,并在 2025 年底演变为一种更广泛的工作方式:一切知识工作都开始「顺着感觉走」,让 AI 替你把想法变成输出。人们给这种工作方式起了个新名字:
Vibe Working
。
而 Vibe Working 自然需要一种比键盘更顺滑的输入方式。于是,
语音输入
登场了。
语音听写正在和 Vibe Coding 合流:开发者一边踱步一边口述需求,语音工具把语音转成文字 prompt,编程 AI 再把 prompt 转成代码。思维流动的速度,不再受限于手指的速度。
这场融合甚至还引发了一个意想不到的尴尬:Mac Mini 没有内置麦克风。
在 V2EX、知乎、小红书等中文平台上,「买了 Mac Mini 想 Vibe Coding,发现没有麦克风怎么办」成了一个高频问题。有人困惑地翻遍设置找不到输入设备,才发现这台机器的「缺陷」:Mac Mini(以及 Mac Pro、Mac Studio)从来就没有内置麦克风。
图源:小红书 @科尔白
于是,想 Vibe Working 的用户,不得不在下单 Mac Mini 的同时,再配一根 USB 麦克风或鹅颈麦。苹果大概没有预料到,有一天「没有麦克风」会成为一台高性能台式机的硬伤,而不只是一个用户忘记带耳机时才会遇到的小烦恼。
这个尴尬背后是一个真实的趋势。语音输入,正在以超出所有人预期的速度,从边缘走向主流。
硅谷办公室,窃窃私语声
据《华尔街日报》报道,西雅图的 AI 创业者 Mollie Amkraut Mueller 曾经有一个神圣的夜晚仪式:哄孩子睡觉,倒在沙发上,和丈夫各自打开电脑,在客厅的宁静中完成一天剩余的工作。
这种平静后来被打破了。
不是因为孩子哭闹,而是因为 Mollie 自己:她开始在夜里对着笔记本电脑低声嘀咕,时而停顿,时而喃喃纠正自己,时而又接着说。她的丈夫忍受了一段时间,然后提出了抗议。
Amkraut Mueller 迷上了一款叫 Wispr Flow 的语音听写应用,用它与 Claude Code、Codex 搭配,能把散漫的意识流语音,在几秒内转化为连贯、可用的文本。高效,是的。但也确实有点奇怪。
这种奇怪,正在硅谷的办公室里以病毒式速度蔓延。
在一些公司里,这场风潮是从一名员工开始的,然后悄悄蔓延开去。鹅颈式麦克风开始出现在工位上。
越来越多的人放弃键盘,转而对着电脑低语指令。
有位风险投资人描述说,今天去拜访 AI 创业公司,就像走进了一家高端呼叫中心。只不过
每个人
都在
和 AI 聊天
。金融科技公司 Ramp 的工程师们戴着游戏耳机大声和 AI 助理交谈;人力资源公司 Gusto 的联合创始人 Edward Kim 鼓励员工尝试语音听写技术,并预言「未来的办公室听起来会更像一个销售楼层」。
然后他以身作则:「我现在一直在和我的电脑说话,除非万不得已,我不打字。」
这篇题为《Typing Is Being Replaced by Whispering — and It's Way More Annoying》(打字正在被低语取代——而且烦人多了)的《华尔街日报》报道迅速引发广泛讨论。文章作者 Kate Clark 写道:「整个硅谷的工作方式正在被重塑,曾经平静的办公空间正在变成嘈杂的声音巢穴。」
图源:《华尔街日报》
《卫报》也在同月跟进,发表了《打字的终结?为什么工人们突然开始抛弃键盘》。
一时间,「
语音输入
」成了科技圈最热门的话题之一。
这场低语革命,到底是怎么发生的?
硅谷办公室的声音变迁
让我们先做一次简短的声景考古。
1998 年,办公室的主旋律是传真机的拨号嘟鸣声和答录机红灯的闪烁。2008 年,是键盘噼里啪啦的打字声和电话铃声。到了 2018 年,Slack 的消息提示音接管了这一切。
而 2026 年,你走进一家硅谷 AI 创业公司,听到的是此起彼伏的低语——有人在说「给张三发一封关于明天会议的邮件」,有人在念「不,取消,重新开始」,有人则在对着屏幕描述一个函数的逻辑。
NICH 工作室的 Chad Strickland 在 Substack 上记录了这一变化:「
过去一年,我们工
作室
的声音变了。
我们一直以播放精选歌单著称,从进门到最后一个人离开,音乐不停。但是,低语声开始了。现在我们在音乐的选择上非常谨慎,不能有歌词——Jackie Gleason 的古典爵士乐于是开始流行起来。为什么?因为你现在听到的,主要是人们对着笔记本电脑展开单边对话。停顿,半截的词,偶尔一句『不,划掉那句』。」
技术上,促成这场变化的关键节点是 2022 年:OpenAI 发布了开源语音识别模型 Whisper,将语音转文字的准确率推到了一个新高度。此后迭代持续加速。Whisper Large v3 在干净音频基准测试中,词错误率已降至约 2.7%;OpenAI 今年推出的 gpt-4o-transcribe 模型,在第三方评测中甚至跑出了 2.5% 的低错误率。相比五年前错误率极高的语音识别工具,这是质的飞跃。从那时起,AI 语音大模型的成熟期开始加速到来。
但技术的成熟,只是拼图的一块。真正点燃这场风潮的,是一个词:
voicepilled
。
去年秋天,LinkedIn 联合创始人 Reid Hoffman 在 LinkedIn 上坦白:「I am voicepilled。」他论证说,用说话代替打字是计算机领域的下一次伟大飞跃。所谓「voicepilled」,是一种顿悟——当你不再被那个维多利亚时代的打字机遗产(也就是键盘)束缚时,你
可以拥有更高的生产力和创造力
。
图源:LinkedIn:Reid Hoffman
这个词来自电影《黑客帝国》中著名的「红蓝药丸」比喻:一旦你吞下红药丸,看见了另一个世界,就再也回不去了。Voicepilling 这个词迅速成为抛弃键盘的新简称,并以快速传播,因为
AI 语音听写工具的准确率已经高到足以让说话比打字更快
。
一个正在爆发的市场
Wispr Flow 的创业历程颇具戏剧性。
公司由 Tanay Kothari 和 Sahaj Garg 于 2021 年创立,最初目标并非做语音输入软件,而是开发一种带有神经接口的非侵入式可穿戴设备,希望通过读取用户神经信号,实现对电脑和智能手机的控制。团队后来甚至打造出了一款被 Kothari 形容为「像纯粹魔法一样」的蓝牙耳机原型。然而,由于市场需求未能达到预期,公司不得不进行艰难转型,将团队规模从约 40 人缩减到 4 人,并将重心转向语音听写产品。最终,这条转型路线催生了后来广受关注的 Wispr Flow。
这次「被迫转型」,撞上了一个时代的风口。
Wispr Flow 的 Mac 应用于 2024 年秋季上线,此后一路高歌:每月活跃用户增长 50%。Kothari 表示,硅谷几乎每一家顶级风投基金都在使用 Wispr Flow 撰写邮件、备忘录和文件。VC 们自己成了这款产品最狂热的用户,而「VC 用什么」这件事,在硅谷从来都不是小事。
融资随之而来:2025 年 6 月,Wispr Flow 完成由 Menlo Ventures 领投的 3000 万美元 A 轮融资;同年 11 月,又完成了由 Notable Capital 领投的 2500 万美元追加融资,估值达到约 7 亿美元。而根据彭博社今年五月的报道,Wispr AI 正就一轮约 2.6 亿美元的新融资进行谈判,估值有望突破 20 亿美元。
从 4 人小团队到 20 亿美元估值,用了不到三年。
Wispr Flow 并非孤军奋战。早期入场的 Aqua Voice 和 Willow 均为 Y Combinator 支持的公司,此后又有 TalkTastic、Typeless、Superwhisper 等一批竞争者涌入。科技媒体 TechCrunch 将 2025 年评为 AI 语音听写应用真正腾飞的一年,并盘点出多款年度最佳语音听写工具。
Wispr 自称,在用户使用三个月后,平均每位用户超过一半的字符已通过语音输入完成。公司 12 个月用户留存率达 70%,用户基础年增长 100 倍,目前全球下载量已突破 250 万次,并已渗透至财富 500 强中的 270 家企业。
有一个细节值得一提:Wispr Flow 的用户中,英语输入仅占约 40%,其余 60% 来自非英语语言——西班牙语、法语、德语、印地语、普通话等。一款「硅谷创业公司」做出来的语音产品,超过半数的真实使用场景,其实发生在硅谷以外。这或许是整个语音输入趋势最被低估的一个侧面。
这款产品的名人背书阵容也颇为耀眼。Reid Hoffman 公开宣布自己「voicepilled」;a16z 创始合伙人 Marc Andreessen 称其「好得令人震惊(staggeringly good)」;苹果联合创始人 Steve Wozniak 也是日常用户。Superhuman CEO Rahul Vohra 则将它称为「自 ChatGPT 以来最重要的消费者 AI 产品之一」。在硅谷,「VC 们的手机里装了什么」这件事,从来不只是个人选择——它是下一轮融资对话的前奏。
科技巨头也嗅到了风向。2026 年 5 月,谷歌在 Android Show: I/O Edition 2026 上发布了 Gboard 内置的 Gemini 驱动 AI 语音听写功能 Rambler。该功能能够自动去除口头禅、理解用户的中途修改,并支持多语言混合输入,被视为谷歌正式进入 AI 语音听写赛道的重要一步。谷歌 Android 核心体验总监 Ben Greenwood 将其描述为「
重新
发明
键盘
」。
对创业公司来说,这个消息喜忧参半:巨头亲自入场,是市场被验证的最好证明,同时也是最大的竞
争威胁。
与此同时,更「奇葩」的使用场景也在涌现。Willow 的创始人 Allan Guo 在 LinkedIn 上宣布:「我很高兴地宣布,我们已经把键盘从全球最权威的电视奖项里移除了。」——2026 年艾美奖的筹备团队,正在用 Willow 的语音听写工具来处理 Slack 消息、清空收件箱。
图源:LinkedIn:Lawrence Liu & Allan Guo
当一台高性能 Mac 的工位上开始长出鹅颈麦,当艾美奖的运营团队开始对着屏幕小声嘀咕,这场变化就不再只是硅谷的极客把戏了。
根据 Mordor Intelligence 今年一月的报告,全球语音识别市场规模在 2026 年估计达到约
225 亿美元
,预计到 2031 年将增长至
617 亿美元
,年复合增长率约 22.4%。这还只是「语音识别」这一个细分方向,整个语音 AI 领域的市场空间,要远不止于此。
当连谷歌都开始把语音听写内置到默认键盘里时,这件事的走向就已经清晰了。
而中国市场的情况,比外界想象的更早热起来。
中国
用户的语
音输入习惯,其实比硅谷的「voicepilling 风潮」早。
这与中文输入法生态的发展路径密切相关。相比许多西方用户长期依赖键盘输入,
中国用户很早便开始通过手机输入法使用语音转文字功能
。有研究者认为,中文语音识别与拼音输入体系之间存在天然协同,使语音输入更容易融入日常沟通场景;与此同时,移动互联网时代积累的输入习惯,也为语音交互的普及提供了土壤。
在这一过程中,第三方输入法厂商持续推动了语音输入能力的升级。搜狗、讯飞、百度等头部产品长期占据市场主导地位,其中讯飞输入法一直将 AI 语音技术作为核心竞争力。根据讯飞官方资料,其语音
返回首页