Productivity

用语音和 AI 一起思考：为什么键盘不是合适工具

一篇创始人笔记：为什么口头提示词往往能保住键盘会提前修掉的那部分想法。

Shuran Zhou, Founder · 2026-05-08 ·5 分钟 ·更新于 2026-05-08

TL;DR

语音思考不是为了打字更快。Loqua 是一款 Mac 原生语音输入工具，它帮助你在键盘把半成形想法压缩之前，把它们送进 AI 工具。和 LLM 协作时，瓶颈往往不是打出完美文字，而是保留细微差别。

我以前以为语音只是无障碍界面，或者一个方便功能。每天使用 AI 工具之后，我改变了看法。键盘很适合精确输入，但它不适合用来和 AI 一起思考，因为它太早把想法挤进了一个狭窄通道。

键盘瓶颈

打字很快的人，峰值大概能到每分钟 70 个词。日常对话语速通常接近每分钟 150 个词，而内在思考可能比两者都更快。具体数字没那么重要，重要的是形态：键盘会迫使你在想法成熟之前，把思考串行化成已经打磨过的片段。

这就是键盘瓶颈。不是说打字在绝对意义上很慢，而是说打字会让你一边形成想法一边编辑。面对 AI 时，这种过早压缩常常删掉真正有用的模糊性：保留条件、替代路径、你不确定但希望模型考虑的部分。

我最明显地感受到这一点，是在疲惫的时候。一天快结束时，我打出来的提示词会变短，模型的回答也相应变差。同一个晚上，把同样意图听写进同一个工具，答案会更好，因为口头版本仍然带着那些我手打时会删掉的上下文。键盘不只是让我变慢；过了某个时间点，它会让我成为更差的模型协作者。

AI 改变了提示词的形状

和 LLM 协作，更像是在给一位协作者做 briefing，而不是下命令。好的提示词通常包含上下文、动机、约束、例子和不确定性。当问题还很模糊时，AI 语音提示词反而更好，因为你可以把周边语境直接说出来，不必停下来先把它写得优雅。

这就是语音思考重要的原因。你可以说：“I think the bug is in the cache key, but I'm not sure if the user locale is part of it, inspect that path first and tell me if I'm wrong.” 如果打字，它常常会变成“check cache bug”。更短的提示词丢掉了真正的想法。

提示词的形状现在已经是工作本身的一部分，而不是工作的前言。把提示词当成你正在生产的工件，语音就会成为自然的创作工具：它保留你真实理解问题的结构，包括那些你还不确定的部分。拿到半成形想法轮廓的模型，往往比只拿到自信但片面的命令时，返回更好的答案。

三个让我改变看法的瞬间

第一个瞬间来自一次调试。我给一个 agent 打了一条很短的提示，让它检查一个回归问题。它走错了方向。然后我听写了那个凌乱版本：改了什么、我怀疑什么、我不确定什么、什么现象能推翻我的理论。agent 更快找到了问题，因为我终于把自己的不确定性形状交给了它。

第二个瞬间是写作。我打了一段关于我们模型栈的精炼文字，它听起来正确，但没有生命力。我一边踱步一边把同一个想法说出来，包括促使我们设计那套架构的挫败感。听写版本里有真正的论证。我仍然编辑了它，但我是从一份活的初稿开始编辑，而不是从一份无菌的大纲开始。

第三个瞬间是一封很长、很别扭的客户回复。客户问了一个没有干净答案的问题；诚实回答需要解释取舍，还要带一点道歉。打字时，我改了六轮，仍然生硬。听写时，第一版更温暖、更直接，只需要改一个词。我发了那个版本，对话也继续向前。从那之后，凡是需要语气的消息，我不再信任纯打字回复。

我现在如何使用语音

我用语音做第一遍思考，而不是最终精修。我把凌乱 brief 听写进 Claude Code、Cursor、Obsidian，或一个普通 Markdown 文件。然后切回键盘做精确编辑。这样每种工具都待在自己的位置：语音负责上下文，键盘负责手术式修改。

写代码前：我会听写这次改动、风险和测试路径。听写版本通常会浮现出一个如果打字我会跳过的风险。
写文章前：我先把论点大声说出来，再写大纲。如果我没法在两分钟内说清楚这个论点，就说明我还没想明白。
开会前：我听写这次会议需要得到的决策。带着一个被命名的决策走进会议，会改变整场对话。
失败之后：我会在记忆消退前听写哪里让我意外。如果没有捕捉下来，到第二天早上，教训就消失了。

关于语速和听写模式的外部背景，Nielsen Norman Group 的语音识别写作资料和 words-per-minute 参考是不错的起点。

我反复听到的质疑

“我在共享空间工作。”这很合理，也是真实约束。我的回答是，即便每天只有十分钟安静时间，用来听写最难的提示词，也比一整天都手打更有用。语音不需要支配整个工作流，也能改变它。

“我可以一边打字一边思考。”有些人确实可以。真正的测试不是你能不能用打字产出文字，而是你打出来的文字，是否和你会说出来的思考具有同样形状。对我们大多数人，包括我自己，打字版本都稳定地更不完整。

“我听写时听起来很啰嗦。”第一周会比较粗糙，第二周就会好很多。你在学习的技能不是说话，而是把口头思考塑造成读者（或模型）能使用的东西。它恢复得比预期快，因为每个人以前都用过这种能力，只是在对话里。

Loqua 适合放在哪里

我们写 Loqua，是因为我想要语音思考，但不想接受原始逐字稿清理的负担。它会移除错误开头，保留技术名词，并根据我所在的 App 格式化输出。温和一点的产品表达是：当一个想法太大或太脆弱，不适合先挤过键盘时，用 Loqua。

这个观点的实践版本，可以看我们的 voice-first 工作日。那篇文章展示语音何时有效、何时失效，以及我什么时候仍然会去用键盘。本文讲的是为什么；那篇讲的是怎么做。

常见问题

“语音思考”是什么意思？

语音思考，是指在打磨文字之前，用说话捕捉想法的形状。重点不是完美转写，而是保留上下文、不确定性、例子和动机，让 AI 工具或未来的你能处理完整想法。

语音真的比打字快吗？

用于第一遍捕捉时，通常是的。说话每分钟能承载的上下文往往比打字更多。但精确编辑仍然更适合打字和键盘快捷键。有效工作流是：用语音探索，用键盘精修。

为什么这在 AI 工具里更重要？

AI 工具依赖上下文。过短的手打提示词可能省略了能正确引导模型的假设和不确定性。口头提示词更容易包含完整场景，而这往往比聪明的提示词措辞更重要。

听写出来的提示词会不会太啰嗦？

如果工具只写原始逐字稿，确实可能。Loqua 会清理填充词和错误开头，同时保留实质内容。重要提示词仍然应该编辑，但起点通常比被压缩的手打命令更丰富。

什么时候不该用语音？

不要用语音做精确代码编辑、很小的导航动作，或在不适合大声说出敏感上下文的公共空间使用。适合用语音的，是那些受益于解释、细微差别和快速第一遍捕捉的工作。

这只是给开发者用的吗？

不是。开发者感受明显，是因为提示词和代码审查都很依赖上下文。但同样模式也适用于创始人、写作者、研究者、客服团队，以及任何通过自然语言指令使用 AI 工具的人。

我在开放办公室工作，这仍然适用吗？

适用，只是使用面积更小。每天哪怕只有十分钟安静时间，用来听写最难的提示词，也会改变这些提示词的质量。语音不需要接管整个工作流才有价值；它只需要接管那些被打字压缩伤害最明显的时刻。

今天就试试 Loqua

免费开始。Mac 原生。由每天都在使用它的算法研究者打造。

下载