Skip to content

xingbofeng/VoxFlow

Repository files navigation

随声写 logo 随声写 - Hold. Speak. Done.

随声写 · VoxFlow

按住快捷键,说完松开,文字回到你正在输入的地方。

一款原生 macOS 菜单栏语音输入工具,把想法、会议、代码说明和 AI 对话快速变成可编辑文本。

English

macOS 14+ Latest release License

🌐 官方网站  ·  ⬇️ 下载最新版  ·  🎬 介绍视频

随声写是什么

随声写是一个“语音键盘”,不是语音助手,也不是另一个让你切过去工作的窗口。

它常驻菜单栏,只在你需要输入时出现。把光标放在想输入的位置,按下快捷键开始说话,松开后文字会直接回到原来的应用里。写代码、和 AI Agent 对话、记会议想法、回复消息、整理长段说明,都可以少敲很多字。

它的目标很简单:

  • 输入更快:把“脑子里已经想好的话”直接说出来。
  • 打扰更少:不抢焦点,不弹大窗口,不破坏当前工作流。
  • 结果更稳:识别、纠错、词汇表、风格、历史记录和文本插入都围绕“把文字放到正确的位置”服务。
  • 数据可控:默认本机保存;本地 ASR、系统识别和可选 LLM 纠错可以按场景选择。

适合谁

随声写特别适合这些场景:

  • 经常和 ChatGPT、Claude、Codex、Cursor 或其他 AI 工具沟通,需要快速描述需求、上下文和修改意见。
  • 写代码时常要解释 bug、补充注释、写提交说明、记录排查过程。
  • 想快速记录灵感、会议要点、待办、长消息或文章草稿。
  • 中英文混说比较多,希望技术词、产品名和专有名词更稳定。
  • 喜欢 macOS 原生体验,希望工具安静、克制、常驻菜单栏。

核心体验

按住说话,松开输入

随声写默认使用快捷键触发听写。按住说话时,屏幕上会出现一个轻量的转写浮层;松开后,最终文字会自动输入到当前光标位置。

你不需要切换应用,也不需要手动复制粘贴。它就像键盘一样,服务于当前正在使用的 App。

实时转写

说话过程中可以看到实时文本。短句、长段说明、中文、英文和中英混合内容都会即时显示,方便你边说边确认方向。

随声写内置系统语音识别,也支持本地 ASR Provider。系统自带模型开箱可用;本地 Qwen3-ASR、Whisper、FunASR、SenseVoice 等路线正在逐步收敛到统一 Provider 架构,适合更重视离线能力、隐私和可控性的场景。模型页会明确标注流式能力;Whisper、SenseVoice、Groq Whisper 等暂不支持实时流式的 Provider 会显示“非流式”标签,录音完成后返回最终结果。

可选 LLM 纠错

语音识别在技术词上容易出错,例如把 Python、JSON、TypeScript 识别成谐音或拆开的词。随声写可以在听写完成后,用你配置的 OpenAI 兼容模型做一次保守纠错。

它不会替你润色或改写,只修明显听错的词。你仍然掌控原文语气和表达。

工作台

除了菜单栏快速输入,随声写也提供完整工作台:

页面 可以做什么
首页 查看使用统计、今日目标、历史记录,快速复制或删除转写
词汇表 管理常用词、专有名词和文本替换,让识别更贴合你的语境
风格 为不同应用或场景设置输出风格,比如原文、正式、邮件、编程说明
文件转写 导入音频或视频,排队转写,导出 txt、md、srt,或保存为笔记
笔记 直接录音记笔记,也可以编辑、搜索和回看记录
设置 管理输入设备、快捷键、模型、权限、隐私和数据
帮助 查看权限提示、版本信息、项目链接和常见入口

功能亮点

  • 全局听写:在任意可编辑输入框里使用,不局限于随声写自己的窗口。
  • 不抢焦点的浮层:听写时只显示轻量浮层,不打断当前应用。
  • 多 Provider ASR:系统语音识别开箱可用,本地 Qwen3-ASR、Whisper、FunASR、SenseVoice 等 Provider 逐步接入统一运行时;暂不支持实时流式的 Provider 会在模型页标注“非流式”。
  • 稳定文本插入:粘贴前临时切换输入源,完成后恢复输入源和剪贴板,减少 CJK 输入法干扰。
  • 输入设备选择:支持选择麦克风,长设备名会自动收纳,不挤爆界面。
  • 快捷键录制:在设置里直接录制想用的触发键,并配置短按行为。
  • OpenAI 兼容模型:可添加、测试、编辑和删除 Provider,API Key 保存到 macOS Keychain。
  • 词汇表和替换规则:把常用词、易错词、缩写和固定替换交给随声写记住。
  • 历史和笔记:转写不只是一闪而过,后续可以搜索、复制、整理和复用。
  • 文件转写:把录音、视频、会议音频转成文字,适合复盘和归档。
  • 数据可控:历史、词汇、设置和笔记保存在本机;是否启用 LLM 由你决定。

快速开始

下载安装

GitHub Releases 下载最新版本:

  1. 打开 VoxFlow-1.2.0-macOS.dmg
  2. VoxFlow 拖入 Applications 文件夹
  3. 首次启动时,如果 macOS 提示无法验证,请按住 Control 点击应用,选择“打开”

系统要求

  • macOS 14 Sonoma 或更高版本
  • 一台带麦克风的 Mac

首次授权

随声写需要几个系统权限才能正常工作:

权限 用途 位置
辅助功能 监听全局快捷键,并把文字输入到当前应用 系统设置 -> 隐私与安全性 -> 辅助功能
麦克风 录制你的声音 系统设置 -> 隐私与安全性 -> 麦克风
语音识别 使用系统自带语音识别模型 系统设置 -> 隐私与安全性 -> 语音识别
屏幕录制 为“帮我说”读取当前窗口 OCR,上下文截图不落盘 系统设置 -> 隐私与安全性 -> 屏幕录制

如果你选择本地 Qwen3-ASR 模型,语音识别权限不是必须的;麦克风权限仍然需要。

授权后如果快捷键没有响应,退出随声写后重新打开即可。

怎么使用

语音输入

  1. 把光标放到任意输入框。
  2. 按住听写快捷键。
  3. 开始说话,浮层会实时显示识别结果。
  4. 松开快捷键,文字会自动输入到光标所在位置。

录音记笔记

打开工作台里的“笔记”,点击录音按钮即可开始记录。说话过程中会实时转写,完成后可以继续编辑,也可以在最近记录中回看。

文件转写

打开“文件转写”,选择音频或视频文件。随声写会显示任务进度,完成后可以复制、导出,或保存为笔记。

让专有名词更准

在“词汇表”里添加项目名、人名、产品名、技术词或固定替换规则。它们会参与后续转写和纠错流程,减少重复修改。

配置 LLM 纠错

打开“设置 -> 模型”,添加 OpenAI 兼容 Provider,填写 Base URL、Model 和 API Key。测试通过后,打开“启用 LLM 纠错”即可。

API Key 会保存在 macOS Keychain,不会写入普通配置文件。

隐私说明

随声写的默认原则是:能留在本机的,就留在本机。

  • 历史记录、词汇表、笔记、任务和非敏感设置保存在本机。
  • API Key 保存到 macOS Keychain。
  • 系统自带语音识别可能由 Apple 处理音频,取决于系统能力和语言。
  • 本地 Qwen3-ASR 模型下载后在本机运行。
  • LLM 纠错默认关闭;开启后,只会把识别出的文本发到你配置的 API 服务。
  • 随声写不会主动上传你的音频、笔记、历史记录或剪贴板内容。

更完整的说明见 隐私说明

常见问题

问题 处理方式
按快捷键没反应 检查辅助功能权限,退出后重新打开随声写
浮层出现但没有文字 检查麦克风权限、语音识别权限或当前模型状态
LLM 纠错没有生效 确认已在设置中启用,并且默认 Provider 测试成功
API Key 看不到明文 这是正常的,编辑时可点击显示按钮临时查看
想离线使用 下载并选择 Qwen3-ASR 本地模型
误删了历史或笔记 当前删除是本地操作,请谨慎确认后再删除

从源码运行

如果你想自己构建:

git clone https://github.com/xingbofeng/VoxFlow.git
cd VoxFlow
make run-dev

常用命令:

make run-dev      # 日常开发:Debug + 本机架构,打包并启动 .app
make run-native   # 本机架构 Release,用于接近发布表现的本地验证
make build        # Universal Release:arm64 + x86_64,发布/DMG 使用
make install      # 安装到 /Applications
swift test        # 运行测试

灵感来源

本项目灵感来源于 yetone/voice-input-src,感谢他们的开创性工作。

About

按住右 Command 说话,松手即输入。macOS 原生菜单栏语音输入法。

Topics

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages