不会用“专业词库”的语音输入法工具，都是在制造大量的修改成本

之前的文章介绍过：这3款免费工具语音工具，帮你少走一半弯路。

我是大圆，欢迎来到「==AI 内容提效工具箱==」系列，本期要介绍的是一款 AI 语音输入法的小工具。

因为现在有非常多的开源模型出来，所以相应的工具也增多了。

比如最近看到的这款叫 “代体” 的工具，还是非常不错，可以推荐给大家。

[!note] 结论
和豆包相比，“代体” 的产品力可能不及，但最大的核心优势就是所有数据在本地，特别适合那些有隐私需求的企业用户。

官网链接： https://daiti.ai

开源语音模型

这款工具使用的是阿里的 SenseVoiceSmall 开源模型。

之前我们做视频自动化生产时，使用的是 Whisper 这一款 OpenAI 的模型。但它对于中文的支持，并不是非常好，并且模型的体积也更大。

现在这款阿里推出的国产开源模型 SenseVoiceSmall，在中文和粤语处理方面的能力要强上很多。

这种小型的语音理解模型和我们平时理解的 AI 模型不同，一般的 AI 模型至少要 30 系以上的显卡才能够带动。

这种文本转语音的模型并不需要较好的显卡就能运行，普通的办公电脑都可以直接使用。

工具使用

在之前介绍的这款 CapsWriter Offline，和代体的功能基本一致，都是使用本地开源模型进行语音识别。

但 CapsWriter Offline 是个人开发者打造的，使用命令行窗口展示，没有做成普通用户方便使用的界面；代体则成熟度比较高，是由一个小创业团队完成的。

每一次的录音及转录生成的文本都会记录下来，如果后期增加导出功能，可能会更实用。

另外，它可以让我们自主选择不同的在线模型，对语音输入的文本进行二次识别，并使用自己的提示词和词库。

尤其是在输入比较专业的内容、涉及行业名词时，正常的语音输入往往难以准确识别。

此时，我们可以借助AI大模型和行业常用的行业词库，让AI进行深度语义理解，最终返回正确的表达。

这里使用了一个比较简单的文本纠正的提示词，你也可以在任务中增加自己的要求。

你是一个语音转写文本纠正助手。

你的任务：
- 修正语音识别文本中的识别错误、同音字错误、错别字和标点问题；
- 保持原意，不增删信息；
- 当识别结果中出现与用户词典中词汇发音相似、拼写接近或语义相关的词时， 必须将其替换为词典中的标准形式；
- 若识别结果中已正确包含词典词汇，请保持原样；
- 不要更改词典中词汇的拼写、大小写或符号。
- 去除说话中的嗯、啊这些口水词。
- 我是做 AI 应用工程师，你需要注意检查专业词汇，不要将“AI” 识别成了“AR”等。
- 当我提到 “前面说错了请删除”、“这里说错了，请删除” 类似意思时，请综合考虑应该以后面所说为准。

输出：
调用一次名为 return_correction 的函数，参数：
status: "ok" 或 "filtered"
text: 纠正后的文本或原文
reason: 可选（若触发内容安全限制，说明原因）

在词典中，我们可以设置行业所需要的一些专有名词。这时如果语音转文本不准确，让AI读取词典后，将正确的文本输出出来。

这份词典我们也不需要自己去进行一个一个的添加。可以将我们的行业和内容发送给AI，让AI给我们整理出一份词库。

后期如果有要单独设置的，我们再去偶尔添加。

当这份词库完善之后，后期我们录音转文本时，就会大大的提高专有名词的识别正确率。

比如我们这里使用 DeepSeek，让他给我们整理了一份初三化学老师的相关术语词库。

我是一个初三年级的化学老师，我需要一份初三化学相关的专业术语，让AI在理解时自动纠错我的专业术语的表达，请帮我生成一份专业名词列表不需要加序号，每个名词换行。

更新与互动

如果你是语音输入的重度用户，可以添加主页上他们的官方交流。开发者每周都会有一两个版本的更新，大量地采用大家提的建议。

比如马上会在新版本中间加上长文本输入、快捷键自定义和本地模型优化等等功能。

豆包的输入法已经开始内测了。

在 AI 语音输入法这个赛道肯定会有很多大厂杀进来，但有很多需要隐私性的行业，还是需要这种本地模型工具的。

就现在的代体，我觉得最好用的就是速度反应极快，巴拉巴拉的说完之后松开按键，文字马上展示出来了，不用任何等待。

所以我经常会关闭掉AI的润色修改，直接输出。

结束

我是大圆，专注 AI 内容提效 的实操经验与工具分享。

加微信 dayuanlog 回复“知识库”，送你一份我正在更新的 AI 内容自动化知识库。

前SEO站长
RPA高级工程师
自动化流程产品经理

我能为你提供：
① 团队RPA提效流程设计
② 新媒体 AI自动化落地
③ 视频自动剪辑 AI工具