不会用“专业词库”的语音输入法工具,都是在制造大量的修改成本
之前的文章介绍过:这3款免费工具语音工具,帮你少走一半弯路。
我是大圆,欢迎来到「==AI 内容提效工具箱==」系列,本期要介绍的是一款 AI 语音输入法的小工具。
因为现在有非常多的开源模型出来,所以相应的工具也增多了。
比如最近看到的这款叫 “代体” 的工具,还是非常不错,可以推荐给大家。
[!note] 结论
和豆包相比,“代体” 的产品力可能不及,但最大的核心优势就是所有数据在本地,特别适合那些有隐私需求的企业用户。
官网链接: https://daiti.ai


开源语音模型
这款工具使用的是阿里的 SenseVoiceSmall 开源模型。
之前我们做视频自动化生产时,使用的是 Whisper 这一款 OpenAI 的模型。但它对于中文的支持,并不是非常好,并且模型的体积也更大。
现在这款阿里推出的国产开源模型 SenseVoiceSmall,在中文和粤语处理方面的能力要强上很多。

这种小型的语音理解模型和我们平时理解的 AI 模型不同,一般的 AI 模型至少要 30 系以上的显卡才能够带动。
这种文本转语音的模型并不需要较好的显卡就能运行,普通的办公电脑都可以直接使用。

工具使用
在之前介绍的这款 CapsWriter Offline,和代体的功能基本一致,都是使用本地开源模型进行语音识别。
但 CapsWriter Offline 是个人开发者打造的,使用命令行窗口展示,没有做成普通用户方便使用的界面;代体则成熟度比较高,是由一个小创业团队完成的。
每一次的录音及转录生成的文本都会记录下来,如果后期增加导出功能,可能会更实用。

另外,它可以让我们自主选择不同的在线模型,对语音输入的文本进行二次识别,并使用自己的提示词和词库。
尤其是在输入比较专业的内容、涉及行业名词时,正常的语音输入往往难以准确识别。
此时,我们可以借助AI大模型和行业常用的行业词库,让AI进行深度语义理解,最终返回正确的表达。

这里使用了一个比较简单的文本纠正的提示词,你也可以在任务中增加自己的要求。
你是一个语音转写文本纠正助手。
你的任务:
- 修正语音识别文本中的识别错误、同音字错误、错别字和标点问题;
- 保持原意,不增删信息;
- 当识别结果中出现与用户词典中词汇发音相似、拼写接近或语义相关的词时, 必须将其替换为词典中的标准形式;
- 若识别结果中已正确包含词典词汇,请保持原样;
- 不要更改词典中词汇的拼写、大小写或符号。
- 去除说话中的嗯、啊这些口水词。
- 我是做 AI 应用工程师,你需要注意检查专业词汇,不要将“AI” 识别成了“AR”等。
- 当我提到 “前面说错了请删除”、“这里说错了,请删除” 类似意思时,请综合考虑应该以后面所说为准。
输出:
调用一次名为 return_correction 的函数,参数:
status: "ok" 或 "filtered"
text: 纠正后的文本或原文
reason: 可选(若触发内容安全限制,说明原因)
在词典中,我们可以设置行业所需要的一些专有名词。这时如果语音转文本不准确,让AI读取词典后,将正确的文本输出出来。

这份词典我们也不需要自己去进行一个一个的添加。可以将我们的行业和内容发送给AI,让AI给我们整理出一份词库。
后期如果有要单独设置的,我们再去偶尔添加。
当这份词库完善之后,后期我们录音转文本时,就会大大的提高专有名词的识别正确率。
比如我们这里使用 DeepSeek,让他给我们整理了一份初三化学老师的相关术语词库。
我是一个初三年级的化学老师,我需要一份初三化学相关的专业术语,让AI在理解时自动纠错我的专业术语的表达,请帮我生成一份专业名词列表不需要加序号,每个名词换行。


更新与互动
如果你是语音输入的重度用户,可以添加主页上他们的官方交流。开发者每周都会有一两个版本的更新,大量地采用大家提的建议。
比如马上会在新版本中间加上长文本输入、快捷键自定义和本地模型优化等等功能。
豆包的输入法已经开始内测了。
在 AI 语音输入法这个赛道肯定会有很多大厂杀进来,但有很多需要隐私性的行业,还是需要这种本地模型工具的。
就现在的代体,我觉得最好用的就是速度反应极快,巴拉巴拉的说完之后松开按键,文字马上展示出来了,不用任何等待。
所以我经常会关闭掉AI的润色修改,直接输出。

结束
我是大圆,专注 AI 内容提效 的实操经验与工具分享。
加微信 dayuanlog 回复“知识库”,送你一份我正在更新的 AI 内容自动化知识库。
前SEO站长
RPA高级工程师
自动化流程产品经理
我能为你提供:
① 团队RPA提效流程设计
② 新媒体 AI自动化落地
③ 视频自动剪辑 AI工具
