博舍

【Buzz】离线语音转文字、实时语音识别 语音识别转文字开发怎么做

【Buzz】离线语音转文字、实时语音识别

Buzz是基于OpenAIWhisper的离线语音转文字(字幕),实时语音识别工具。

功能实时语音转文字、实时翻译(需麦克风权限)导入音频、视频文件(mp3、wav、m4a、ogg、mp4、webm、ogm),导出逐句字幕或逐词字幕(导出格式:TXT、SRT、VTT)

相较于Autocut功能更单一,专注于语音转文字、字幕生成。相较于命令行Python版Whisper速度更快,有GUI对普通用户更友好。

由于支持离线,所以…尺寸是一个很大的问题:

Buzz-0.5.8-mac.dmg330MBBuzz-0.5.8-unix.tar.gz1.5GBBuzz-0.5.8-windows.tar.gz261MBBuzz.exe161MBWhisper是什么?

Whisper是一种通用语音识别模型。它利用各种大型数据集上的音频进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

在第一次使用Buzz的时候,会下载Whisper的模型,根据不同的质量要求,模型尺寸也非常可观:

质量尺寸English-onlymodelMultilingualmodel必需的显存行对速度tiny39Mtiny.entiny~1GB~32xbase74Mbase.enbase~1GB~16xsmall244Msmall.ensmall~2GB~6xmedium769Mmedium.enmedium~5GB~2xlarge1550MN/Alarge~10GB1x

Whisper模型存储在电脑中:

~/.cache/whisper~/Library/Caches/Buzz(macOS)~/.cache/Buzz(Linux)C:Users\AppDataLocalBuzzBuzzCache(Windows)

当卸载的时候,别忘记把模型也删掉。

Buzz也相当于是一个Whisper的可视化界面版本。

Buzz界面

Buzz提供了两个任务:

Translate翻译Transcribe转录

如果想要从文件转录,需要单击“文件”菜单上的“导入”(或在Mac上单击command+O,在Windows上单击按Ctrl+O)

支持的格式:“mp3”,“wav”,“m4a”,“ogg”,“mp4”,“webm”,“ogm”

导出的格式:“TXT”、“SRT”、“VTT”

转换过程根据电脑性能有快有慢,最终会直接给出文件,效果还是非常不错的。对中文的识别也很好。

获取

https://github.com/chidiwilliams/buzz

来源:https://www.appinn.com/buzz-openai-whisper/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇