热门排行
简介
Whisper本地语音转文字工具是一款本地的语音转文字的工具,能够辅助个人用户通过模型的方式来完成本地的语音对文字上面的转换,你需要导入模型进行识别之后才能够进行转换,完全本地化的运行,无需网络就能够使用,快来下载这款Whisper本地语音转文字工具!
这个项目是whisper.cpp实现的一个Windows移植。
它又是OpenAI的Whisper自动语音识别(ASR)模型的C++移植。
软件特点
基于DirectCompute的供应商无关的GPGPU;该技术的另一个名称是 "Direct3D 11的计算着色器"
纯粹的C++实现,除了基本的操作系统组件,没有运行时的依赖性
比OpenAI的实现快得多。
在我的台式电脑上,使用GeForce 1080Ti GPU,中等型号,3:24分钟的演讲用PyTorch和CUDA抄写需要45秒,但用我的实现和DirectCompute只需要19秒。
有趣的是:这相当于9.63GB的运行时依赖,而Whisper.dll只有431KB。
混合F16/F32精度。Windows要求从D3D 10.0版本开始支持R16_FLOAT缓冲区。
内置性能分析器,可测量单个计算着色器的执行时间
低内存使用率
用于音频处理的媒体基金会,支持大多数音频和视频格式(Ogg Vorbis是个明显的例外),以及在Windows上工作的大多数音频捕获设备(除了一些专业的设备,它们只实现ASIO API)。
语音活动检测用于音频捕获。
该实现基于Mohammad Moattar和Mahdi Homayoonpoor在2009年发表的文章《一种简单而有效的实时语音活动检测算法》。
易于使用COM风格的API,nuget上有成语的C#包装器
预建的二进制文件可用