基于深度学习的中文语音识别系统 A Deep-Learning-Based Chinese Speech Recognition System

基于深度学习的中文语音识别系统，如果您觉得喜欢，请点一个 "Star" 吧~

ReadMe Language | 中文版 |

Introduction 简介

本项目使用Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。

This Project uses Keras, TensorFlow based on deep convolutional neural network and long-short memory neural network, attention mechanism and CTC to implement.

操作步骤

首先通过Git将本项目克隆到您的计算机上，然后下载本项目训练所需要的数据集，下载链接详见文档末尾部分。

$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git

或者您也可以通过 "Fork" 按钮，将本项目Copy一份副本，然后通过您自己的SSH密钥克隆到本地。

通过git克隆仓库以后，进入项目根目录；并创建子目录 dataset/ (可使用软链接代替)，然后将下载好的数据集直接解压进去

注意，当前版本中，Thchs30和ST-CMDS两个数据集都必须下载使用，缺一不可，并且使用其他数据集需要修改代码。

$ cd ASRT_SpeechRecognition

$ mkdir dataset

$ tar zxf <数据集压缩文件名> -C dataset/

然后需要将datalist目录下的文件全部拷贝到 dataset/ 目录下，也就是将其跟数据集放在一起。

$ cp -rf datalist/* dataset/

目前可用的模型有24、25和251

运行本项目之前，请安装必要的Python3版依赖库

本项目开始训练请执行：

$ python3 train_mspeech.py

本项目开始测试请执行：

$ python3 test_mspeech.py

测试之前，请确保代码中填写的模型文件路径存在。

ASRT API服务器启动请执行：

$ python3 asrserver.py

请注意，开启API服务器之后，需要使用本ASRT项目对应的客户端软件来进行语音识别，详见Wiki文档ASRT客户端Demo。

如果要训练和使用模型251，请在代码中 import SpeechModel 的相应位置做修改。

Model 模型

Speech Model 语音模型

CNN + LSTM/GRU + CTC

其中，输入的音频的最大时间长度为16秒，输出为对应的汉语拼音序列

关于下载已经训练好的模型的问题

可以在Github本仓库下releases里面的查看发布的各个版本软件的压缩包里获得包含已经训练好模型参数的完整源程序。

Language Model 语言模型

基于概率图的最大熵隐马尔可夫模型

输入为汉语拼音序列，输出为对应的汉字文本

About Accuracy 关于准确率

当前，最好的模型在测试集上基本能达到80%的汉语拼音正确率

不过由于目前国际和国内的部分团队能做到98%，所以正确率仍有待于进一步提高

特别鸣谢！感谢前辈们的公开语音数据集

如果提供的数据集链接无法打开和下载，请点击该链接 OpenSLR

https://gitee.com/ailemon/ASRT_SpeechRecognition

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

基于深度学习的中文语音识别系统 A Deep-Learning-Based Chinese Speech Recognition System

Introduction 简介

Model 模型

Speech Model 语音模型

Language Model 语言模型

About Accuracy 关于准确率

https://gitee.com/ailemon/ASRT_SpeechRecognition

最新文章

萧风【9月13日更新】Win11_25H2_26220.6682_IoT Enterprise LTSC 极度精简1.55G

萧风20250915更新：Windows Server 2025_26100.6584_Datacenter 极度精简1.45G

[2025.9.15]Win11.25H2深度精简优化版LTSC26220.6682 PIIS出品

俄罗斯大神新年献礼之win7，附种子，现在有源需要下

自己生成win11 25H2 26200.6584 最新版镜像利用uupdump网站自己动手生成最新版win10 win11镜像

[Windows] 抖音去水印下载工具（本地版）v1.0.9

随便看看

美国大带宽服务器：raksmart洛杉矶10G\20G\40Gbps带宽不限流量，$399/月起

raksmart美国洛杉矶1Gbps带宽不限流量服务器低至$89/月且有多种线路可选！

my.frantech.ca（buyvm）的Promotion/优惠码是什么？enter promo code if you have one【promo code 促销码哪里找？】

#BuyVM教程# buyvm主机如何购买BLOCK STORAGE SLABS? 如何使用“Block Storage”云存储盘/块挂载教程全命令行（1美元256GB空间!）

速度入手抢位 #BuyVM优惠码卢森堡机房已升级:VPS给10Gbps带宽,免费升级不限流量，AMD Ryzen 9 5950X

基于深度学习的中文语音识别系统 A Deep-Learning-Based Chinese Speech Recognition System

Introduction 简介

Model 模型

Speech Model 语音模型

Language Model 语言模型

About Accuracy 关于准确率

https://gitee.com/ailemon/ASRT_SpeechRecognition

相关文章

最新文章

随便看看

标签