科大讯飞语音识别与深度学习

科大讯飞语音识别与深度学习

发布时间：2024-05-14

作为机器学习领域70%左右的用户都在选择的算法，展现出了强大的准确

常见的神经网络主要分为dnn，cnn，rnn三种，深度神经网络，卷积神经网络，循环神经网络。Dnn是基础，几乎哪个网络都有它的影子，卷积和循环是方法，各擅长不同领域。

Dnn，每一个神经把上一层所有的神经输出当作输入，乘以权重加上偏差再带入函数之后得到自己的输出。此外为提高模型效率，我们可以采用L2正则，归一化，drop out，动量梯度等算法。

科大讯飞接口咨询

Cnn，常见卷积层和池化层，卷积层使用正方形矩阵作为权重对上一层输出每个正方形切片进行加权加偏差加激活函数，形成下一层输出。权重矩阵数等于输出通道数。

池化层常见平均和取最大值两种，对相邻几个元素进行求平均或取最大值来减小维数

Rnn，前一个数据在dnn隐藏层的输出值和下一个数据共同作为输入值输入神经网络进行运算，所以每一次输出不仅和自身属性有关，也和之前元素有关，所以称之为序列模型，擅长nlp领域。

传统的神经网络比如dnn和cnn适用于处理单一数据，比如一张图片或者某个球员的能力值。但是当研究的内容涉及到一组数据时，比如一句话的识别，如果还用之前那些模型的话一是会有输入长度不等的麻烦，二是大量重复的运算会增加内存和计算复杂度，所以并不擅长。所以这个时候序列模型出现了。

在传统的dnn基础上，rnn的输入值除了此阶段数据之外还有上一时间段的数据信息。如果是两层网络的话，上一时段隐藏层输出和本阶段数据合并在一起成为模型的输入，乘以权重矩阵加上偏差再激活。

这种模型的产生让深度学习开始步入自然语言处理领域，但和人类比，它还是有缺陷的，一是因为人会跳跃阅读，而是因为人有记忆和遗忘的能力。

针对一，出现了brnn，双向传播循环神经网络。原理是输入句子，每一个单词识别一遍之后，隐藏层的输出再从后往前输入回来，重新运算，再输出。这样就可以很好的解决如判断Teddy bear中的Teddy是人命还是别的含义的情况。

针对二，出现了LSTM算法，长短记忆模型。它每次运算的输入值不仅是上一个词的信息和本阶段词语，还有一个储存的信息。此储存的信息的更新于否取决于遗忘门和更新门，两个门的值取决于各自权重矩阵，偏差和模型输入值。之后输出门的值乘以记忆细胞的数据sigmoid激活得到输出值。

输出值的个数是所有可能的数量，每个值对应的是这种可能的概率，所用的激活函数通常是softmax，这样就可以把各种可能的差距加大，之后再评概率随机采样，就可以得到识别结果。

sigmoid是各个门常用的激活函数。

现在的语音识别通常采用混合模型，比如kalid的gmm-hmm模型，常用的dnn-hmm，cnn-hmm，rnn-hmm模型，还有百度的deep speech模型。

deep speech是cnn加上lstm，首先从原始的wav文件中提取出一段一段时间的测量值，比如采样率是44100的wav的一秒就可以提取出长度为44100的声学特征向量。这样一秒一秒叠加起来就是输入序列。

之后将数据通过cnn卷积成初步数据，再输入lstm进行转路。

双向LSTM对一个个序列进行识别输出一个个句子。

卷积可以减少运算难度，长短记忆可以让前后文有关联，所以百度的语音识别达到了98.6%。

如今，如果我们向自己进行语音识别的话，有很多选择，可以直接调用大公司语音识别模型的api，或是自己训练模型。当然也有很多已经训练好的模型，可以在各大网站下载。当然也可以自己设计模型，之后去下载训练集或是干脆自己录音自己听力。

调用科大讯飞语音识别web api的python方式。

展开全文

其他新闻