专利名称:语音识别模型分词训练方法、系统、移动终端及存
储介质
专利类型:发明专利
发明人:徐敏,李稀敏,肖龙源,蔡振华,刘晓葳,王静申请号:CN201910878880.5申请日:20190918公开号:CN110853625A公开日:20200228
摘要:本发明适用于语音识别技术领域,提供了一种语音识别模型分词训练方法、系统、移动终端及存储介质,该方法包括:收集本地存储的文本语料,设置组词总数,计算每个当前文字与下一文字之间的组合频数;当判断到组合频数大于第一频数阈值时,将当前文字与下一文字进行组词并标记为一个整体,直至最长组合频数小于等于第二频数阈值,停止组词,以得到组词词典;将组词词典与原始词典进行合并,并根据合并后的词典对文本语料进行分词,以得到分词语料;根据分词语料对语音识别模型进行训练。本发明通过构造组词词典对原始词典进行扩充,使得不需要额外收集用于子串标注学习的训练语料,也不需要事先进行人工分词或者采用其他分词算法进行分词。
申请人:厦门快商通科技股份有限公司
地址:361009 福建省厦门市软件园三期诚毅北大街63号1301单元
国籍:CN
代理机构:厦门仕诚联合知识产权代理事务所(普通合伙)
代理人:乐珠秀
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- zrrp.cn 版权所有 赣ICP备2024042808号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务