您的位置:首页 >钱币收藏 > 人民币 >

10分钟“复刻”专属音色,思必驰TTS技术如何练成的?

2022-02-08 06:18:35 来源:

  声音复刻又称声音克隆,是语音合成技术(TTS ,Text To Speech)的个性化应用,用户可通过少量的录音进行模型训练,得到与用户本人在音色和发音风格上非常相似的声音模型,快速复刻个性化声音,该复刻声音可使用在讲故事、播天气、读小说、导航播报等功能场景。

  TTS(Text-To-Speech,语音合成)对比熟悉的ASR(语音识别)技术,是将文字转化为声音朗读出来,常见的Siri、小爱同学等语音助手的声音,都是TTS技术的杰作。

  近日,思必驰DUI开放平台上线声音复刻技术服务,支持男声、女声、童声的复刻,支持中、英文文本,支持UTF-8等多种文本格式,支持SSML标签控制。同时,该服务支持8k、16k、32k等多种采样率,支持合成mp3、wav、pcm等多种音频格式……

  快速定制 专属音色

  如果想用爱豆或亲人的声音做终端设备的语音播报,用户只需要录制≤5分钟语音内容,等待10分钟左右即可获得专属音色。

  思必驰语音合成技术是如何通过少量的数据,训练出一个高还原度的声音模型呢?

  思必驰TTS技术,基于多年累积的多说话人的声学特征,将新数据输入既有的模型参数里进行迁移学习和精调,通过20句录音等少量语料,就可训练出高相似度的声音模型。模型通过短时间训练完成克隆,保持了较高的MOS值(中文普通话场景下,相似度≥90%),还原度高。TTS技术上线DUI开放平台后,使用更便捷,提供API、SDK接入方式,满足标准化的服务要求。

  技术的升级是渐进的,思必驰充分利用基于Attention的机制,及迁移学习技术,提升了声音复刻的效果,改善用户体验。受限于较少的数据量,如何保证稳定输出是训练模型时要面对的挑战。但在未来,少样本音色克隆仍是研究趋势。

  复刻的声音 还安全吗?

  以智能语音技术的另一项黑科技——声纹识别来作为参照。人的声纹是类比指纹一样独一无二的存在,常被用作身份验证和解锁。常见的支付宝、微信的声音锁背后都是声纹技术。

  克隆的声音可以 瞒过声纹唤醒吗?是否会有安全隐患?

  常规声纹解锁,使用复刻的声音确实能解锁设备。但当思必驰在声纹技术中增加了反欺诈技术后,声音复刻便无法闯关带有防欺诈的声纹,安全性得到保障。

  克隆专属声音,不仅是新鲜感、娱乐性,更是AI技术拓展应用惠及到了普通大众,能克隆出妈妈声音的音箱带给了孩子更多陪伴。

相关阅读
热门新闻
徐永才--人民币雕刻大师

徐永才--人民币雕刻大师

人物名片 徐永才 正高级工艺美术师 钞券雕刻师第四套人民币壹元券正面头像雕刻者 第四套人民币贰元券正面头像雕刻者第五套人民币壹佰元正

2019-07-11 09:58
钞券雕刻师花瑞松讲述雕刻背后的故事

钞券雕刻师花瑞松讲述雕刻背后的故事

人物名片 花瑞松 上海印钞有限公司高级工艺美术师 钞券雕刻师第四套人民币一元券背面主景图案雕刻者第五套人民币壹佰元券背面主景图案雕刻

2019-07-11 10:03
民国纸币上的重庆风景

民国纸币上的重庆风景

  重庆简称巴、渝,别称巴渝、山城、渝都、桥都、雾都。因所处嘉陵江古称渝水,故其简称渝。北宋崇宁元年(1102),改渝州为恭州。南宋淳熙

2019-07-11 10:06
新版人民币即将发行 怎样收藏最好呢

新版人民币即将发行 怎样收藏最好呢

  中国人民银行定于2019年8月30日起发行2019年版第五套人民币50元、20元、10元、1元纸币和1元、5角、1角硬币。  新版人民币发行的时期,往

2019-07-16 12:37
99版成龙头品种   第六套人民币将不再发行

99版成龙头品种 第六套人民币将不再发行

前段时间,19版人民币的发行公告在市场中吵得沸沸扬扬!突如其来的人民币改版既在意料之中,又挺让人意外。意料之中的是纸币改版早有传言,

2019-07-16 12:39
关于新版人民币疑问解答在这里

关于新版人民币疑问解答在这里

  前几天,新版人民币又双叒叕上微博热搜了!幸好,从8月30日起,万众期待的新版人民币就要来了!新版人民币包含50元、20元、10元、1元纸币

2019-07-18 13:19