智能时代网

智能时代网 首页 生活指南 查看内容

如何用90秒录音克隆出你的声音?

2020-3-20 23:34| 发布者: editor| |原作者: 琥珀|来自: 雷锋网

摘要: 通过克隆,把自己心爱之人的声音永久珍藏……这可能就是科技应该有的温度吧。
原标题:让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?


       “通过克隆,把自己心爱之人的声音永久珍藏……这可能就是科技应该有的温度吧。”
      与小米的最近一次合作中,深声科技为其提供了声音克隆技术,应用在其最新发布的小爱同学定制声音功能上,能让米粉合成自己的、甚至是父母、儿女、恋人的声音,同时还支持音色分享功能。比如,明星将自己音色分享给粉丝后,就能通过声音实现明星和粉丝的“常相伴”。
      智能语音助手这个颇具想象力的AI应用,正逐渐成为智能终端的基础功能,包括智能手机、智能家居、车载、陪伴机器人等,其普及率有了较大提升,而声音克隆技术的应用,很可能会加速整个进程。
      说到声音克隆技术,并非深声科技所独有的,但与竞争对手相比,深声科技CEO周俊明表示:“声音克隆技术上,我们在音色还原度、发音准确率、音质清晰度等方面,具有明显的优势,手机语音助手是我们首个落地场景。” 

声音克隆面临哪些技术挑战?
      2020年1月中旬,深声科技声音克隆产品正式上线。在此期间,深声团队在众多竞争者中成功拿下了小米方的需求标的。作为与小米小爱同学的一次深度合作,深声科技将为之提供声音克隆核心技术支持。
      包括双方的需求对接、内部评估,再到交付,前后用了1个多月时间。
      与传统语音合成相比,声音克隆面临更大的技术挑战。首先,声音克隆需要C端用户配合录音,就不能对其录音环境和设备有过分要求。
      我们会建议用户选择一个尽可能安静的地方,使用手机完成录音过程。 
      其次,考虑用户的体验,需要尽可能缩短录音的时长。
      这就对我们有很高的要求,传统的语音合成需要几十分钟到几个小时的语音数据,相比之下,声音克隆的数据量少,对声学模型的训练有更高的要求,比如发音模糊、发错音、音素覆盖等一系列问题。当然,最重要的还是音色还原度的问题。
      现在,用户只需配合朗读20句话短文本,大约录音90秒的语音数据,就能快速克隆出自己的声音,将个人的情感表达、发音特点等信息迁移到合成声音中,就连口音也能很好地克隆出来。
      再次,在实际应用中,还要考虑海量用户发起声音克隆请求的高并发问题。为了节约成本,提升用户体验,就要解决模型切换、模型并发数,以及合成延迟等一系列挑战。
      海量用户对声音克隆的频繁调用时,模型间的切换逻辑非常重要。
      最后,因为采集到的用户数据会上传到服务器进行模型训练,考虑到用户隐私安全的保护,团队提供了私有化部署的方案,以确保用户数据不外泄。

是否迎来大规模商业化? 
      过去一段时间,百度、讯飞、搜狗等公司也曾推出声音克隆服务,但似乎并未赢得用户市场的关注。为什么深声科技此次声音克隆技术的上线,会在用户市场引起如此大的反响呢?
      周俊明表示,声音克隆大规模商业化需要具备几个条件:
      一是克隆的声音有较高的音色还原度,跟真人声音无差异;
      二是用户使用门槛不能太高,例如录音条件、发音标准等不能有太高要求;
      三是对计算资源的消耗,需要具备个人都能用得起的基础;
      四是具备创造出真正的价值,能够提升人们的生活品质。
      从这个角度来讲,深声科技与小米的合作开始,就已经具备了将声音克隆技术大规模商业化的能力。
      在谈到与普通语音合成的差异时,周俊明表示:
      普通语音合成,解决的是如何将语音内容很好地传递出去、更容易地被接收的问题。而声音克隆,体现了用户的社会属性,能够让用户通过声音来服务于他人。这就意味着,每个人的声音的价值能够得到充分体现,在包括亲子互动、情感陪伴、泛娱乐在内的各种场景中具有巨大的应用价值。
      
安全问题如何解决?
      将声音克隆引入智能语音助手,会不会引发更多语音诈骗案件的发生?
      目前可能普通存在这样的担忧:合成技术的水平发展越高,合成语音与人声的差异就越小,技术鉴定的难度就越大。对此,周俊明也指出,
      不必过度担心。问题在于人耳的敏感度不够高,才会对克隆声音没有发觉。但应用技术手段进行区分还是毫无压力的,克隆出来的声音在语谱图中跟真人的声音有明显区别,克隆声音中的很多特征信息已经丢失了。
      作为技术服务的输出方,深声科技也十分关注如何规避这项技术的非法应用,在推出之前就考虑了到法律伦理的问题,并给出了三点应对方案:
      一是将声音克隆能力只授权给那些有控制能力的企业客户,对于C端用户来讲,只有选择音色的权限,没有自定义克隆声音内容的权限;
      二是加强对内容安全的严格审核。不支持用户用随意一段语音进行克隆,要求用户对指定文本进行录音,从而降低声音被利用的风险;
      三是通过身份认证、结合生物识别等技术,以限制声音克隆的使用。

关于深声
      深声科技是一家专注于“智能语音”技术研发和业务落地的人工智能公司,于2018年在广州天河成立。深声科技拥有一支顶级的人工智能技术团队,自主研发了行业领先的语音合成、声音定制、声音克隆等语音AI技术。
      深声的语音AI技术已在众多场景中落地,包括语音助手、智能客服、有声阅读、车载语音、AI教育、动漫等。深声提供的“文字转语音”技术服务,支持的语言也从中文、英文,逐步扩展到了国内方言和海外语种。除了持续不断的技术突破,深声的语音数据制作效率也有了大幅度提升,比如三天交付客户专属定制声音, 两个月支持一门新语种。
      让声音服务好每个人的生活,深声致力于将语音AI技术融入人们生活的点滴之中,赋予企业和用户以创新与科技力量来创造更美好的世界。
      对深声科技智能语音技术感兴趣的读者,可前往深声科技的官网http://www.deepsound.cn/ 或微信小程序“深声AI”亲身体验。

本文转自雷锋网,如需转载请至雷锋网官网申请授权。 

路过

雷人

握手

鲜花

鸡蛋

最新评论

小黑屋|智能时代  精品传媒荣誉出品 ( 京ICP备19056894号-1

GMT+8, 2024-5-2 22:27 , Processed in 0.031204 second(s), 16 queries .

返回顶部