对于全世界数百万人来说,言语障碍是生活中的事实。美国大约有750万人难以发出单词和短语,涉及音高,响度和质量的紊乱影响了一年级儿童的5%。

  这对可访问性工程师开发AI驱动的语音识别和文本到语音合成产品提出了挑战,这些产品必须适应一系列有限数据集可用的损伤。幸运的是,谷歌的科学家正在研究如何最大限度地减少语音模型中的单词替换,删除和插入错误,作为Parrotron的一部分,这是一项旨在帮助那些非典型语言的人更好地理解的研究计划。

人工智能工具

  研究科学家Fadi Biadsy和软件工程师Ron Weiss写道:“在当今的技术环境中,有限的语音接口访问,例如依赖于直接理解一个人的语音的数字助理,意味着被排除在最先进的工具和经验之外。”在博客文章中。“Parrotron使非典型语音用户能够更容易地与其他人和语音界面进行交流和理解,其端到端语音转换方法更有可能重现用户的预期语音。”

  这是一个原始的演讲样本:

  音频播放器00:0000:00使用向上/向下箭头键增大或减小音量。

  这是Parrotron的输出:

  音频播放器00:0000:00使用向上/向下箭头键增大或减小音量。

  Parrotron利用端到端的人工智能系统,该系统经过培训,能够将有障碍的人的语音直接转换为“流畅的”合成语音,有效地跳过文本生成。它仅考虑语音信号而不是视觉提示,例如嘴唇运动,并且使用平行的输入/输出语音对语料库进行两阶段训练。

  一般的语音 – 语音转换模型首先从大数据集馈送样本,然后暴露于语料库,该语料库将其变量调整为来自目标人的非典型语音模式。通常,建立这种高质量的模型需要演讲者记录数小时的训练数据,但研究人员设法从现有的文本到语音系统中提取数据,使他们能够利用先前存在的转录语音识别语料库。

  第一阶段利用了大约30,000小时的数据集,其中包括数百万个话语对,每个话语对包括来自Google的Parallel WaveNet文本到语音转换系统的自然话语和相应的合成话语。研究人员指出,语料库包括来自“数千”发言者的片段,其中包含数百种方言,口音和声学条件,这使得一系列语言和非语言内容,口音和噪音条件的建模成为可能,具有“典型”用同一种语言讲话。

  完全训练的转换模型为第二个训练阶段提供种子,该阶段涉及一个单独的话语对数据集,可选择由目标发言者提供,但也可以从Google正在进行的项目Euphonia等来源获得。第二个语料库用于使网络适应独特的声学/语音,语音和语言模式,包括说话者如何改变,替换或删除某些元音或辅音。

  该团队报告说,使用多任务目标训练系统- 即,预测目标音素,同时生成目标语音的频谱图(声音信号频率随时间的视觉表示),从而显着提高质量。他们与ALS的一组发言人以及谷歌的聋人研究科学家和数学家Dimitri Kanevsky一起验证了他们的方法,他们录制了15个小时的个人语料库。在Kanevsky的案例中,Parrotron的输出将谷歌自动语音识别的单词错误率从89%降低到32%。至于ALS发言人,人类志愿者几乎在所有病例中都报告了可懂度方面的改善。

  “鉴于Parrotron的端到端语音转语音训练目标函数,即使出现错误,生成的输出语音也可能在声学上与输入语音相似,因此说话者的初衷不太可能Biadsy和Weiss写道,他们可能会有很大的改变,而且通常仍然可以理解其意图。“此外,由于Parrotron并没有强烈偏向于从预定义的词汇集中产生单词,因此对模型的输入可能包含全新发明的单词,外来单词/名称,甚至是无意义的单词。”

  该团队将未来的工作从独立调整的AI模型组合转变为单一模型,他们期望这将带来“显着”的性能改进,并大大简化Parrotron的架构。他们目前正在招募志愿者来记录短语 – 有兴趣的人可以在这里报名参与。

  Parrotron的曝光是在谷歌在其I / O 2019开发者大会上推出三项独立的可访问性工作之后发布的:前面提到的Project Euphonia,旨在帮助有语言障碍的人; 直播中继,旨在帮助聋人用户; 和Project Diva,通过Google智能助理为人们提供一些独立性和自主权。当时,Mountain View公司指出了世界卫生组织的一些指标,以支持其努力:超过10亿人,或15%的人口,患有某种残疾。

发表评论

您的电子邮箱地址不会被公开。