巨奢网 首页 名表图片鉴赏 理查德米勒 查看内容

机器学习技术进步了唇语读取的精度

2023-1-7 14:00| 发布者: 夏梦飞雨| 查看: 167| 评论: 0

摘要: 对于人类的唇语读取者来说,由于剥夺了他们音频线索的全部细节,所以语境是破译话语的关键所在。但是,在英国东安格利亚大学开发的唇语阅读技术模型,曾经被证明能够以比人类破译者更高的精确度来解读唇语,主要是由 ...

机器学习技术进步了唇语读取的精度


于人类的唇语读取者来说,由于剥夺了他们音频线索的全部细节,所以语境是破译话语的关键所在。但是,在英国东安格利亚大学开发的唇语阅读技术模型,曾经被证明能够以比人类破译者更高的精确度来解读唇语,主要是由于机器学习技术的应用,能够对声音的可视化方面中止分类。并且更重要的是,这个算法不需求知道你正在讨论的内容是什么,就能够辨认你正在运用的词语。


固然这个模型往常依旧处于研讨阶段,但是这项技术曾经有许多潜在的应用了,能够自动将视觉信号转换为精确的语音,无论是辅佐那些有音频障碍的人,还是应用附加的语音数据来进步音频视频的保险性,或者以至是试图弄分明在一场猛烈的竞赛中,一个足球运发起在和另一个球员争持什么......


这种技术也能够被用于作为一个移动或视频呼叫上,质量比较差的音频反响。或者是自动字幕。以至可能是以一个前置摄像头为基础的移动语音助手,你可能并不需求真的说话,而是用严谨地唇语命令(那将会是多么的酷啊?)。激进的说,只需数据库成熟了,这些等候着的一系列将会完成。因而,只需研讨人员能够提供这个模型,它未来的潜力是十分庞大的。


在这个针对唇语阅读新的机器学习锻炼模型的背地是UAE团队不时在努力,不时在努力察看视觉输入,因而锻炼他们的模型在嘴型的辨认上,直到在没有任何音频输入提示的状况下,能够说出精确的话语。


“我们正在看……视觉线索,以及它们所说的话是如何变更的?我们知道关于不同的人,它们应该是要有变更的。它们是如何变更的?有什么区别呢?我们能够应用这部分的学问,对我们的模型中止特别的锻炼吗?”Helen Bear(海伦)博士说,他发明了这个视觉语音辨认技术模型,作为她博士研讨的一部分,并且在东安格利亚大学计算机科学院Richard Harvey(理查德哈维)教授的指导下。


“一台机器能够读取唇语背地的想法,能够说是,机器自身是没有任何心情的,即便它做错或者做对了,它自己是不会介意的,它仅仅只是尝试去学习。所以,在我的论文中,我曾经展示了我们如何运用这些视觉紊乱来中止更好的音素分类,因而这是一种新的锻炼措施,”她弥补说。


Helen Bear(海伦)博士指出,目前在唇语读取范畴,很多的研讨都正在探求音频和视觉线索,以进步唇语读取的精确度。因而,这个UEA模型是在仅仅专注于视觉言语的优点上,来促进机器本省中止唇语阅读。


“我们很有效地伪装音频信号基本不存在。这个想法要么只需一个唇读系统,要么它可用于视听系统中,假如它能够跳的好的话,例如,这个视觉信号在音频返回时就会发出,那么未来有望展开的很好,”她说。


关于唇阅读技术中心的应战就是,至少关于人眼来说,人类制造出来的视觉线索要比音频线索少。例如,当看到嘴唇发出p、b和m时,就会困惑外形相似,这些就会对人类的唇语阅读者构成艰难。但是,UEA的视觉语音模型就能够更精确地域分这些视觉上相似嘴型的不同。


“这表明,p、b和m是有一些视觉上的区别,但是,它不是一些人类唇读者能够察看到的,”Helen Bear(海伦)说。


“假如我前面就曾经试着树立一个分类器,来辨认p的发音,而且我也曾经锻炼这些看起来相似的声音。我们接下来要做的就是再细化,经过做一些更多的迭代锻炼,来锻炼这个p的发音”她说。


“我们实践上是在学习和了解一切这些视觉单元的含义,以及为什么它们在人们之间存在差别,并且我们曾经用这种学问来改动传统的唇读系统,使它更好。这是十分重要的一步,”她弥补说。


“更好”依旧是相对的。模型的精确度为10%到20%(即正确辨认字),据Helen Bear(海伦)说,固然她强调说这依旧远远高于猜测。


“诚实说,我们不是百分之百肯定它为什么那样工作,我们只知道特殊的分类,假如我们用正确的数据锻炼它们,它们就对任何事情都没有成见,”她说。


这个复杂性在于,了解视觉言语为什么这么复杂,这比我们运用机器学习去取得更好的结果愈加艰难。我们知道,机器学习总是在不时的演化,并且我们在取得不同类型的分类器,他们如何学习和视觉语音有多少变更以及我们如何去控制一切这些变更,那些是更难的问题。


请猜猜看我们的研讨能够被有效地应用于商业化还有多远,她开玩笑说:“假如我在谷歌工作的话,就可能很快了。”其实任何的技术商业化都需求几年的时间。


“我们依旧需求学习和了解这些事情”她说,这项研讨是一系列互锁的言语模型,还需求辅佐机器能够精确地把人类奇形怪状的唇语构成语音数据。


值得留意的是,UEA模型还仅仅集中在英语言语。因而,未来应战的范围还要扩展到唇语的应用,而仅仅是去了解。


这个UEA模型能够分离其他预测言语技巧,这或许是基于下一代词语预测技术的机器学习,以进一步进步唇语阅读才干吗?“我置信我是能够做到的,但是,这也不可能立刻就市场化的。”


本周五,在上海举行的国际会议上,Helen Bear(海伦)博士展示了他的这个研讨结果,这次会议主要是关于声学、语音以及信号处置技术方面的。它的论文主要是脸部解码︰改善机器的唇语阅读,这篇论文也将发布。这项研讨是研讨了三年的项目,主要由工程和物文科学研讨理事会支持。


更多精彩内容尽在1号机器人网www.1hjqr.com



路过

雷人

握手

鲜花

鸡蛋
已有 0 人参与

会员评论

 名表回收网手机版

官网微博:名表回收网服务平台

今日头条二维码 1 微信公众号二维码 1 抖音小程序二维码 1
浙江速典奢贸易有限公司 网站经营许可证 备案号:浙ICP备19051835号2012-2022
名表回收网主要专注于手表回收,二手名表回收/销售业务,可免费鉴定(手表真假),评估手表回收价格,正规手表回收公司,浙江实体店,支持全国范围上门回收手表
返回顶部