安防峰会
                    您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
                    人工智能 正文
                    发私信给雷锋字幕组
                    发送

                    0

                    如何让机器像人一样听声音

                    本文作者:雷锋字幕组 2019-03-11 10:16
                    ?#21152;錚?#36890;过对人体系统进行建模,人工智能技术已经取得了重大突破。

                    如何让机器像人一样听声音

                    本文为 AI 研习社编译的技术博客,原标题 :

                    Human-Like Machine Hearing With AI (1/3)

                    作者 | Daniel Rothmann

                    翻译 | 悟空空、Glimmer           

                    校对 | 邓?#36134;?杰弗        审核 | 酱番梨       整理 | 立鱼王

                    原文链接:

                    https://towardsdatascience.com/human-like-machine-hearing-with-ai-1-3-a5713af6e2f8


                    如何让机器像人一样听声音?#35745;?#26469;源:Jonathan Gross

                    通过对人体系统进行建模,人工智能技术已经取得了重大突破。尽管人工神经网络是数学模型,仅能粗糙地模拟人类神经元的?#23548;?#36816;作方式,但它们在解决复杂而模糊的现实问题中的应用却是深远的。?#36865;猓?#22312;神经网络中模拟建模人脑的结构深度,为学习到数据背后更有意义的内涵开辟了广泛的可能性。

                    如果您错过了其他文章,请点击下面链接以了解该技术的最新发展。

                    背景:人工智能在音频处理方面的前景

                    评论:用于音频处理的卷积神经网络(CNNs)和频谱?#21152;?#20160;么问题?

                    第二部分:如何让机器像人一样听声音(2/3)

                    在?#35745;?#35782;别和处理?#26657;?#26469;自视觉系统卷积神经网络(CNNs)中的复杂且空间不变的神经元的灵?#26657;?#20063;对我们的技术产生了很大的改进。如果您对将?#35745;?#35782;别技术应用于音频频谱图?#34892;?#36259;,请查看我的文章“用于音频处理的卷积神经网络(CNNs)和频谱?#21152;?#20160;么问题?”

                    只要人类的感知能力超过机器,我们就可以通过理解人类系统的原理来学习获益。在感知任务方面,人类非常熟练,且在机器听觉领域,人类的理解能力和当前的AI技术之间的对比尤为明显。考虑到在视觉处理领域中受到人类系统启发所带来的好处,我建议我?#24378;?#20197;通过神经网络应用于视觉领域相似的过程,运用在机器听觉领域一定会获益。

                    如何让机器像人一样听声音

                    本文的流程框架       

                    在本系列文章?#26657;医?#35814;细介绍使用AI进行实时音频信号处理的一个框架,该框架是Aarhus大学和智能扬声器制造商Dynaudio A/S合作开发的。它的灵感主要来?#26434;諶现?#31185;学, ?#29616;?#31185;学试图将生物学、神经科学、心理学和哲学的观点结合起来,以更好地理解我们的?#29616;?#33021;力。


                      ?#29616;?#22768;音属性

                    也许关于声音最抽象方式,在于我们作为人类如何理解它。虽然信号处理问题的解决方案必须在强?#21462;?#39057;谱和时间这些低级别属性参数的范围内进行处理,但最终目标通常?#24378;扇现模?#20197;我们对声音包含的意义?#29616;?#26041;式转换信号。

                    例如,如果希望以编程方式改变一段语音说话者的性别,则必须在定义其?#31995;图?#21035;特征之前,以更有意义的术语来描述该问题。说话者的性别可以被认为是由多种因素构成的?#29616;?#23646;性:语音的音高和音色、发音的差异、单词和语言选择的差异,以及对这些属性如何与性别联系起来的理解。

                    这些参数可以用?#31995;图?#21035;的特征来描述,例如强?#21462;?#39057;谱和时间这些属性,但只有在更复杂的组?#29616;校?#23427;们才能形成高级别的意义表?#23613;?#36825;形成了音频特征的层次结构,从中可以推断出声音的“含义?#34180;?#20154;类声音的?#29616;?#23646;性可以认为由声音的强?#21462;?#39057;谱和统计特性的时间序列的组合模式来表?#23613;?/p>

                    如何让机器像人一样听声音

                    可用于从数字音频中获得含义的功能层次。

                    神经网络(NNs)非常擅长提取抽象的数据表示,因此非常适合检测声音中的?#29616;?#23646;性。为了构建一个基于此目的的系统,让我们先来研究声音在人类听觉器官中的表现方式,我?#24378;?#20197;用它来激发通过神经网络来处理声音意义的表?#23613;?/p>


                      耳蜗表示

                    人类听觉始于外耳,外耳首先由耳郭组成。耳郭充当声音频谱预处理的一?#20013;?#24335;,其中输入声音根据其相对于收听者的方向而被修改。然后声音通过耳郭中的开口进入耳道,随后通过共振这种放大频率(范围为~1-6kHz)的方式,来改变输入声音的频谱特性[1]。

                    如何让机器像人一样听声音

                     人类听觉系统的图解。

                    当声波?#37233;?#32819;道末端时,它们会激发耳膜,耳膜?#32454;?#30528;了听小骨(人体中的最小骨头)。这些骨?#26041;?#21387;力从耳?#26469;?#36882;到内耳充满液体的耳蜗内[1]。耳蜗对为神经网络(NNs)引导声音的意义表示起很大作用,因为这是负责将声振动转换成人类神经活动的器官。

                    它是一个盘管,沿其长度上被两个薄膜分开,即?#37011;?#32435;氏膜?#31361;?#24213;膜。沿着耳?#31995;?#38271;度?#24076;?有一排约3500个内毛细胞[1]。当压力进入耳蜗时,它的两个膜被压下。基底膜的底部较窄?#21307;?#30828;,但在其顶点处较宽且松散,这使得沿其长度的每个位置在特定频率下的相应更强烈。

                    简单来说,基底膜可以被认为是一组连续的、和薄膜一样长度的带通滤波器,作用是把声音分离到他们的谱分量。

                    如何让机器像人一样听声音

                    人类耳?#31995;?#22270;解

                    这是人类将声压转变为神经活动的最基本的机制。因此,我们有理由假设,在用人工智能建立声音感知模型的时候,声音的谱表示比较有利。因为基底膜?#31995;?#39057;率反应是以指数形式变化?#27169;?#23545;数化的频?#26102;?#31034;可能是最?#34892;?#30340;。一个这样的频?#26102;?#31034;可以用gammatone滤波器组产生。这些滤波器被普遍应用于听觉系统的谱滤波建模?#26657;?#22240;为他们能够估计产生自听觉神经纤维的人类听觉滤波器的脉冲响应,这是对一种叫做“revcor”函数的?#33258;?#22768;?#24149;?#24212;。

                    如何让机器像人一样听声音

                    简化的人类谱转导和数字化谱转导的对比

                    耳蜗有大约3500个内毛细胞,且人类能够检测到长度在2-5ms的声音中的空隙,因此使用3500个分为2ms的窗口的gammatone滤波器进行谱分解看起来是用机器实现类人谱表示的最好的参数。然而,在?#23548;?#22330;景?#26657;?#25105;认为更少的谱分解也能在大多数分析和处理任务中达到理想的效果,同时在计算角度更为可行。

                    一些听觉分析的软件库在线可用。一个重要的例子就是Gammatone Filterbank Toolkit by Jason Heeris.它不仅提供了可调节的滤波器,也提供了用gammatone滤波器进行声音信号类谱分析的工具。


                      神经编码

                    在神经活动从耳蜗移动到听觉神经和上升听觉通路的同时,一些工序在它?#37233;?#21548;觉皮层之前在脑干核执行。

                    这些工序建立了一个表示刺激和感知之间相互作用的神经编码。更多的关于这些细胞核内具体的工作的知?#24230;?#28982;是基于猜测或未知?#27169;?#25152;以?#21307;?#22312;他们如何发挥作用的高层次来介绍。

                    如何让机器像人一样听声音

                    图:简化的上升听觉通路(一只耳朵)和设想功能的图解。

                    人类内在连接着的每只耳朵?#21152;?#19968;套这样的核,但是简单起见,我只阐述一只耳朵中的流程。耳蜗核是为从听觉神经到来的神经信号编码的第一步。它包含许多有着不同特性,能够完成声音特征的初处理的神经元。这些神经元?#26657;?#19968;部分指向和声源定位相关的上橄榄体,另一部分指向外侧丘系核和下丘,通常与更高级的特征相关。

                    J.J.Eggermont 在“Between sound and perception: reviewing the search for a neural code” 中如下详细地阐述了从耳蜗核开始的信息流动过程:?#26696;共?#32819;蜗核(VCN)提取并增强了在听觉神经纤维的放电模式中多路复用的频率和时间信息,并且通过两种主要的通?#38450;?#21457;送结果:声源定位路径和声纹鉴别路径。VCN的?#23433;?AVCN)主要在声源定位方面发挥作用,而且它的两种bushy 细胞为上橄榄核(SOC)提供了输入。在上橄榄核中耳间时间差(ITDs)和耳间水平差(ILDs)对于每种频率分别?#25104;洹?/p>

                    声纹鉴别路径携带的信息是像元音一样的复谱的一种表?#23613;?#36825;种表示主要在?#20849;?#32819;蜗核中?#21830;?#27530;种类的单元创造,这些单元也被叫做”chopper"神经元。听觉编码的细节很难被详细?#24471;鰨?#20294;是他们告诉我们,到来的频谱的“编码”形式可以提高对低层次声音特性的理解,同时使在神经网络中处理声音的代价更小。


                       谱声音?#24230;?/strong>

                    我?#24378;梢杂?#29992;非监督自动编码器神经网络结构作为学习和复杂谱相关的普遍特性的一种尝试。像?#26159;度?#19968;样,在表示选中特征(或一种更?#32454;?#27987;缩的含义)频?#23383;?#21457;现共性?#24378;?#33021;的。

                    一个自动编码器经训练能够将输入编码为一种压缩的表示法,这种表示法能重建回和输入有高相似度的形式。这意味着一个自动编码器的目标输出就是输入本身。如果一个输入能够在被重建的同时没有很大的损失,神经网络?#31361;?#23398;习在这种包含足够多有意义的信息的压缩内在表示法下编码它。这种内在表示法也就是我们所说的?#24230;搿?#33258;动编码器的编码部分可?#28304;?#35299;码器解耦,来为其他应用生成?#24230;搿?/p>

                    如何让机器像人一样听声音

                    谱声音?#24230;?#30340;自动编码器结构图解

                    ?#24230;?#36824;有一个优点,就是他们通常比原始数据有着更低的维?#21462;?#20030;个例子,一个自动编码器可以把有着3500个值的频谱压缩为一个长度为500的向量。简单地说,这样的向量的每一个值都可以描述像元音、声震粗糙度或调和性的高层次的谱特征——它们仅仅是例子,事实上一个自动编码器生成的统计?#31995;?#20849;同特征的含义通常很难在原始语言中标记。

                    在下一个文章?#26657;?#25105;们会拓展这个想法,采用新增内存来为声音频谱的时间产物生成?#24230;搿?/p>

                    这是我“用人工智能进行声音处理”的系列文章的第一部分。接下来,我们会讨论声音中的感觉?#19988;?#21644;时序?#35272;?#30340;核心概念。

                    参考文献:

                    [1] C. J. Plack, The Sense of Hearing, 2nd ed. Psychology Press, 2014.

                    [2] S. J. Elliott and C. A. Shera, “The cochlea as a smart structure,” Smart Mater. Struct., vol. 21, no. 6, p. 64001, Jun. 2012.

                    [3] A.M. Darling, “Properties and implementation of the gammatone filter: A tutorial”, Speech hearing and language, University College London, 1991.

                    [4] J. J. Eggermont, “Between sound and perception: reviewing the search for a neural code.,” Hear. Res., vol. 157, no. 1–2, pp. 1–42, Jul. 2001.

                    [5] T. P. Lillicrap et al., Learning Deep Architectures for AI, vol. 2, no. 1. 2015.

                    想要继续查看该篇文章相关链接和参考文献?

                    点击【如何让机器像人一样听声音】或长按下方地址/二维码:

                    https://ai.yanxishe.com/page/TextTranslation/1424

                    AI研习社今日推荐:雷锋网雷锋网雷锋网(公众号:雷锋网)

                    卡?#31361;?#26757;隆大学 2019 春?#23613;?#31070;经网络自然语?#28304;?#29702;》是CMU语言技术学院和计算机学院联合开课,主要内容是教学生如何用神经网络做自然语?#28304;?#29702;。神经网络对于语言建模任务而言,可以称得上是提供了一?#26234;?#22823;的新工具,与?#36865;?#26102;,神经网络能够改进诸多任务中的最新技术,将过去不容易解决的问题变得轻松简单。

                    加入小组免费观看视频:https://ai.yanxishe.com/page/groupDetail/33

                    如何让机器像人一样听声音


                    雷锋网原创文章,未经授权禁止转载。详情见转载须知

                    分享:
                    相关文章

                    文章点评:

                    表情
                    最新文章
                    请填写申请人资料
                    姓名
                    电话
                    ?#27663;?/span>
                    微信号
                    作品链接
                    个人简介
                    为了您的账户安全,请验证?#27663;?/a>
                    您的?#27663;?#36824;未验证,完成可获20积分哟!
                    完善账号信息
                    您的账号已经绑定,现在您可以设置密码以方便用?#27663;?#30331;录
                    捷豹时时彩分分彩网站