本帖最后由 最好的数字就是7 于 2020-11-29 18:57 编辑
即便高清码率PCM音乐依然会损失重要的时间信息。全新的MQA格式,承诺显著提高音乐时域精确性,同时不会导致文件的暴涨。 任何音乐的录音和回放系统的目的都是捕捉艺术家的表演,然后精确的重播给听众。当然,说的容易完成却非易事,这样看是简单的需求在实践中却是一个巨大的挑战,耗费音像界足足花了近一个世纪的时间去追逐。来自英国的初创公司MQA推出极具突破意义的系统,他们号称该格式的系统音质将超越所有高清音乐格式,同时不需要太高的码率(最低使用Redbook 44.1kHz),而且还能向下兼容(可以使用普通PCM播放器,只是不能展开高清部分)。 发烧友们非常好奇这项技术所声称惊人的时域精确性能。同时,MQA也是目前现代数字音乐界里面极有可能成为重要标准的候选人,所有我觉得很有必要以此文让大家深入了解MQA的精髓,它和普通高清音乐的区别是什么,对于发烧界到底意味着什么。 在全面讨论这套神奇的MQA系统之前,我想花一点篇幅来聊一下,整个音像界在过去的技术发展中是如何解决不同的问题,从而带领我们来到今天这个世界,同时今天的世界又面临怎样的问题,亟待我们解决和突破。90年代工程师视乎已经用尽模拟电子的所有接近方案,将噪音、失真、抖动等都降低到人耳无法识别的水平。现代数字技术不但比模拟技术更加便宜,而且就上面谈到的性能来说,数字技术要好上很多。然而,伴随Nyquist过滤技术导致数字技术遗传了一直现在其发展的时域失真问题。
总体来说,音质是由3个因素所决定的:动态范围、频响带宽和时域的精准度。模拟技术发展了很长时间,直到在动态范围这个问题上遇到瓶颈。尽管目前商业录音的动态范围也很少达到120分贝的。在数字技术领域,动态范围由字长所决定,16位字长配合适合的噪音整形过滤器,可以非常轻松的达到人耳所能感知的动态范围极限。在专业录音中,由于需要更多的后期制作和剪切,所以一般会用到24位字长从而获得更高的解析度。所以,由于数字技术的出现,动态范围障碍已经被解决,我们可以不用再考虑。
不同的模拟系统的频响带宽是不同的。例如,理论上黑胶更容易丧失低频,而FM更容易丧失高频部分。不过大多数的模拟系统在高频和低频的衰减上还是相对柔和的,但是通常会伴随组延迟和相位偏移的问题。而相对数字技术来说,频响带宽更多与“砖墙”的反锯齿处理以及重构过滤器相关,采样频率直接关系到上述指标。通常,44.1kHz或者48kHz的采样在上述指标上相对来说是有所欠缺的。但是如果采样率上升到双倍88.2/96kHz,甚至4倍174.4/192kHz的时候几乎就不存在这样的问题了,当让过滤器可能会导致一定的副作用,所以过滤器的算法将极其重要。总之,频响带宽在现代数字技术上也近乎没有瓶颈了。
通常,在考虑一台系统性能时,可能很多主要关注频率范畴。比如,做EQ的时候,也是考虑如何处理某个频率的缺陷,频响曲线往往会作为我们判断系统听感的重要指标。但其实,我们只考虑问题的一半,还有一半是非常重要的时域性能。特别是数字技术,时域问题会与音质有更强的相关性,这就是为什么我们通常会觉得数字音乐不自然原因。
以前定义音质好坏的时候,更多会考虑相位偏离和组延迟的问题,时域精准性很长时间被人们所忽略,这几年随着数字音乐发展以后逐步被发现和认识。然而,科学家Von Békésy在1929年,研究人耳在识别音源方向的明锐都的时候,就指出人耳可以分辨10us甚至更短时间的差异。1976 Nordmark研究进一步指出人类的inter-aural分辨率大概2us。最近,国际研究组织证实人类的听觉系统能够分辨时间的变化信息大于在8us之间。
综上,如果我们简单计算一下,8us代表人类的听力范围应该可以达到125kHz(目前还没有看到任何研究证实人耳可以辨别这么高的频率)。其实大脑和耳朵去判断声音信号的时域是完全不一样的,就像眼睛一样,杆状细胞用于辨别亮度,锥形细胞用于分辨颜色。所以,现有的人类所建立听觉学术系统依然普遍接受,人类的听觉极限是20kHz,同时,一个新兴的分支继续去探寻人类的听觉是怎样通过惊人的精确性去分辨信号的变化。也许这就是为什么最近我们看到更多的设备支持高清音乐,因为更高的采样率在某种程度上提高时域精确性。
通常,人们分析、测量音像设备的时候主要关注频率相关性能。所以人们普遍在数字设备使用使用线性“砖墙”过滤器,因为他们可以非常容易的完成接近完美的频率性能。但是,近期研究提倡过滤器应该在时间域的行为上着重考虑,特别是前文提到人类精密的耳朵明显有超强的时域辨别能力。 图1:一个典型的48kHz数字系统linear-phase砖墙过滤器脉冲响应图。可以看到在中心的前后都有延展波纹。 当使用脉冲响应去分析linear-phase砖墙(大家可以想一下HQPLAYER里面lp结尾的过滤器)过滤器的时间特性的时候,我们发现中心响应区域的前后会有波纹拖尾。(如图1)这种通常部署于44.1kHz或48kHz系统中的过滤器,会导致脉冲的中心区域前后几百毫秒范围的波纹。这些波纹信号的能力散布于整个频率范围(通常叫做时间雾化效应),同时被认为由于人类耳朵的灵敏性,所以这些波纹会对音质产生负面影响。特别是先于中心点的波纹,导致声音能力先于实际声波,这在自然界是不存在的。因此,这是数字音乐里不自然、不期而遇的失真的来源。 当然,波纹拖尾的被认为是不好的东西,这件事情本身并不新鲜,有些解码器公司如dCs和 Wadia以及提供替代过滤器很多年了。那我们是怎样解决这个问题的呢?这里有几种方法可以减少波纹拖尾的持续时间,第一个并且是最简单的就是高采样率,这也可能是为什么高采样率的音乐格式被人们认为更加的自然。但是,采样率高于96kHz以后这个方法就收效甚微了,同时音乐文件会线性增长。 图2:48kHz数字系统中标准minimum-phase砖墙过滤器的脉冲响应图。注意,前导波纹拖尾已经没有了,但是后置拖尾更强,持续时间更长。
另一个方法,近几年颇为流行,就是使用minimum-phase过滤器(大家可以想一下HQPLAYER里面mp结尾的过滤器)。这相机机身可以完全消除前导波纹,同时保留了砖墙过滤器在频率响应的优势。但是,天下没有免费的午餐,在消除前导波纹的时候所带来的负面影响,导致后置波纹更强,持续时间更长(见图2、3)。所以,mp过滤器虽然消除了前导波纹拖尾,看上去更接近自然的脉冲响应,但是“时间雾化效应”依然存在。 图3:上图同时显示了linear-phase(红色)和minimum-phase(绿色),不过此次使用的基于对数振幅比例的能量分布。 事实上,脉冲响应的延时与过滤器的斜坡的斜率相关,所以更好的办法估计是使用更为温柔的过滤器,比如像third-order (18dB/octave) Butterworth (minimum-phase)过滤器,为例,通常用于模拟系统中没有任何问题。但是如果直接将这样的过滤器用于传统的数字系统中,必须使用很高的采样率防止锯齿问题。Sony用于SACD的DSD就是这样一个实践者,通过极高的1bit的PCM格式来防止锯齿效应,但是DSD的问题是非常难以后期处理,体积大,同时需要很重的噪音重整技术去达到在音通域实用的信噪比。所以依然不是一个理想的解决方案。 在众多方案中,有一个通常用于射电天文学的非常精明的技术,可以获得温柔过滤器的有点,同时又不需要极高的采样率。射电望远镜的边缘会导致生成的天文突破产生一些不连续的衍射和涟漪的现象,使得这部分画面模糊。这样的不连续的影响,被称为吉布斯现象,在应用数学界非常有名同时影响很多应用科学。在射电天文学里,工程师使用这项技术特意将天线边缘的画面进行了裁剪,以减少吉布斯现象的影响。这一处理过程通常称为“变迹法”(apodization)。
最早Peter Craven在2004年发表了文章研究如何将apodization应用于数字音乐系统,后来它和Michael Gerzon开发了声场麦克风和环境立体学声一举成名。英国HIFI厂商Meridian Audio是首个将apodizing过滤器现实世界实际用于旗下部分产品的DSP中。
|