官方社群在线客服官方频道防骗查询货币工具

腾讯多媒体实验室亮相GBA-IAS 2019声学论坛,深度分享音频前沿技术

2025年01月15日 02:41:38
news.like.tgnews.like.tgnews.like.tgnews.like.tg

LIKE.TG 成立于2020年,总部位于马来西亚,是首家汇集全球互联网产品,提供一站式软件产品解决方案的综合性品牌。唯一官方网站:www.like.tg

12月16日,由中国香港科技大学深圳研究院主办的GBA-IAS 2019声学论坛(GREATER BAY AREA -INTERNATIONAL ACOUSTICS SYMPOSIUM),在深圳正式召开。随着虚拟现实技术的发展,音视频行业对3D音频等技术的需求也更加强烈,本此论坛以“感知与声音”为主题,来自国内外众多知名大学、科研机构的多名心理学、声学、信号处理和计算机科学的专家出席,对各自团队的研究进展和新思路进行了分享与交流。在音视频领域积累多年的腾讯多媒体实验室团队受邀参会,腾讯多媒体实验室高级总监商世东、专家研究员肖玮、王燕南等就多媒体实验室的音频前沿算法及应用进行了分享。

(GBA-IAS 2019声学论坛,与会专家合影)

多媒体实验室成立于2016年,专注音视频通信技术的前瞻性研究,包括全球实时音视频网络优化、音视频处理、音视频标准、多媒体编解码前沿算法研究、计算机视觉图像处理、基于AI的音频语音增强、声音美化及音视频质量评测等,在实时音视频通信等技术领域积累了十余年的研究经验,一直保持业界的技术领先性。商世东详细介绍了多媒体实验室的音频技术全景图、音频端到端方案的技术框架以及5G时代下音频技术发展面临的挑战和机会。

“腾讯多媒体实验室,对于声学领域的技术发展和产业落地始终秉持着开放的态度,也希望能和行业的企业、高校等机构共同合作,一起推动声学领域技术的进步和落地应用。”商世东介绍道,随后,商世东主持了基于球面谐波技术和声音场景分类的空间声学研讨会,与来自澳大利亚国立大学的Thushara教授和华南理工大学的师生展开了热烈的讨论。

(腾讯多媒体实验室高级总监 商世东)

高效率音频超分算法的无限可能

腾讯多媒体实验室专家研究员肖玮,基于多媒体实验室在高效率音频超分领域的进展,同与会专家进行了深入的交流与探讨。作为腾讯天籁音频解决方案的重要支撑,音频超分算法具有无需修改网络协议,无需额外数据传输,人工生成高频频谱提升用户主观体验的特点。“我们知道丰富的高频声音信号能够带来更加出色的听觉体验,但在实际应用中,受设备采样率等因素影响,我们时常会遇到不含高频信号的窄带语音,从而对听感产生影响。”肖玮介绍道。

为了解决这一问题,行业内已经公开一些利用深度学习的思路,完成宽带频段重建的工作;但由于对数据的强依赖,外加模型体积过大,复杂度也相对较高,难以部署在客户端。为了解决这一问题,多媒体实验室将深度学习技术与经典语音信号技术处理、心理模型等技术进行融合,通过轻量级建模,从而克服了一般深度学习算法中对数据的过度依赖以及网络模型过大等问题,仅2MB的技术模型就可轻松部署于各类客户端,同时保证宽带频段的重建精度和质量。此外,肖玮还向与会专家现场进行demo演示,就超分算法如何面对真实应用场景、优化建模方法以及功能扩展等方面与与会专家进行了深度交流。

目前这一算法已部署至腾讯会议,实现由窄带语音输入到宽带语音输出的转换;此外,在提升听障人士语音通信体验领域,超分算法也具备着巨大的应用前景。

(腾讯多媒体实验室专家研究员 肖玮)

深度学习算法助力语音增强

腾讯多媒体实验室专家研究员王燕南,就实验室在语音增强、伴奏分离等领域的研究进展进行了分享。在录音过程中,由于环境和采集设备的局限性,可能会捕捉到多种不同的声音,而在采访等场景中,我们很可能只需要一到两种声音,那么应该如何将有用的声音分离出来呢?为了解决这一问题,多媒体实验室提出基于神经网络深度学习的概率学习框架。

以往处理这类问题,业内人通常会采用一种名为常规最小均方误差的训练准则,进行深度学习,在信号处理的过程中,这一模型能够通过矩阵式的运算,让输出的信号尽可能接近输入的信号。由于较高的计算量难以满足即时通信环境下的需求,无法实现高效的语音分离,多媒体实验室自研了基于深度神经网络的非线性谱映射单通道语音分离的最大似然法。简单说来,这一方法是基于概率模型对海量语料数据进行深度学习,从而实现高清晰度与高效的语音分离工作,同时由于计算量的降低,它还具备更出色的泛用性,能够适用于更多的场景,诸如语音增强、伴奏分离等。

此外,王燕南还针对深度学习算法在应用中面临的挑战,如模型的鲁棒性(在极低信噪比、数据失配等情况下的效果)、计算量优化的挑战等内容,和与会专家进行了交流。

(腾讯多媒体实验室专家研究员 王燕南)

名校师生Lab Tour,深度开展校企交流

会后,腾讯多媒体实验室向澳大利亚国立大学、中国香港科技大学以及华南理工大学的师生发出邀请,一同前往腾讯多媒体实验室参观访问,并就未来进一步展开校企合作进行了热烈的探索与讨论。

目前,仅在音频领域,多媒体实验室所打造的包括唱歌修音、语音增强、端到端音频评估等解决方案,已在腾讯公司内外的众多产品中进行应用。此外,多媒体实验室有近50项提案被下一代视频编码标准VVC/H.266采纳。在虚拟现实(VR)、点云(PCC)、网络传输协议 (DASH)、多媒体系统(OMAF、CMAF、NBMP)等相关多媒体标准中,也取得了突破性进展,获得多项标准核心专利,多名团队成员在多个全球标准组织担任董事、编辑、领域主席等重要席位。与此同时,多媒体实验室也大力投入国家自主标准建设,成为国际行业标准不可忽视的影响者。

现在关注【LIKE.TG出海指南频道】【LIKE.TG大客户服务频道】,即可免费领取【WhatsApp、LINE、Telegram、Twitter、ZALO云控】等获客工具试用、【住宅IP、号段筛选】等免费资源,机会难得,快来解锁更多资源,助力您的业务飞速成长!点击【联系客服】

本文由LIKE.TG编辑部转载自互联网并编辑,如有侵权影响,请联系官方客服,将为您妥善处理。

This article is republished from public internet and edited by the LIKE.TG editorial department. If there is any infringement, please contact our official customer service for proper handling.


Server deployment全球论坛人工智能论坛全球峰会发展论坛战略论坛开放论坛程序员论坛互联网峰会科技峰会
加入like.tg生态圈,即可获利、结识全球供应商、拥抱全球软件生态圈加入like.tg生态圈,即可获利、结识全球供应商、拥抱全球软件生态圈加入like.tg生态圈,即可获利、结识全球供应商、拥抱全球软件生态圈
加入like.tg生态圈,即可获利、结识全球供应商、拥抱全球软件生态圈加入like.tg生态圈,即可获利、结识全球供应商、拥抱全球软件生态圈加入like.tg生态圈,即可获利、结识全球供应商、拥抱全球软件生态圈