今日看点

【融云视角】沉浸式音频与通讯技术未来趋势

发表于话题:沉浸式太空生活
发布时间:2021-11-04

回顾互联网发展历程,从 PC 局域网到移动互联网,互联网使用的沉浸感逐步提升,虚拟与现实的距离也逐渐缩小。利用沉浸式音频与通讯技术未来将会很大程度提升用户的体验感,而在虚拟与现实的元宇宙中,对沉浸感、参与度、永续性等方面都有很高的要求,因此将会由许多独立工具、平台、基础设施、协议等来支持其运行。随着 AR、VR、5G、云计算等技术成熟度提升,基于沉浸式音频的通讯技术在元宇宙有望逐步从概念走向现实。

本文将和业内伙伴一同探索元宇宙技术发展对通讯行业带来的影响,未来沉浸式音频的发展趋势以及通讯技术在 VR、AR、AI 行业的应用。

元宇宙概念简述

元宇宙(Metaverse)是指打造一个与现实生活平行的、体验几乎无差异的虚拟世界。人类可以利用虚拟身份在虚拟世界工作、社交互动、娱乐游戏,甚至买卖交易。总结出来就是,在元宇宙中,你可以想什么就有什么,无边无际的想象力给予你无限的自由。

Metaverse 元宇宙所创造的独立于现实世界的虚拟数字第二世界,使用户能以数字身份自由生活。VR、AR、AI 作为 Metaverse 的技术基础将迎来高速增长期。虚拟现实行业 2020 年全球市场规模约为 900 亿元人民币,预计 2020-2024 年均增长率约为 54%。据中国信通院预测,2021 年开始全球虚拟设备出货量将加速,预计 2024 年可达 7500 万台。(数据来源:天风证券《Metaverse研究报告》)随着 VR 产业链的逐步完善,VR 对行业的赋能会展现出强大的飞轮效应。

那么我们怎么样才能从现实世界,逐渐进入到元宇宙世界中去呢?

真实感的维度

如果把元宇宙场景中,用户体验到的真实感划分为两个维度:“沉浸感”和“自由度”。两个轴的起点,则是原生感知现实,例如正在阅读这篇文章的你。沉浸和自由的深度,共同决定了元宇宙中的用户体验是否足够真实。

真实感的等级

Lv1:从原生感知初步向虚拟世界迈进的阶段

Lv2:让大脑感觉部分真实的虚拟世界

Lv3:完全骗过大脑的全真虚拟世界

Max:和原生世界深度相同的虚拟世界

元宇宙现阶段发展趋势

现阶段元宇宙概念的产业链,例如互动体验、人机交互等,大部分能力范围在 Lv1-Lv2 之间,仅有少部分尖端企业向 Lv3 迈进。未来阶段如何实现 Max 的目标,是否能真正实现,目前还无法得知。

Lv1-Lv2 范围的产业链已日渐成熟,目前已经实现 3D 体感电影、开放沙盒游戏、VR、AR、MR 游戏等应用。

如果说 Lv2 阶段的用户体验,是由某几个沉浸或自由因素堆积而成的“半真实”体验,那么升级到 Lv3 阶段的“全真实”体验,可以说是质的飞跃。“沉浸”和"自由"必须做到足够的深度,相辅相成。数字化的视觉和听觉感知体验是否可以完全骗过我们的大脑?3D 引擎是否能提供足够的自由体验?AI 是否能做到永续性、自生长?网络传输是否可实现无延迟?只要任何一个因素存在缺陷,就不可能真正实现“全真实”的用户体验。可见从“半真实”到“全真实”,实现难度会陡增。

到 Lv3 之后,元宇宙下一个阶段,就是实现终极目标,让人们的意识永生在虚拟世界。影响这一目标实现的因素,除硬件、软件、通讯等科技因素之外,还涉及到生物学和医学范畴。是否能真正实现,目前来看仍是未知。

头部厂商的进展

1.Facebook

2020 年 9 月,Facebook Connect 2020 大会上,Facebook 发布了 AR/VR 十五大重要战略规划。会上公布的一系列 AR/VR 信息,涵盖最新硬件产品、软件产品、解决方案、开发者服务、前沿技术研究等。

其中 VR 头显 Oculus Quest 2 依靠平台提供的游戏和软件支持,已经成为目前市场上主流的 VR 头部穿戴设备。

值得关注的是,在会上发布的Project Aria 是Facebook 构建的帮助研究人员理解 AR 眼镜所需软件和硬件的研究设备。它使用传感器能从佩戴者角度捕捉视频和音频,通过GPS 计算位置,捕捉多声道音频。

2.Apple

美国知名科技博客 Scobleizer 预测,苹果在未来一年内公布的产品计划中,将会包含一款全新的 AR/VR 头显。具体来讲,苹果计划在未来十年推出多款产品,包括 AR/VR 眼镜、AR/VR 隐形眼镜(分别在 2022 年到 2025 年之间推出)。这意味着苹果要从 2D 屏幕、界面和体验向 3D 形式升级。

Scobleizer 表示:苹果 AR/VR 头显将同时覆盖使用者的双眼和双耳,戴上之后你不仅看不到周围的环境,也听不到周围的声音。也就是说,苹果 AR/VR 头显的一大特点是视觉和听觉的沉浸感,有趣的是,它并不会将使用者与外界完全隔绝,也许可以通过 AR 透视功能让你看到和听到周围。在苹果 AR/VR 头显开机之后,你才能看到周围环境的虚拟影像,并且听到周围的声音。

值得关注的还有苹果车载环绕音频技术。Scobleizer 表示,该技术可以从汽车内部、家里等各种地方营造环绕式声音效果。利用苹果 AR/VR 头显的 LiDAR 模组,可以实现 3D 音频在空间中的定位。通过亲自体验,他表示该技术可模拟亲临现场的音频效果。

RTC 通讯技术的现状

RTC 的音频传输技术,是通过采样、量化、编码、压缩,实现模拟信号到数字信号的传输。目前常用的是双声道的采样,即左右两个声道的立体声,再经过压缩处理,传输时占用带宽少,符合目前大部分业务场景对传输效率的需要。随着5G 到来,网络带宽不再是问题,在保证传输效率的基础上,人们会进而追求 3D 沉浸式的音频体验。双声道采样将不再符合未来需求。多声道采集(例如 Ambisonics 麦克风用四面体阵列形式采集 4 个声道)传输,或许成为未来通讯技术的主流。

除了上述办法使用户实现沉浸式的音频体验,还有没有其他方法?我们先来看一下,目前成熟的沉浸式的音频技术有哪些。

沉浸式的音频技术

目前,沉浸式音频类型主要分为三大类:基于声道 Channel based audio (CBA)、基于对象 Object based audio (OBA)、基于场景 Scene based Audio (SBA)。Scene-Based Audio 主要是用来描述场景的声场,其核心的底层算法是 HigherOrder Ambisonic(HOA)。

根据业内专家分析的结论,未来 VR 音频专业领域则主要是 Object based audio 和 Ambisonics(HOA)两大趋势。

那么 VR 音频技术,可以应用在哪些 VR 社交场景中呢?

与社交场景的对应

在元宇宙发展的现阶段,社交场景主要存在于 VR 游戏、VR 直播、和 VR 社交软件上。

因为 Object based audio 有大量的数据和运算,除了声道的音频外,还有关于声源的metadata (元数据):声源(位置、大小、速度、形状等属性)、声源所在的环境(reverb (混响)和 reflection(回声)、attenuate (衰减)、几何形态),所以它更适合用于 VR 主机上的游戏。

Ambisonics 的特点是声源贴在提前渲染好的全景球上,所以玩家不一定能够将声源放在场景中想放的位置,即使有声源也被压缩在了这个球上。它适合移动端和流媒体视频。

如何利用沉浸式音频与通讯技术提升未来体验

通过以上分析,我们怎样利用 RTC 的音频传输技术实现用户沉浸式的音频体验呢?

1. 直接传输沉浸格式的音频

使用 Ambisonics 技术,声音的采集和处理都交给 App 或者 VR 声音引擎,RTC 通道仅负责进行传输。

2.预处理后交给接收端还原

对应 Object based audio 技术,声音的采集用 Ambisonics,但是在传输之前,降维到双声道进行编码和传输,这样 Web 端或移动设备能兼容。然后接收端通过双声道数据,再还原回 Ambisonics,根据虚拟场景的变化实时渲染,最后在用户端播放。

3. 通过文字与语音的转换技术实现

如果虚拟场景中是二次元的世界,我们不仅要避免人声的直接还原,还要让人物语音符合二次元世界中的设定。

对于这种情况,可以借助融云 IM 技术,以及语音和文字的互转实现(asr 和 tts)。人声采集后先转成文字,再输入到声音建模中,最后转成二次元人物的声音。

这种方法可以让每一个玩家的语音都符合游戏世界中的设定,从而增强沉浸感。

结束语

相关技术的不断升级进步,会使元宇宙概念继续向前发展。VR、AR、5G、AI、专业引擎和平台等产业链的发展,也会继续带动用户对沉浸式体验的追求。沉浸式音频通讯有可能会成为未来通讯的主流。我们对市场保持关注,希望和业内伙伴一同深入探索研究,沉浸式音频与通讯技术或可成为通讯业务未来的突破口。

标签组:[苹果] [vr] [虚拟世界] [vr眼镜] [vr游戏] [vr直播] [音频应用

本文来源:https://www.kandian5.com/articles/75852.html

相关阅读

《吕氏春秋·慎行论》疑似赏析

【原文】使人大迷惑者,必物之相似者也。玉人之所患,患石之似玉者;相剑者之所患,患剑之似吴干②者;贤主之所患,患人之博闻辩言而似通者。亡国之主似智,亡国之臣似忠。相似之物,此愚者之所大惑,而圣人之所加虑...

2025-04-29

庄子《山木》寓言七:孔子穷于陈蔡之间

孔子穷于陈蔡之间原文:孔子穷于陈蔡之间,七日不火食,左据槁木,右击槁枝,而歌猋氏之风,有其具而无其数,有其声而无宫角,木声与人声,犁然有当于人之心。颜回端拱还目而窥之。仲尼恐其广己而造大也,爱己而造哀...

2025-04-29

庄子《山木》寓言五:孔子问子桑雽

孔子问子桑雽原文:孔子问子桑雽曰:“吾再逐于鲁,伐树于宋,削迹于卫,穷于商周,围于陈蔡之间。吾犯此数患,亲交益疏,徒友益散,何与?”子桑雽曰:“子独不闻假人之亡与?林回弃千金之璧,负赤子而趋。或曰:‘...

2025-04-29

庄子《山木》寓言六:庄子衣大布而补之

庄子衣大布而补之原文:庄子衣大布而补之,正緳系履而过魏王。魏王曰:“何先生之惫邪?”庄子曰:“贫也,非惫也。士有道德不能行,惫也;衣弊履穿,贫也,非惫也;此所谓非遭时也。王独不见夫腾猿乎?其得枏梓豫章...

2025-04-29

《吕氏春秋·慎行论》无义赏析

【原文】先王之于论也极之矣①。故义者,百事之始也,万利之本也,中智之所不及也。不及则不知,不知则趋利。趋利固不可必也②。公孙鞅、郑平、续经、公孙竭是已。以义动则无旷③事矣,人臣与人臣谋为奸,犹或与之④...

2025-04-29

庄子《山木》寓言四:孔子围于陈蔡之间

孔子围于陈蔡之间原文:孔子围于陈蔡之间,七日不火食。大公任往吊之曰:“子几死乎?”曰:“然”。“子恶死乎?”曰:“然。”任曰:“子尝言不死之道。东海有鸟焉,其名曰意怠。其为鸟也,翂翂翐翐,而似无能;引...

2025-04-29

《吕氏春秋·慎行论》慎行赏析

【原文】行不可不孰②。不孰,如赴深谿,虽悔无及。君子计行虑义,小人计行其利,乃不利。有知不利之利者,则可与言理矣。【注释】①慎行:行为要谨慎。本篇阐述的是漆雕学派的学说。②孰:通“熟”,精审,慎重考虑...

2025-04-29

《六韬·文韬·盈虚》赏析

【原文】文王问太公曰:“天下熙熙,一盈一虚,一治一乱,所以然者,何也?其君贤不肖不等乎?其天时变化自然乎?”太公曰:“君不肖,则国危而民乱,君贤圣则国安而民治,祸福在君不在天时。”文王曰:“古之贤君可...

2025-04-29

《六韬·文韬·明传》赏析

【原文】文王寝疾,召太公望,太子发在侧,曰:“呜呼!天将弃予,周之社稷将以属汝,今予欲师至道之言,以明传之子孙。”太公曰:“王何所问?”文王曰:“先圣之道,其所止,其所起,可得闻乎?”太公曰:“见善而...

2025-04-29

《六韬·文韬·国务》赏析

【原文】文王问太公曰:“原闻为国之大务,欲使主尊人安,为之奈何?”太公曰:“爱民而已。”文王曰:“爱民奈何?”太公曰:“利而勿害,成而勿败,生而勿杀,与而勿夺,乐而勿苦,喜而勿怒。”文王曰:“敢请释其...

2025-04-29