Time:2023-07-08 Click:108
原文作者:Scarlett Wu
6 月 6 日的 WWDC(苹果全球开发者大会)凌晨,也是发现自己 covid 二阳的第五天,我摆着养生茶跟朋友连麦唠嗑 : 一小时过去了,这次的 One More Thing 不会又推迟了吧?
于是等到凌晨两点库克出现,大手一挥 “One More Thing”,屏幕这端的我跟朋友一起欢呼:
Macintosh introduced personal computing, iPhone introduced portable computing, and Apple Vision Pro is going to introduce Spacial Computing
麦金塔电脑开启了个人计算机的时代,iPhone 开启了移动互联网的时代,而 Apple Vision Pro 将开启空间计算的时代。
作为前沿科技爱好者,我为明年可以拥有的新玩具欢呼,但作为关注游戏、元宇宙和 AI 的 Web 3 投资人,这是一个让我颤栗的新时代标志。
你可能会感到怀疑,“MR 硬件的升级跟 Web 3 有什么关系?”那么,我们先从 Mint Ventures 对元宇宙赛道的 Thesis 聊起。
可信任的交易底层,带来交易成本的降低:实体商品的资产确权和所有权保护,基于国家机器暴力机关的强制确权,而虚拟世界的资产确权,基于“共识之下对数据不可(或不应)篡改的信任”,以及对确权后资产本身的认可。虽然可以右键复制粘贴,BAYC 仍然具有十八线城市一套房的价格,这并非复制粘贴的图片和 NFT metadata 的图片真有多少不同,而是在市场具有对「不可复制性」共识的前提下,资产才有证券化的可能。
资产的高度证券化,带来的流动性溢价
去中心化的共识机制对应的无许可交易,带来的“无许可溢价”
虚拟世界的商品比实体商品更容易证券化:
从数字资产付费的普及历史,可以看出人们对虚拟内容的付费习惯养成并非一朝一夕,但不可否认的是,对虚拟资产的付费已然渗透进了大众的生活。2003 年 4 月,iTunes Store 的问世让人们发现,除了在盗版横行的互联网下载歌曲进随身听,还有购买正版数字音乐的选项支持喜欢的创作者;2008 年 App Store 问世,一次性购买的 App 风靡全球,而后续的 App 内购买功能则继续为 Apple 的数字资产收入添砖加瓦。
这其中还埋着一条游戏行业付费模式变迁的草蛇灰线。游戏行业的最初版本是 Arcade Game ,街机时代的付费模式是“为体验付费”(类似电影),主机时代的付费模式是“为卡带/光碟付费”(类似电影、音乐专辑),主机时代的后期开始售卖纯数字版游戏,同一时期出现的是 Steam 的数字游戏市场,和让部分游戏达成收入神话的游戏内购。游戏付费模式更新的历史也是分发成本递减的历史,从街机到主机,再到人人都有的个人电脑和手机即可登陆的游戏数字发行平台,和玩家已然沉浸的游戏本身,游戏本体的大趋势是技术上的分发成本越来越低、接触人群越来越广;而游戏资产从“体验的一个环节”变成“可购买的商品”。(虽然近十年的小趋势已经转变为数字资产分发成本的逐年提升,这主要是因为互联网的低增长,高竞争,以及流量入口对注意力的垄断。)
那么,下一步会是什么? 可交易的虚拟世界资产将是我们始终看好的主题。
随着虚拟世界的体验提升,人们在虚拟世界中的沉浸时间会越来越长,从而带来注意力的转移。而注意力的转移也将带来估值溢价从强依附于实体向虚拟资产转移。Apple Vision Pro 的发布,将彻底改变人类跟虚拟世界交互的体验,从而带来虚拟世界沉浸时长增长,和沉浸体验的大幅提升。
Source: @FEhrsam
注:这是我们对于定价策略的变体定义,在溢价定价策略中,品牌将价格定在一个远高于成本的价格区间,在定价和成本的差值里填充品牌故事和体验。此外,成本定价、竞争定价、供需关系等等也是商品定价时会考虑的要素,此处仅针对溢价定价进行展开。
2010 年,Magic Leap 成立。2015 年,Magic Leap 鲸鱼在体育馆惊人一跃的广告引起了整个科技界的轰动,但 2018 年产品正式上线时则因为极其糟糕的产品体验获得一片嘘声。公司 2021 年以 25 亿美元的投后估值融资 5 亿美元,使得公司的价值比其的融资总和—— 35 亿美元——还打三折。而 2022 年 1 月有报道称沙特阿拉伯主权财富基金通过 4.5 亿美元的股权和债务交易获得多数控制权,公司实际估值跌至不到 10 亿美元。
2010 年,微软开始开发 Hololens, 2016 年发布了第一款 AR 设备, 2019 年发布第二款。价格 $ 3, 000 ,但实际体验不佳。
2011 年,Google Glass 原型发布,第一款产品于 2013 年推出,曾红极一时且被赋予极高期待,但因为摄像头隐私问题和产品实际体验的效果不佳,惨淡收场,总销量仅数万台。2019 年发布企业版, 2022 年现场测试了新的测试版,反响平平。 2014 年,Google 的 Carboard VR 开发平台和 SDK 问世。2016 年,Daydream VR 问世,这是目前最广泛应用的适配 Android 的 VR 平台。
2011 年,索尼 PlayStation 开始开发其 VR 平台, 2016 年,PSVR 首次亮相,虽然出于对 PlayStation 的信赖,刚发售时用户购买较为踊跃,但后续反响不佳。
2012 年,Oculus 成立,并于 2014 年被 Facebook 收购。2016 年 Oculus Rift 上市,并陆续推出共 4 款机型,主打便携和较低定价,是市面上市场占有率较高的设备。
2014 年,Snap 收购 Vergence Labs, 这家公司成立于 2011 年,专注 AR 眼镜,这成为 Snap Spectacles 的原型。2016 年首次发售,并陆续推出 3 款更新版设备。跟上述的大多数产品一样,Snap Spectacles 在一开始吸引了众多目光,人们在商店门口排起长队,但后续使用者寥寥,Snap 于 2022 年关闭了公司的硬件部门,重新专注基于智能手机的 AR。
2017 年前后,Amazon 开始开发基于 Alexa 的 AR 眼镜,第一个 Echo Frames 于 2019 年发布,第二个版本于 2021 年发布。
当我们回顾 XR 的历史,可以看出这个行业的拓展和培育难度远远超出市场上所有人的预估,不管是财大气粗手握众多科学家的科技巨头,还是聪明能干融资上亿专注 XR 的创业公司。2016 年消费级 VR 产品 Oculus Rift 发布以来,所有 VR 品牌,如三星的 Gear, 字节的 Pico, Valve 的 Index, 索尼的 Playstation VR, HTC 的 Vive 等,累计出货量不到 4500 万台。由于 VR 设备目前最广泛的用途仍然是游戏,在 Vision Pro 发布之前,人们愿意偶尔使用的 AR 设备并没有出现,根据 SteamVR 的数据,可较为粗略地推断,VR 设备的月活跃用户可能仅有小几百万。
XR 设备为什么得不到普及?无数创业公司的失败经验和投资机构的总结可以给出一些答案:
视觉上,VR 设备由于视角更广,离眼球更近,即使是最顶尖的设备,屏幕上的像素点仍然难以忽视。单眼 4 k, 也就是双眼 8 k 的分辨率才能充分沉浸。此外,刷新率也是维持视觉体验的核心要素。市面上普遍认为,为了达到防晕眩的效果,XR 设备需要每秒 120 HZ,甚至 240 HZ,来维持类似现实世界的体验。而刷新率,在同等的计算能力下,是需要与渲染水平平衡的要素:Fortnite 在 60 HZ 的刷新率下支持 4 k 清晰度,而在 120 HZ 的刷新率下则仅支持 1440 p 的清晰度。
因为跟视觉的直观相比,听觉短时间内显得似乎不值一提,大多数 VR 设备都没有在这个细节上下功夫。但想象一下在一个空间里里不管是左侧还是右侧的人,说话的声音都稳定地从头顶传过来,会大幅削减沉浸感。而当 AR 空间里的数字 Avatar 被固定在客厅里,玩家从卧室走向客厅时听到 Avatar 说话的音量大小相同,也会微妙地降低空间的真实感。
交互上,传统的 VR 设备都配有控制手柄,更有如 HTC Vive 需要在家里安装摄像头以确认玩家的移动状态。虽然 Quest Pro 有眼动追踪,但延迟高、灵敏度一般,主要用于局部渲染加强,实际交互操作仍以手柄为主。同时,Oculus 也在头显上安装了 4 – 12 个摄像头以确认用户所在的场景状态,达成一定程度上的手势交互体验(比如,在 VR 世界里用左手捡起一部虚拟手机,右手食指虚空点击确认开启游戏)。
重量上,让人体感舒适的设备质量应该在 400-700 g 之间(虽然相比正常 20 g 左右的眼镜,这仍然是庞然大物)。但为了达到上述清晰度、刷新频率、交互水平、与其渲染要求匹配的计算能力(芯片性能、大小和数量),和数小时的基础续航要求,XR 设备的重量是一个艰难的取舍过程。
综上,如果要实现 XR 成为下一代的手机,成为新一代大众硬件,需要分辨率 8 k 以上的设备,且刷新率大于 120 HZ 以避免用户感到眩晕。这个设备应该拥有十几枚摄像头, 4 小时甚至更长(只需要午饭/晚饭休息时取下)的续航能力,不发热或少发热,重量小于 500 g, 且价格低至 500 – 1000 美元。现在的技术实力,尽管相比上一波 15 – 19 年的 XR 热潮已经提升不少,但达到上述标准仍然具有难度。
但即便如此,如果用户开始体验现有的 MR(VR AR) 设备,会发现目前的体验虽然不算完美,也是 2 D 屏幕无法比拟的沉浸的体验。但这种体验仍有相当大的提升空间——拿 Oculus Quest 2 举例,大多数可以观看的 VR 视频都是 1440 p,甚至没有达到 Quest 2 4 K 的分辨率上限,刷新率也远不到 90 HZ。而现有的 VR 游戏,仅有相对拙劣的建模,且可供尝试的选择并不多。
Source: VRChat
因此,目前的局面是,当玩家选择 VR 游戏而不是非 VR 游戏,他们不仅是“选择了一款新游戏”,而且“放弃了与大部分朋友社交的体验”,这样的游戏场景往往是游戏性、沉浸体验远大于社交性。当然,你可能会提及 VR Chat,但如果深入挖掘会发现,其中 90% 的用户并非 VR 用户,而是在普通的屏幕前想体验以各种 Avatar 跟新朋友社交的玩家。因此,VR 软件中最受欢迎的游戏是《节奏光电》这样的音游也就不足为奇。
所以我们认为,Killer App 的出现,需要以下几个要素:
硬件性能和全方位细节的大幅提升。正如“硬件不 ready ”提到的,这并非「改进屏幕,改进芯片,改进扬声器…」之类的简单操作,而是芯片、配件、交互设计和操作系统的全方位配合结果——而这正是 Apple 的擅长:相比十几年前的 iPod 和 iPhone, Apple 已经以数十年的积累完成了多个设备操作系统的协同。
用户设备保有量的爆发前夜。正如上文对开发者和用户心态的剖析,这个“鸡生蛋还是蛋生鸡”的问题,Killer App 很难在 XR 设备 MAU 仅为小几百万的时候出现。在《塞尔达传说·荒野之息》的巅峰时刻,游戏卡带在美国的销量甚至比 Switch 的保有量还高——这是“新生硬件如何进入 mass adoption 的绝佳案例。为了体验 XR 而购买设备的人,会因为有限的体验内容而逐渐失望,谈论着自己的头显是如何落灰;但因为塞尔达而被吸引的玩家,很大部分会因为探索到更多 Switch 生态内的其它游戏而留下。
Source: The Verge
以及,统一的操作习惯,和较为稳定的设备更新兼容性。前者很好理解——有手柄和无手柄,带来的是两种用户与机器交互的行为习惯和体验,而这正是 Apple Vision Pro 和市面上其它 VR 设备的区分。而后者,则可以在 Oculus 硬件的迭代中看到例证——同一世代内硬件性能的大提升反而会限制用户体验。2022 年发售的 Meta Quest Pro 相比 2020 年发售的 Oculus Quest 2 (又名 Meta Quest 2)在硬件性能上有大幅提升:Quest Pro 的分辨率从 Quest 2 的 4 K 显示屏提升到了 5.25 K,色彩对比度提升了 75% ,刷新率从原有的 90 HZ 提升到了 120 HZ 。在 Quest 2 的 4 个用于理解 VR 外部环境的摄像头之外,增加了 8 个外部摄像头,让黑白的环境影像变成了彩色,并显着改善了手部追踪,同时还增加了面部和眼部追踪。同时,Quest Pro 还使用了“注视点渲染”,将算力集中在眼球注视的地方并弱化其他部分的保真度,从而节省算力和耗电量。正如上述所言,Quest Pro 的功能比 Quest 2 强大得多,但使用 Quest Pro 的用户可能不到 Quest 2 的 5% 。这意味着,开发者将同时针对两种设备开发游戏——这会大大限制对 Quest Pro 优势的利用,也反向降低了 Quest Pro 对用户的吸引力。History Rhymes, 同样的故事也曾在游戏主机一次一次地发生,这也是主机厂商以 6-8 年为一个世代进行软硬件更新的原因,买了 Switch 初代的用户并不会担心后续 Switch OLED 等硬件带来新推出游戏软件的不兼容,但购买 Wii 系列的用户则无法游玩 Switch 生态的游戏。对针对主机游戏的软件开发商而言,他们生产的游戏并非针对手机这种用户基数极大(3.5 亿 vs. 数十亿)、用户依赖性极强(在家空闲消遣 vs. 全天候携带)的产品,需要数个开发周期内稳定的硬件体验避免用户的过度分流,或者,就只能如现在的 VR 软件开发商一样,向下兼容以保证足够的用户基数。
那么,Vision Pro 能够解决上述问题吗?又会给行业带来怎样的转变?
视觉上,Vision Pro 使用了两块 4 K 的屏幕,使用了合计约 6 K 的像素,是目前 MR 设备的次顶配。刷新率可支持高达 96 HZ,并支持 HDR 视频播放,据体验的科技博主描述,不仅清晰度很高,几乎完全感觉不到眩晕。
听觉上,Apple 自 2020 年开始在 Airpods 上使用空间音频,可以让用户听到来自不同方向的声音,以达成音频体验的立体效果。但 Vision Pro 有望更进一步,利用“音频射线技术”,充分融合设备中 LiDAR 扫描,对房间内声学特性(物理材质等)进行分析,然后打造出匹配房间、具有方向和深度的“空间音频效果”。
交互上,无需任何手柄的手势和眼球追踪,让交互体验丝滑到了极致(根据科技媒体的实测体验,几乎无法感觉到延迟,这不仅是传感器精度和计算速度,而且引入了对眼球路径的预判。将在下文进一步介绍。)
续航上,Vision Pro 的续航为 2 h, 和 Meta Quest Pro 基本持平(并不算惊艳,也是目前 Vision Pro 受到诟病的点。但由于 Vision Pro 是外接电源,加上头显中放了一个 5000 mA 的小电池,可以猜测给更换电源接力续航留有余地)。
重量上,据科技媒体的体验,大约为 1 磅(454 g),与 Pico 和 Oculus Quest 2 基本持平,应该比 Meta Quest Pro 要轻,在 MR 设备里算是不错的体验(虽然这并没有算上拴在腰部电源的重量)。但相对 80 g 左右的纯 AR 眼镜(如 Nreal, Rokid 等),仍然沉重闷热。当然,纯 AR 眼镜大多需要与其它设备连接,仅能作为拓展屏幕使用,相比之下,自带芯片、有真实沉浸体验的 MR 可能是一种截然不同的体验。
此外,硬件性能上,Vision Pro 不仅搭载了目前性能最为顶尖的 M 2 系列芯片用于系统和程序运作,而且还加了一个特别为 MR 屏幕、周遭环境监控、眼球和手势监控等开发的 R 1 芯片,用于 MR 专有的显示、交互功能。
软件上,Apple 不仅可以凭借其数百万开发者生态完成一定程度的迁移,而且实际上已经凭借 AR Kit 的发布早已有了一系列生态布局:
早在 2017 年,Apple 就发布了 AR Kit: 一套与 iOS 设备兼容的虚拟现实开发框架,允许开发人员创建增强现实应用程序并利用 iOS 设备的硬件和软件功能。VR Kit 可以通过使用 iOS 设备上的摄像头创建该区域的地图,使用 CoreMotion 数据检测桌面、地板和设备在物理空间中的位置等事物来实现数字资产在摄像头下与现实世界进行互动——比如,你可以在 Pokemon Go 里看到埋在土里、停在树上的宝可梦,而不是大剌剌地显示在屏幕上随摄像头而移动。用户无需对此进行任何校准——这是无缝的 AR 体验。
https://pokemongohub.net/
2017 年,AR Kit 发布, 能够自动检测位置、拓扑和用户的面部表情,进行建模和表情捕捉。
2018 年,AR Kit 2 发布,带来了更好的 CoreMotion 体验,多人 AR 游戏、跟踪 2 D 图像以及检测已知的 3 D 物体(如雕塑、玩具和家具)成为可能。
2019 年,AR Kit 3 发布,添加了进一步增强现实的功能,可以使用 People Occlusion 在人的前面或后面显示 AR 内容,它最多可以跟踪三张脸。还可以支持协作会话,实现全新的 AR 共享游戏体验。运动捕捉可用于了解身体位置和运动,跟踪关节和骨骼,从而实现涉及人而不仅仅是物体的新 AR 体验。
2020 年,AR Kit 4 发布,可以利用 2020 款 iPhone 和 iPad 上内置的 LiDAR 传感器以改进跟踪和对象检测。ARKit 4 还添加了 Location Anchors,使用 Apple Maps 数据将增强现实体验放置在特定的地理坐标上。
2021 年,AR Kit 5 发布,开发者可以构建自定义着色器、程序网格生成、对象捕获和进行角色控制。此外,还可以使用内置 API 以及 iOS 15 设备中的 LiDAR 和摄像头捕获对象。开发者可以扫描一个对象并立即将其转换为 USDZ 文件,该文件可以导入 Xcode 并在您的 ARKit 场景或应用程序中用作 3 D 模型。这大大提升了 3 D 模型的制作效率。
2022 年,AR Kit 6 发布,新版 ARKit 包含了“MotionCapture”功能,可追踪视频帧中的人物,并为开发者提供了可预估人类头部和四肢位置的角色“骨架”,从而支持开发者创建应用程序,进而将 AR 内容叠加至角色,或隐藏于角色身后,以更真实与场景融为一体。
回顾 AR Kit 从七年前就已经开始的布局,可以看出,Apple 在 AR 方面的技术积累并非一朝一夕,而是潜移默化地先将 AR 体验融入已经广泛传播的设备中,Vision Pro 发布之时,Apple 已经完成了一定的内容和开发者积累。同时,由于 AR Kit 开发的兼容性,开发出来的产品不仅是面向 Vision Pro 的用户,也能在一定程度上适应 iPhone 和 iPad 的用户。开发者可能不需要受限于 300 万月活跃用户的天花板来开发产品,而是潜在地面向数亿 iPhone 和 iPad 用户进行测试和体验。
此外,Vision Pro 的 3 D 视频拍摄也部分解决了如今 MR 内容有限的难题:内容生产。现有的 VR 视频大多是 1440 p,在 MR 头显的环形屏幕体验里显得像素很差,而 Vision Pro 的拍摄则兼具高像素的空间视频和不错的空间音频体验,或将大幅提升 MR 的内容消费体验。
尽管上述配置已经相当震撼,苹果 MR 的想象力并不止步于此:Apple MR 发布的当天,一位自称曾参与过 Apple 神经科学方面的开发者 @sterlingcrispin 如此说道:
Generally as a whole, a lot of the work I did involved detecting the mental state of users based on data from their body and brain when they were in immersive experiences.
总的来说,我从事的许多工作都涉及通过用户在沉浸式体验中的身体和大脑数据来检测其心理状态。
So, a user is in a mixed reality or virtual reality experience, and AI models are trying to predict if you are feeling curious, mind wandering, scared, paying attention, remembering a past experience, or some other cognitive state. And these may be inferred through measurements like eye tracking, electrical activity in the brain, heart beats and rhythms, muscle activity, blood density in the brain, blood pressure, skin conductance etc.
用户处于混合现实或虚拟现实体验中,AI 模型试图预测他们是否感到好奇、心不在焉、害怕、专注、记忆过去的经历或其他认知状态。这些状态可以通过眼动追踪、脑电活动、心跳和节律、肌肉活动、脑部血液密度、血压、皮肤电导等测量得出。
There were a lot of tricks involved to make specific predictions possible, which the handful of patents I’m named on go into detail about. One of the coolest results involved predicting a user was going to click on something before they actually did. That was a ton of work and something I’m proud of. Your pupil reacts before you click in part because you expect something will happen after you click. So you can create biofeedback with a user’s brain by monitoring their eye behavior, and redesigning the UI in real time to create more of this anticipatory pupil response. It’s a crude brain computer interface via the eyes, but very cool. And I’d take that over invasive brain surgery any day.
为了实现特定的预测,我们使用了许多技巧,这些技巧在我名下的几项专利中都有详细介绍。其中最酷的结果之一是在用户实际点击之前预测到他们要点击某个目标。这是一项艰巨的工作,我为此感到自豪。你的瞳孔在你点击之前就会有反应,部分原因是你期望在点击之后会发生某些事情。因此,通过监测用户的眼动行为并实时重新设计用户界面,可以与用户的大脑进行生物反馈,从而创造更多的预期性瞳孔反应。这是一种通过眼睛进行的粗糙的脑-计算机界面,非常酷。相比侵入性的脑部手术,我更愿意选择这种方式。
Other tricks to infer cognitive state involved quickly flashing visuals or sounds to a user in ways they may not perceive, and then measuring their reaction to it.
其他推断认知状态的技巧包括以用户可能不察觉的方式快速闪烁视觉或声音,并测量他们对其的反应。
Another patent goes into details about using machine learning and signals from the body and brain to predict how focused, or relaxed you are, or how well you are learning. And then updating virtual environments to enhance those states. So, imagine an adaptive immersive environment that helps you learn, or work, or relax by changing what you’re seeing and hearing in the background.
另一项专利详细介绍了使用机器学习和来自身体和大脑的信号来预测你的注意力集中程度、放松程度或学习效果如何,并根据这些状态更新虚拟环境。因此,想象一下一个适应性的沉浸式环境,通过改变你在背景中看到和听到的内容来帮助你学习、工作或放松。
这些与神经科学高度相关的技术,可能将标志着机器和人类意志崭新的同步方式。
当然,Vision Pro 并非没有硬伤,比如其 $ 3499 的天价,是 Meta Quest Pro 的两倍有余,Oculus Quest 2 的七倍有余,对此,Runway 的 CEO Siqi Chen 如是说:
it might be useful to remember that in inflation adjusted dollars, the apple vision pro is priced at less than half the original 1984 macintosh at launch (over $ 7 K in today’s dollars)
也许大家需要记得,根据通胀调整后的美元价格,Apple Vision Pro 的定价不到 1984 年 Macintosh 推出时的一半(相当于今天超过 7000 美元)。
在这样的类比下,Apple Vision Pro 的定价看上去并不算过于离谱……但是,Macintosh 第一代的销量仅 37.2 万台,很难想象在 MR 上下大功夫的 Apple 能接受类似的尴尬处境——几年内的现实可能并不会有大的改变,AR 不一定需要眼镜,短期内 Vision Pro 也难以大量普及,很可能仅作为开发者体验和测试的工具,创作者的生产工具,和数码发烧友昂贵的玩具。
Source: Google Trend
尽管如此,我们可以看到,Apple 的 MR 设备已经开始搅动市场的风云,将普通用户对数码产品的吸引力重新转移到 MR 上,让大众意识到 MR 已经是较为成熟、不再是 ppt / 演示视频类产品。让用户意识到,在平板、电视、手机之外,还有一个头戴沉浸式显示器的选择;让开发者意识到,MR 可能真正成为了下一代硬件的新趋势;让 VC 意识到,这可能是一个有极高天花板的投资领域。
RNDR 背后的项目是 Render Network, 一个利用去中心化网络实现分布式渲染的协议。Render Network 背后的公司 OTOY.Inc 成立于 2009 年,其渲染软件 OctaneRender 针对 GPU 渲染进行了优化。对普通创作者而言,本地进行渲染对机器的占用较高,这就产生了云渲染的需求,但如果租用 AWS,Azure 等厂商的服务器用于渲染,可能成本也会较高——