过去一年,我们见证了数字科技的加速度。每个人都身处变革巨浪之中,既对大模型的突破进展无比兴奋,也对未来充满了无限憧憬。

 
新年伊始,眺望未来2-3年的科技趋势。我们正驶向一个由连接衍生交互、由计算催生智能的时代。
 
高性能计算、量子计算、云计算和边缘计算这"四大计算“融汇贯通,正催生全新的计算范式。
 
通用人工智能渐行渐近,大模型走向多模态,AI智能体可能成为下一代平台, "AI科学家"有望加速问世。全球已达共识,AI治理将引领我们踏上更智慧、更安全的未来。
 
机器人演进加速,灵巧手让人形机器人更敏捷、更像人。AI与生命科学的交融,将帮助我们洞察更多的生命奥秘。
 
我们会进入一个3D、全真在场的新世界。脑机接口不仅在医疗实现突破,正拓展至更多的互动场景。或许不久的将来,我们将亲自见证意识上载从科幻成为现实。
 
手机卫星电话、垂直起降飞机将改变我们的应急方式和出行模式。交通网、信息网、能源网的融合,将推动智能、绿色的能源变革。
   
未来已来,一个充满韧性和重塑的全新时代即将揭开序幕。让我们拥抱变革,共同谱写人类与科技和谐共生的新篇章!
 

专家推荐:

 

在这个日新月异的变革时代,我们有幸见证并参与了数字科技的创新突破。特别是近年来,以大模型为代表的AI技术,让我们看到了通用人工智能的曙光,有望大幅加速技术演进的步伐。

 

腾讯的2024数字科技趋势,从连接、交互、计算和智能四个维度,对100多项未来技术和重点方向给出了趋势性判断。从星地直连的卫星互联网,到垂直起降飞机的未来交通网,再到能源、信息和交通的多网协同,未来网络连接的广度和深度都迎来无限可能。交互方式正在发生变革,数字交互引擎不仅让虚拟世界更真实,也让真实世界更丰富,未来的全新3D视界呼之欲出,脑机接口的新进展也带来了更大的想象空间。计算无疑是各类智能的底层基础支撑,也成为当前竞争的焦点领域。而智能的升级,不仅会给机器人注入具身智能,还给微观世界的基因计算带来新突破。

 

预测未来的最好方式,就是创造未来。相信在行业各界的共同努力下,这些前瞻洞见会更快到来,从趋势变成现实。

 

——丁汉 

中国科学院院士

 

去年以来,以生成式AI为代表的人工智能技术发展激荡人心,正在引发智能的元革命。可以遇见的未来,智力将会成为一种基础设施服务,新的IaaS呼之欲出。类比摩尔定律,未来可能会出现新的智能定律,对信息世界、物理世界和生命世界带来全方位的影响。

 

未来十年,AI会无所不在。首先,现有的各类应用可以用AI重新做一遍,新的交互变革、体验创新将会带来更新的智能硬件、更多的智能服务,孕育出比历次工业革命都巨大的产业机会。其次,AI会成为各领域的底层操作系统,AI+机器人的具身智能,AI+生命科学的基因计算,AI+未来出行的自动驾驶汽车和垂直起降飞机,甚至AI+脑机接口的硅基和碳基结合的新生命体,都会一步步成为现实。最后,AI能力的提升也伴随着风险的扩大,我们要充分发挥技术发明的智慧和把握应用方向的智慧,让AI科技更善良、更有创意,朝着强化人、成就人的方向可持续发展。

 

——张亚勤 

中国工程院院士、清华大学智能产业研究院(AIR)院长

  
图片
重塑计算

 

趋势一:高性能计算的“四算聚变”

  

算力,是数字时代的核心生产力。高性能计算,是先进算力的代表,它既包含了以高性能计算集群为代表的传统计算体系,也包含了像量子计算一样的未来计算硬件和软件。高性能计算在气象预测、地质勘探、新药研发、新材料研发、人工智能等众多应用领域发挥至关重要的价值,高性能计算技术的演进,引领着整个计算机科学技术的未来走向,甚至可能引发划时代的科技飞跃,值得产业和社会持续关注。
 
今年,全球迎来高性能计算设施的大规模新建潮和升级潮,以 CPU 为计算核心的高性能计算1.0时代正在快速远去,以 CPU+GPU 为计算核心的高性能计算2.0已全面到来。
 
未来几年,高性能计算技术将呈现四个方面的发展趋势:系统架构方面,高算集群、量子计算、云计算和边缘计算的“四算融合”也将成为高性能计算 3.0 演进的新方向;关键硬件方面,计算芯片将迎来多元化发展;软件应用方面,云原生技术将带来高算服务的普及,同时科学计算模拟应用将大量增加;可持续计算方面,业界将更多的关注计算的效能,并加速高能效计算技术的研发与探索。

 

一、高算集群、量子计算、云计算和边缘计算“四算”融合,衍生新技术路径

 

云超同化。一方面,Web 服务、容器化等云原生技术正在快速应用于传统高性能计算集群,使算力服务更易触达:芬兰 LUMI 集群已开始引入容器技术提高算力调度和应用搭建效率,并对外提供算力服务;IBM 也于年初发布了其首台云原生高算集群 Vela;另一方面,不仅更多云服务商推出了高性能计算云服务,以谷歌为代表的头部企业更进一步利用云计算天然的分布式计算优势,推出“算力多切片训练”方案,打造超出常规算力集群性能的超大规模AI 训练案例。
 
量超融合。高性能计算集群与量子计算机的融合已经成为行业共识,量子计算单元(QPU)正在逐渐成为新的专用计算加速模块。要全面实现以CPU+GPU+QPU为计算核心的高性能计算 3.0 ,大致要经历三个阶段:第一阶段,高算集群和量子计算的网络互联;第二阶段,互联的高算集群与量子计算机可以通过专用的操作系统实现算力协同调度;第三阶段,高算集群和量子计算之间实现从底层硬件到上层应用的深度系统集成,并能充分发挥各自的算力优势,共同完成复杂的计算任务。如IBM 、芬兰 VTT 技术研究中心、本源量子等国内外的相关机构和企业已经开始相关研发工作并陆续发布了进展,并对外提供访问服务。
 
量子集群出现、云服务普及。量子计算领先企业IBM于 2023 年 12 月公布全球首个可扩展量子计算系统Quantum System Two,引入模块化架构和计算机集群设计,可让系统容纳 10000 个量子比特。模块化量子计算集群的出现,预示着可复制性更强、扩展性更好的量子计算机发展新路径;同时,全球已有超过 20 家机构推出量子计算云服务,从整机公司如 IBM,发展到云服务商如亚马逊云,再到科研院所如北京量子院。
 
高性能计算走向云边协同。目前高性能边缘计算(HPEC)还在成长中,其单点算力已可达千万亿次每秒,自动驾驶和机器人是典型应用场景。除传统计算平台外,神经形态芯片、光电计算芯片等新技术的成熟也在不断提升边缘算力和能效。而为获得实时决策以及更高的信息安全环境,将部分数据处理、模型训练以及推理等工作,从数据中心/云平台迁移至云边协同架构下,是必要的技术路径。

 

二、高性能芯片多元发展,QPU 发展由数量转向质量

 

芯片技术多元化发展加剧。首先包括微软、 Meta 在内的科技企业纷纷推出自研高性能 CPU 和 AI 加速芯片,其次,除了传统的 x86 架构以外,其他芯片架构的芯片也加入到高性能计算领域,并由落地应用:位于葡萄牙的集群 Deucalion 将采用与日本富岳集群相同的 ARM 架构高性能芯片 A64FX;算能科技日前向山东大学交付国内首台RISC-V服务器集群,该集群拥有48颗RISC-V高性能芯片SG042。
 
存算一体,突破“内存墙”。传统芯片均采用冯诺依曼计算架构,改架构的“内存墙”问题随着算力的不断提升而越发明显,逐渐成为芯片性能进一步突破的瓶颈。业界纷纷采用存算一体技术思路,提升现有芯片性能的同时,研发神经形态计算芯片,探索“破墙”之路。Intel 、 AMD 和英伟达纷纷在各自最新的芯片产品中引入 HBM 和 LPDDR 等近存计算(Near-Memory Computing)技术;而神经形态计算(Neuromophic Computing)被认为是“后冯诺依曼时代”突破“内存墙”的重要计算技术路径。受人类大脑原理的启发,神经形态计算芯片通过存内计算(Compute in Memory)方式,实现高算力的同时实现超低功耗。
 
量子比特制备路径之争将更激烈。量子比特的制备,是量子计算机研制的起点。今年,超导量子、光量子、离子阱、冷原子等多条量子比特制备路径均有不错的进展,“谁才是未来量子计算最终的技术路线”之争将更加激烈。
 
QPU 发展数量与质量兼顾。虽然 IBM 发布1000+量子比特QPU, Atom Computing 宣称创造 1000 +原子阵列,但IBM 最新发布的芯片互联技术,以及哈佛大学和QuEra等联合发布的逻辑量子比特制备和纠错研究成果等,说明了QPU的发展,仍然处在追求比特数量和,以及关注诸如纠错能力、可扩展性等更符合实用需要的技术。
 

三、云原生技术将释放高性能算力潜能,科学计算模拟应用大量增加

 

云原生技术加快普及。从国内外云服务商发布的进展来看,云平台容器服务将加快对高性能计算服务的支持,并进一步兼容CUDA、 ROCm 、 oneAPI 等并行计算软件平台,为用户提供高度自动化的高性能计算工作环境,大大提高研发和实验效率。高性能计算算力潜能将被进一步被释放。
 
科学计算模拟应用和成就将迎来大爆发。一方面,全球高性能计算集群的大规模新建和升级、以及云原生技术应用,使算力服务更充足并更易触达;另一方面,科学计算模拟的需求将更加强烈,未来几年将会有更多的科学计算模拟基于高性能计算服务开展:从微观粒子模拟、到血流和癌细胞模拟、再到核聚变模拟、以及气象和地理空间模拟等等。进一步,科学计算与人工智能技术的结合,将比预计的要快,许多传统模拟数值算法经 AI 优化后,性能获得大幅提升,科学家和科研团队的生产力将迅速提高,科学研究将迎来快速进步的新形势。
 
更多高性能计算集群尝试人工智能大模型研发。传统高算集群通过加装 GPU 集群、结合云平台高性能计算服务得到升级后,将具备更强的 AI 加速计算能力,进而可以支持人工智能大语言模型的训练。比如:智谱 AI 的 ChatGLM3支持在神威高算上运行;美国阿贡国家实验室开始基于 Aurora集群创建ScienceGPT,预计参数数量达到 1 万亿,将为广泛的科学研究提供帮助。
 

四、业界将加大可持续高性能计算的践行力度

 

高性能计算的能耗是惊人的。以TOP500 排名第一的Frontier 高算集群为例,其算力可达 1.6EFlop/s,功率可达 20 兆瓦,相当于近 1万户家庭用电水平。据统计,数据中心的耗电量约占全球耗电量的1%,我国 2020 年占比是2.7%。虽然当前尚无准确的数据中心能耗预测,但急剧增加的人工智能大模型训练等高耗能计算应用,势必会使这个数字继续增加。
 
可持续计算,是数字经济和双碳目标背景下,高性能计算技术演进历程中的路标和灯塔。拥有可持续高性能计算的技术,也将成为重要的竞争力。世界经济论坛与今年发布的《2023 十大新兴技术》报告,“可持续计算”位列其中。Intel、IBM、英伟达等先进计算企业也在不遗余力的践行和推动可持续计算。
 
可持续计算通常指在设计、建造和使用计算机技术(包括硬件、系统、软件)的过程中,力求实现最大的能源效率和对环境影响的最小化。未来,计算能效将成为评估高性能计算技术先进性的重要指标,而提高计算能效的途径主要有三个:更高能效的计算软硬件、更先进的冷却技术、以及更合理的计算供需匹配。
 
高能效的计算软硬件方面,存算一体将是硬件层面主要的技术发展路径,而机器学习等人工智能技术与传统科学计算的结合,将大大提升计算效率和精度,并从软件层面大幅度节省计算资源。
 
冷却技术方面,液冷技术,特别是浸没式液冷技术将加快普及,并带来 30%以上的耗能节约。
 
合理的算力供需匹配方面,计算能效将成为高性能算力更重要的技术参数,而“量子效能”也将成为未来量子计算机研发和应用的重要评估指标。
 
图片
智能升维

 

趋势二:多模态智能体加速AGI进程

 

刚刚过去的一年,注定是人工智能发展史上具有里程碑意义的大年。生成式人工智能的惊人进步,让我们深切感受到未来AGI的巨大潜力和无限前景。
 
大模型从理解到生成,从感知到决策,能力不断升。加上多模态、Agent、以及具身智能等方向的探索,AI有望完成“感知—决策—行动”的闭环。

 

一、多模态解析世界的本来面貌,并实现“三生万物”

 

多模态是人类世界的本来样貌,AGI的发展趋势一定是朝向多模态。技术将从文本、图像、视频(2D和3D),再到声、光、电,甚至分子、原子等各类模态,而且具备跨模态迁移的特性。未来理想的框架是“多模态的对齐和融合 + 统一的编码器和解码器”。12月6日微软发布的Copilot中,将GPT-4V的视觉能力与Bing搜索相结合,为用户提供更好的图像理解和生成体验。7日,谷歌发布Gemini,主打原生大模型,无缝跨文本、图像、视频、音频和代码。谷歌称,Gemini是第一个在MMLU(大规模多任务语言理解)方面优于人类专家的模型,准确率达到90%(人类专家为89.8%)。
 

二、从大脑到Agent,大模型从CoPilot副驾,走向主驾驶

 

比尔盖茨近日撰文:AI Agent将是下一个平台,人工智能即将彻底改变人们使用计算机的方式并颠覆软件行业。在不久的将来,任何上网的人都将能够拥有由人工智能驱动的个人助手,远超今天的技术水平。智能体由四个主要部分组成,包括多模态大模型(LMM)、长期记忆(Memory)、规划(Planning)和工具使用(Tool Use)。业界AI智能体愈来愈多,如微软AutoGen,发布短短两周内,星标量就从390增到10K,并在 Discord上吸引了5000多名成员。它允许多个智能体扮演各种角色,如程序员、设计师,或是各种角色的组合,仅通过对话就可以完成编程任务。

 

三、端侧大模型加速部署,或将成为未来交互新入口

 

大模型正在向端侧转移,AI推理将在手机、PC、耳机、音箱、XR、汽车,以及其它可穿戴式新型终端上运行。端侧大模型具有一些独特优势,如,本地数据处理效率更高,节省云端服务器带宽和算力成本,对用户数据更好的隐私保护,开启更多交互新方式、新体验等。
 
目前,一些手机已经在利用本地 AI支持如暗光拍摄、降噪和人脸解锁等功能。未来借助端侧大模型,并结合向量化后的各类个人数据,用户可以跟手机进行更流畅的交互,实现各种原生操作和功能。如,Humane 正式推出 AI Pin,搭载GPT4,可实现语音交互,也可以投影在手掌上交互。高通推出骁龙8 Gen3 ,支持终端侧运行100亿参数的模型。苹果最新的M3芯片支持端侧推理,且计划推出更智能的Siri,为端侧大模型生态做积极准备。
 
端侧大模型应用具备三种可能性,首先是端侧原生集成AI模型,类似siri,帮助用户调用其他软件,从而可能成为硬件新入口。其次,将大模型作为独立app,例如MIT一位教授将开源模型集成在手机端做一个独立app;第三,将大模型接入即时通讯软件作为chatbot,例如What‘s App已经集成了Meta AI。

 

四、AI助力科研探索,贯穿科研全过程

 

在AI技术的加持下,科学研究的效率大大增加。通过理论探索、设计实验、分析数据等方向为科学发现提供动力。AI与各个科学领域结合后,正在发生一场充满潜力和挑战的科技革命。
 
在理论探索阶段,以ChatPDF为代表的LLM应用可以对既有文献的梳理,加快科研信息检索的效率,在此基础上提出新的研究问题,对现象和数据观察提出某种猜想,帮助科学家发现新问题。
 
在数据分析阶段,AI可以通过大量数据和复杂的数据分析,帮助提取有用信息和填补数据缺失,从而提高数据质量和利用效率。降低对数据的依赖。在处理高度复杂和多变量的科学问题时,大模型能提供高效的计算能力和深入的洞见。
 
在科研领域,生成式AI被用于预测基因序列、发现新的药物靶点以及设计新型的生物材料。使用深度学习技术,研究人员能够预测DNA和RNA结合蛋白的序列特异性。这是应用卷积神经网络(CNN)于基因组学的先驱性工作之一。如,麻省理工学院(MIT)的研究人员开发出一种扩散模型——FrameDiff,该模型能够生成自然界中不存在的新型蛋白质结构。该模型可以生成多达500 个氨基酸序列的蛋白质主链,且无需依赖于预训练蛋白质结构预测网络。Nature杂志近日报道,一个由AI 指导机器人制造新材料的实验室A-Lab,只用了 17 天就独自创造了 41 种新材料,展现了AI科学家的未来潜能。

 

五、负责任AI走向深入,价值对齐助力大模型稳健发展

 

随着AI模型的能力日益更加强大,如何让其行为和目的跟人类的价值、偏好、伦理原则、真实意图之间实现协调一致,这个被称为人机价值对齐的问题变得越来越重要。价值对齐对于确保人类与人工智能协作过程中的信任与安全至关重要,已经成为AI治理领域的一项关键任务,是大模型实现稳健发展和提升竞争力的必由之路。业界和研究界积极探索实现大模型价值对齐的多种措施,包括人类反馈强化学习、可扩展监督方法、训练数据干预、可解释AI方法、对抗测试、治理措施等等。
 
TIME杂志将美国AI公司anthropic开发的AI价值对齐技术“原则型AI”(constitutional AI)评选为2023年三大AI创新之一(另外两个分别为多模态AI、文生视频技术),这足以表明价值对齐已然成为AI领域的核心方向,其重要性正越来越被认识到。实际上,在大模型加速发展引发关于有效加速(e/acc)还是有效对齐(e/a)的AI技术发展理念之争的背景下,人们需要更加负责任地发展应用人工智能技术,而关于价值对齐的技术和治理探索将推动负责任AI走向深入,确保人类与人工智能和谐共生、有效协作的美好未来。

 

趋势三:AI加速人形机器人“手、脑”进化

 

2023年10月20日,工信部印发《人形机器人创新发展指导意见》,提出人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将变革人类生产生活方式,重塑全球产业发展格局。特别是在关键技术突破方面,打造人形机器人“大脑”和“小脑”、突破“肢体”关键技术、健全技术创新体系。
 
《意见》还提出,到2025年,人形机器人创新体系初步建立,“大脑、小脑、肢体”等一批关键技术取得突破,确保核心部组件安全有效供给。整机产品达到国际先进水平,并实现批量生产,在特种、制造、民生服务等场景得到示范应用,探索形成有效的治理机制和手段。
 
当前,人形机器人技术加速演进,已成为科技竞争的新高地、未来产业的新赛道、经济发展的新引擎,发展潜力大、应用前景广。特别是在2023年以来,基于视觉-语言的大模型嵌入机器人本体,又为加速思考(“感知脑”)和执行(“灵巧手”)突破,推动机器人迈向智能化带来新的可能。
 
2023年是人形机器人的“高光之年”,这一领域发生了一系列大事。7月,李飞飞团队发布最新成果VoxPoser具身智能技术,可以使机器人直接听懂人类的自然语言指令并完成复杂任务,无需额外的数据和训练。人形机器人Optimus快速迭代,商业化进程持续推进。特斯拉擎天柱的力控能力、抓取复杂物体的能力、利用FSD技术的视觉感知和处理能力。OpenAI投资了人形机器人公司1X,英伟达CEO黄仁勋也公开唱多“具身智能”。微软基于ChatGPT 自然语言理解和推理能力,生成控制机器人的相关代码。
 
根据Markets and Markets的预测,人形机器人市场规模有望从2023年的18亿美元增长到2028年的138亿美元,其复合年增长率可达50.2%。而高盛预测在最理想的情景下(产品设计、用例、技术、可负担性和公共接受度等障碍被克服),2035年人形机器人市场或将达到1540亿美元。
 
在人形机器人领域,有三个值得关注的趋势:1.在思考能力层面,大模型的嵌入极大提升机器人感知环境、分解任务、规划流程以及与环境交互的能力;2.在训练平台方面,云边结合的分布式计算平台发展,强化了机器人的训练和分析决策速率;3.在执行层面,以“灵巧手”为代表的关键技术,进一步强化了人形机器人末端执行应用能力,尤其是微操作等能力。
 
一、大模型在文本、自然语言和视觉领域取得重要突破,提升机器人的理解能力。
 
在ITF World 2023大会上,英伟达创始人黄仁勋公开表示,人工智能的下一次浪潮将是具身智能,即能理解、推理以及与真实物理世界互动的智能系统。
 
在Chatgpt出现之前,大模型与具身智能领域的结合更多出现在感知层面,在海量数据集上预训练的视觉模型,只是作为一种更好的表征提取器来提升机器人在场景中的感知能力,而具体的规划与动作执行,依然需要大量的具身场景数据进行训练。AI大模型,以及后续的多模态,可以从语音、视觉感知、决策、控制等多方面为机器人更好进行学习训练和进化。
 
过往机器人的控制模式是预设轨迹,导致机器人的控制与行动比较受局限。李飞飞团队在2023年发布的VoxPoser系统,实现将LLM(大语言模型)和VLM(视觉语言模型)接入机器人,前者用来理解人类指令并生成交互代码,实现与后者的交互,而VLM进行规划路径,生成操作指示地图3D Value Map。两者能力结合从而实现通过自然语言指令与机器人交互,可将复杂指令转化为具体行动规划,而无需预设数据和提前训练,同时,系统也具备很强的抗干扰能力,可以在遇到干扰因素时快速重新规划。除此之外,VoxPoser还产生了四方面的涌现能力,即评估物理特性、行为常识推理、精度矫正、基于视觉的多步操作。
 
PaLM-E和RT-2有两个有代表性的模型。前者是年初谷歌公司与柏林工业大学人工智能研究小组合作推出的多模态具像化视觉语言模型(VLM)。模型参数规模达到5620亿,集成用于控制机器人的视觉与语言,特征是无需重新训练即可执行各种任务。收到指令后,PaLM-E可以自动给机器人生成行动计划,然后自行执行。这是通过分析来自机器人摄像头的数据来实现整个过程,不需要对场景进行预处理,也不许提前对数据进行人工注释,机器人的控制更加自主。
 
Robotics Transformer 2(RT-2)是由Google DeepMind突出的一个用于控制机器人的视觉-语言-动作(VLA)的AI模型。RT-2使用经过精调的LLM来输出运动控制命令,可移植性训练数据中未明确包含的任务,并在新出现技能评估中将基线模型的表现提升了3倍。
 
二、云边结合的分布式算力平台发展强化了机器人的训练速率,降低产业化门槛。
 
机器人是 AI、算力、IoT、底层硬件等各种技术的集大成者。从关键场景垂直应用,向规模化应用发展。通过云-边-端融合的机器人系统和架构,例如云端运行超大模型Nvidia A100 GPU,边缘运行小模型。让机器人达到数百万千万级水平,从而降低价格成本,实现大规模商用。
 
云服务机器人是指将机器人的核心计算和智能部分部署在云端服务器,借助云计算技术提供更大的计算能力和资源,以实现更强大、更高效的数据处理和应用。“云端大脑+本地机体”或“云端服务”机器人将成为规模化推广与应用的重要模式之一。
 
Google 专门开发协议,将模型部署在多TPU 云服务实现实时推理。实验结果表明,基于现成的VLM 模型PaLM-E 和PaLI-X,RT-2 取得了良好的泛化和涌现性能。相比于独立的机器人本体,连接云端大脑后的机器人拥有以下四个核心优势:信息和知识共享,平衡计算负载,协同合作,独立于本体持续升级。边缘计算的引入将解决终端能力受限和云计算的实时响应的问题,增强机器人云端大脑的实时响应能力。在共享计算、存储、通信资源基础上,智能算法持续从(云端)大数据和(本地端)个性化数据中抽取知识,逐步从特定场景适应到通用场景,最终实现机器人即服务(Robot As A Service)的长期愿景。
 
特斯拉计划利用Dojo对海量的视频数据进行无监督学习,以加速特斯拉的Autopilot和完全自动驾驶(FSD)系统的迭代,同时为特斯拉的人形机器人Optimus提供算力支持。Dojo将加速人形机器人的开发,其能够为机器人的神经网络训练提供算力支持,更快速地处理海量数据,有望推动机器人加速落地。
 
腾讯Robotics X机器人实验室通过引入预训练模型和强化学习技术,可以让机器狗分阶段进行学习,有效的将不同阶段的技能、知识积累并存储下来,让机器人在解决新的复杂任务时,不必重新学习,而是可以复用已经学会的姿态、环境感知、策略规划多个层面的知识,并“举一反三”。
 
三、多感知、多自由度功能融合的灵巧手强化了人形机器人的微操作能力。
 
灵巧手是人形机器人执行动作的最终零件,十分重要且复杂,对电机性能要求较高。灵巧手作为机器人实现操作的终端工具十分重要。空心杯电机、触觉感知传感器的发展,提升了人形机器人末端执行器的灵敏度和鲁棒性。
 
特斯拉人形机器人擎天柱灵巧手有6个执行器,可实现11个自由度,其中空心杯电机为核心部件。人形机器人的手指空间狭小,因而人形机器人手指关节需配备更多小型化且能够输出较大力的电机。属于直流永磁伺服电动机的空心杯电机完美契合人形机器人对应手指关节轻量化、高精度等需求。空心杯电机具有功率密度高、能量转化效率高、响应快,运行平稳等特点,与灵巧手的需求高度适配。
 
腾讯Robotics X实验室公布最新机器人研究进展,首次展示在灵巧操作领域的成果,推出自研机器人灵巧手 TRX-Hand和机械臂 TRX-Arm。其中,灵巧手TRX-Hand拥有像人手一样灵活的操作能力,可适应不同场景,灵活规划动作,自主完成“操作”。而机械臂TRX-Arm针对人居环境自主研发,拥有七自由度和拟人的特性,具有运动灵巧、爆发力强、触控一体以及柔顺安全等特点。

 

趋势四:AI+基因计算解读生命密码

 

基因是生命的最基本元素。基因计算是指使用计算方法来分析和理解基因信息的过程。近年来,人工智能(AI)在基因计算中的应用日益深入,市场研究公司Global Market Insights Inc.发布报告预测,到2032年,基因组学行业中的人工智能市场规模将达到125亿美元,复合年增长率为39.2%。AI与基因计算融合开始进入加速阶段,有望在生物育种、医疗健康、生物医药等领域开辟广阔的技术创新和产业应用前景。
 
AI已成为基因组学创新的关键驱动力。前基因组时代(1958-1980s),生物信息学作为生物学、计算机科学、数学和统计学交叉学科出现,人类专家初步探索将AI技术应用于基因数据分析,例如使用模式识别来预测蛋白质结构和功能、使用统计学习方法来理解基因表达数据。基因组时代(1990s-2010s),人类专家能够系统分析和比较整个物种的遗传信息,并利用AI进行基因组数据解析,辅助基因序列比对、变异检测、功能注释和复杂疾病的遗传关联分析,显著提高了数据分析的效率和准确性;后基因组时代(2010s-),研究重点转向基因功能的综合分析、基因表达调控、个体遗传差异分析等,深度学习、AI大模型成为关键驱动技术,用于处理复杂海量多模态数据,实现单细胞测序,优化基因编辑策略,促进智能化生物育种、药物发现以及个性化健康预测、基因疗法发展。
 
利用大模型破解复杂生物问题成为布局热点。2023年8月,清华大学智能产业研究院与水木分子发布多模态生物医药百亿参数大模型BioMedGPT,在数据层面整合了基因、分子、细胞、蛋白、文献、专利、知识库等多源异构的数据。9月,《上海市加快合成生物创新策源打造高端生物制造产业集群行动方案(2023—2025年)》中提出支持建设AI蛋白质多模态生成大模型等干湿结合AI生物大模型。谷歌旗下深度思维公司(Google DeepMind)也于9月宣布开发出新的AI大模型AlphaMissense,在人类蛋白质中成功预测了7100万个可能的错义突变(基因突变的一类),并将89%的突变分类为可能致病或可能良性;11月,深度思维再次宣布,AlphaFold预测范围从蛋白质结构扩展至DNA、RNA等生物分子。
 
AI+生物技术正在加速育种4.0时代到来。2023年中央一号文件要求“全面实施生物育种重大项目,加快玉米大豆生物育种产业化步伐”。中国科学院钱前院士指出,全球种业发展正迎来生物技术与信息技术融合的“生物技术+人工智能+大数据”智能化时代(即育种4.0时代, 1.0为农家育种时代、2.0为杂交育种时代、3.0为分子育种时代)。基因编辑方面,通过AI对于大量基因组数据的预测和分析,可以帮助提升特定基因位置添加、删除或替换DNA序列的操作精准度,增强作物抗病性、耐逆性、营养价值或产量,并减少传统转基因技术(将一个物种的基因转移到另一个物种中)带来的基因表达不稳定或不可预测风险。2023年4月,农业农村部发布《2023年农业用基因编辑生物安全证书(生产应用)批准清单》,舜丰生物获得首个植物基因编辑安全证书;此外,中国科学院遗传与发育生物学研究所将AI与基因编辑结合,开发的PrimeRoot系统在水稻和玉米中实现了长达11.1Kb的大片段DNA高效精准定点插入。表观合成方面,中国农业科学院生物技术研究所通过整合多组学数据,构建智能模型,预测并优化人工设计的合成表观回路,大幅度提升表观合成的精准度,并提出设计和创制智能作物(SMART Crop)的途径和路线图,为通过基因编辑之外的技术来培育聚合多种理想性状的作物新种质提供了新思路。
 
AI+基因计算将助力实现个性化健康预测。人类专家结合基因组信息和AI算法,构建高度精准的疾病预测模型,可以预测个体在未来发生特定健康问题的风险,从而实现早期干预。基因测序是理解遗传信息、研究基因功能、诊断遗传疾病、发展新治疗方法的基础,其目标是确定DNA分子中四种核苷酸(腺嘌呤A、胸腺嘧啶T、胞嘧啶C、鸟嘌呤G)确切顺序的过程。过去基因测序技术主要是对整个组织进行测序,包含成千上万个细胞。近年来,基因测序技术有了突破性进展,从多细胞/组织层级开始向单细胞层级进化。腾讯AI Lab研究提出单细胞注释模型scBERT,在单细胞测序领域首次引入大型语言模型BERT范式,将细胞中基因的表达信息转化成可被计算机理解、学习的“语言”,并对细胞进行精准标注,实现了高解释性、高泛化性、高稳定性的单细胞类型注释技术,能给细胞中的每个基因都印上专属“身份证”,可用于临床单细胞测序数据,并辅助医生描述准确的肿瘤微环境、检测出微量癌细胞,从而实现个性化治疗方案或者癌症早筛。同时,对疾病致病机制分析、耐药性、药物靶点发现、预后分析、免疫疗法设计等领域都具有极其重要的作用。
 
AI+基因工程促进分子药物设计和研发规则创新。AI技术在药物研发中,正在逐渐用于海量文献信息分析整合、发掘药物靶点、化合物高通量虚拟筛选、全新分子设计/优化、分子ADMET成药性预测、分子逆合成分析、耐药性预测等多个场景。在发掘药物靶点方面,AI算法能够分析大量基因数据,快速识别疾病相关的生物标记和潜在药物靶点,提高药物研发的针对性和成功率。2023年7月,美国丹娜-法伯癌症研究所基于人体基因表达数据集,预训练了一个基于迁移学习的AI模型——Geneformer,通过AI绘制基因互作网络,有助于加快疾病治疗靶点发现,对于罕见病,有望在未来仅需少量的数据就能推测出这些罕见疾病的病理机制。在生物合成基因簇挖掘方面,通过深度学习和模式识别技术,AI能够分析复杂的微生物基因组数据,高效地识别和预测可能编码天然产物的基因簇。腾讯量子实验室开发了一套从微生物基因组中分析和预测生物合成基因簇的深度学习方法,可对基因组数据进行分析,发现、筛选并鉴定出潜在的、具有新颖结构的活性化合物相关生物合成基因簇,大幅提升新型生物活性分子的挖掘效率,助力新药研发创新。
 
AI+基因计算为促进生命科学和生物经济发展提供了新方法、新途径、新机遇,但与此同时,在监管机制、隐私保护、数据安全、技术控制、基因编辑等方面可能会出现更多的治理和伦理挑战,我们也需要重视和审慎应对,从而通过国际和国内产学研用各界共同努力,让科技的发展向造福人类、促进公共利益的方向迈进。
 
图片
数实交互
 
趋势五:数字交互引擎激发超级数字场景
 
数字交互引擎是在文化创意场景下产生、伴随数字文化产业升级而不断实现技术迭代的一类工具集,集成了物理模拟、3D建模、实时渲染等多种前沿技术,是文化科技融合的典型产物。数字交互引擎主要由图形模块、仿真模块、实时渲染等模块构成,它以软件代码包形式创造虚拟场景,动态呈现其外观变化,支持其与物理世界进行实时交互。
 
在发展前期,数字交互引擎主要应用于游戏场景,在行业场景下被称为“游戏引擎”;在服务游戏产业高效构建虚拟世界、与现实世界高质量交互的过程中,不断实现技术迭代、提升跨平台通用能力,逐步成为跨行业、跨场景应用的数字交互引擎。当前,数字交互引擎已经应用于文旅、汽车、工业等多元领域,成为构建实时虚拟世界、实现虚实交互的关键工具集。

 

一、数字交互引擎与AIGC互相驱动,打造构建超级数字场景的高效工具集

 

随着以数字交互引擎为代表的游戏科技进入游戏之外的更多领域,游戏将迎来新的产业扩容,成为不断创造新价值与新可能的“超级数字场景”。游戏作为前沿科技的“试炼场”,在深度跨界、产业扩容的过程中,必然将推动数字交互引擎进一步与多种前沿技术形成广泛连接,其中,数字交互引擎与AIGC的加速融合、互相驱动将成为重要趋势。
 
首先,数字交互引擎为AIGC爆发提供了重要推动力,并有望助力AIGC迈过“深水区”。游戏为AI提供了测试与训练的重要环境,促进AI决策更加智能;同时,AIGC当前在3D内容侧的能力仍存障碍,游戏行业的PCG(程序化内容生成)技术已大量应用于3D内容制作,两者的结合可助力AIGC提升3D侧能力。未来,数字交互引擎及其创建的大量3D数字资产也将为AI大模型训练提供重要支持。
 
其次,AIGC技术融入数字交互引擎,将加速数字文化产业的工业化进程。当前,AIGC已渗透进数字文化制作的多个环节,包括动画、语音、美术、3D资产及场景等领域,简化内容开发流程。未来数字交互引擎将进一步集成多种AIGC能力,提升影视、游戏、广告等行业的智能化、工业化水平。
此外,数字交互引擎与AIGC的结合,将辐射多元社会场景,打造构建超级数字场景的高效工具集。例如,英伟达的Omniverse平台集成了数字交互引擎、AI等多种技术能力,不仅能够支持高效开发场景逼真、物理精确的游戏,也能广泛助力工业制造、自动驾驶等领域的虚拟仿真与协作。未来,数字交互引擎与AIGC相结合,将加速打造更多的超级数字场景,在感知与认知的双重维度上,实现人类生产与生活模式的全面升级。
 
二、大众应用方面,数字交互引擎或走向UGC形态内容工具
 
随着数字交互引擎与AIGC的融合加深、工具门槛进一步降低,数字交互引擎有望走向UGC工具形态,以更低的使用门槛为大众提供3D内容的生产力。正如短视频变革了今天的社会信息传播方式,未来,数字交互引擎也有望作为大众化的3D内容生产与交互工具,支持人们创造自身在虚拟空间中的形象及资产等,在数实相生世界里实现生产与生活。 
 
当前,面向大众的游戏创作工具已经初现雏形,但数字交互引擎要真正走向大众化,还需要从技术、生态、商业模式等维度积累资源、构建能力,实现高质量的画面效果及实时算力支撑,培育丰富的开发者与多元内容体系,构建可持续的商业模式以推动创作者变现,进一步聚集内容开发者,真正推动“交互式内容”的大众化时代到来。

 

三、行业应用方面,数字交互引擎推动各行业数字孪生走向实时性

 

当前,数字交互引擎的应用正在从社会消费端向生产端延伸:不仅作为文化数字化的重要技术支撑,助力文化业态打破时空局限、实现多维升级;也走向制造业领域的“新型工业软件”,支持实时、智能、高度可视化的数字场景,帮助企业生产提质增效。
 
数字交互引擎凭借其在数据可视化、实时渲染、友好交互等方面的能力,已成为工业数字孪生重要的构建及运行平台,并支撑各行各业的数字孪生在应用层面提升实时性,使数字孪生技术在实时交互、灵活部署方面更进一步。数字交互引擎与数字孪生技术的结合,不仅可在数字空间中将物理实体构建为可视化、智能化的“副本”,还能支持数据的实时感知接入、可视化展现,实现3D模型的实时渲染和展示,支持用户对孪生体的快速查看、调用和修改,为汽车、民航等工业制造领域提供实时监控管理、演练测试的数字场景。
 
未来,随着数字交互引擎集成更加成熟的AI能力,也将进一步提升数字孪生构建的效率与智能化水平。例如,自动驾驶的仿真测试,可通过采集真实数据,在数字交互引擎中重建数字场景,然后进行编辑、生成更多场景。采用 AIGC 技术可以让这项工作效率大幅增长,并且可以创造出更多的合成数据,填补真实数据中的缺口,提升训练和测试样本的多样性、完备性和均衡性。AI与数字交互引擎的结合,将助力数字孪生技术以更智能化的形式服务于各行各业,促进各领域提高研发生产效率、降低产业创新风险。

 

趋势六:沉浸式媒体催生3D在场

 

在信息爆炸的时代,新媒体已经成为我们生活中不可或缺的一部分。视频作为当今互联网时代重要的信息载体之一,在互联网数据中具有非常高的占比。根据Sandvine的报告,2022年视频服务占互联网流量的65.93%。同时,截至2022年12月,我国网络视频(含短视频)用户规模达10.31亿,较2021年12月增长5586万,占网民整体的96.5%。在这个背景下,如何更有效地传递信息,提供更好的用户体验,成为了新媒体领域亟待解决的问题。
 
多媒体技术经历了电视、PC流媒体、移动互联等阶段,其中标准、设备、交互方式均发生了对应的变化。技术也不断发展。未来,多媒体技术将聚焦四大方面,一是如何提高qoe和qos,进一步降低时延、提高压缩比。二是更高效的内容生成和呈现,如AIGC、HDR技术。三是更多样的内容、互动内容、新媒体,以及沉浸式交互和体验。四是更深入产业,助力产业互联网。

 

一、沉浸式体验与交互:从平面到沉浸式体验的升级

 

随着虚拟现实(VR)、增强现实(AR)以及混合现实(MR)等技术的发展,沉浸式体验和交互逐渐成为新媒体的发展方向。3DoF(自由度)视频已经在视频号、快手等平台实现商用,裸眼3D产品也逐渐走进大众视野。这些技术的应用为用户提供了更加真实、身临其境的感官体验,使用户在享受内容的同时,更加沉浸其中。未来,随着硬件的进一步成熟和6DoF技术的演进,更多的UGC(用户生成内容)3D沉浸式内容将会出现。此外,模型文件将成为多媒体的重要载体。例如,3D模型可以用于游戏、电影、广告等多个领域,为用户带来更加丰富的视觉体验。同时,随着5G等新一代通信技术的普及,沉浸式体验的传输速度和质量也将得到显著提升。

 

二、高效内容生成与呈现:AI技术的加持

 

伴随着人工智能技术的不断进步,AIGC技术在多媒体的文字、图片生成等方面已经实现商用。未来,AIGC技术将继续聚焦生成更加稳定的视频和3D内容。同时,在垂直领域如数字人、超分、老片修复等方向,AI技术将不断强化多媒体的能力,为用户提供更高质量的内容。此外,深度学习技术将进一步提升视频编解码的压缩效率。随着更多样化的块划分方法和编码模式的不断涌现,以及更复杂的预测和变换技术的引入,传统视频编码算法的复杂度不断提高。深度学习技术为图像/视频编码框架定义了全新的结构范式,实现了图像和视频编码器性能的显著提升,这为图像/视频编码领域带来了新的研究思路和方向。

 

三、从消费互联网到产业互联网:根据场景进行优化

 

随着互联网技术的不断发展,产业互联网逐渐崛起,为各行各业带来了新的机遇。在这个过程中,多媒体技术在产业互联网中的应用将根据不同场景进行优化,从而更好地满足产业互联网的需求。在产业互联网中,网络协议需要根据场景需求进行优化以提高传输效率。传统的直播传输-播放模型存在诸多问题,如缓存固定、传输可靠性过高、无法区分视频帧优先级等。
 
针对这些问题,在消费互联网中的WebRTC通信模型基础上,进行优化,在网络时延、QoE和可靠性等进行优化,对场景需求进行最优匹配。比如在2B2C的场景中,通过(1)信令改造,利用miniSDP和0-RTT的结合,大幅减少信令耗时、提升信令交互成功,进而降低首帧耗时和提升开播成功率。(2)音视频改造,让WebRTC支持AAC,H.265,附加前向纠错,抗50%以上丢包。还引入了B帧,增强了画质,同时大幅减少了码率。(3)传输改造,采样柔性分级丢帧的传输策略来渐进式降低码率,以适应弱网情况。支持P2P分发网络,能够将看同一视频流的用户群就近地组织成网络,相互分享传输。实现延时可降低到800ms以内,并同时兼顾延时、卡顿和首帧耗时,综合QoS远超传统直播。可以广泛应用在电商直播、体育赛事直播等领域另外一些场景,比如远程作业等2B场景,通过(1)信令改造:提升信令链路对网络异常抵抗能力,减少网络异常恢复时间,提升视频应用稳定性。(2)音视频改造,优化相机采集、视频渲染和视频编解码耗时,从音视频处理层面减少端到端画面延迟。(3)传输改造,以减少视频传输延迟为目标,适当平衡抗丢包和抗网络波动能力,减少视频延迟;并引入多网传输策略,减少单一网络依赖,提升传输稳定性。实现了画面延时可降低到100ms以内,兼顾抗弱网能力,在工业远程作业、医疗等领域应用前景广泛。

 

趋势七:脑机接口从医疗突破迈向交互革命

 

脑机接口(BCI,brain-computer interface),是在人或动物脑与外部设备间建立的直接连接通路,实现大脑与外部设备的直接交互。根据传感器或电极植入部位不同,主要分为非侵入式(Non-invasive)和侵入式(Invasive)两大类。
 
如果从1924年德国医生汉斯·伯格开发脑电图(EEG)算起,脑机接口经过百年的近现代技术发展,已形成一系列基本的技术研究和应用范式。然而,由于对人脑原理研究认识进展的缓慢和局限性,目前脑机接口整体仍处于发展早期。
 
近年来在数字技术尤其AI不断突破的加持下,加上生物相容性电极、小型化设计与集成、微创植入、多模式传感器等关键技术进展,脑机接口呈现出加速发展的趋势。预计医疗、军事、教育、混合现实交互、类脑智能等领域将发挥重点带动作用,全球商用市场将以17%的年平均增长率到2030年突破60亿美元。从长远看,脑机接口的意义更为重大,是人类应对人工智能威胁、减弱老龄化社会冲击、探索人类本质等重大问题,构建人机和谐社会的重要路径之一。
 
一、脑机接口加速脑科学研究,助力医疗领域神经系统疾病监测及诊疗突破
 
医疗领域是脑机接口未来发展的首要牵引,占据约60%市场份额,预计未来十年保持领先。脑机接口与医疗的结合应用展现出广阔的前景,能帮助开发更好的诊疗和康复手段,并加速神经科学和临床神经医学研究。重点应用方向包括:
 
神经调节:神经发育障碍和退行性导致的疑难疾病,脑机接口可实现精准监测、分析和干预。如脑深部刺激技术,正加速应用于癫痫和帕金森病治疗。对于学习障碍和自闭症等,基于脑电反馈的及时干预有显著应用潜能,如集中注意力、提升阅读效率。
 
运动恢复:通过捕捉大脑的运动意图并转换为控制信号,脑机接口可以帮助肢体受损或瘫痪人员恢复部分自主运动能力。如瑞士洛桑联邦理工大学成功让脊髓受损患者恢复行走能力,Neuralink以颈脊髓损伤等患者为临床试验重点对象。
 
感官补偿:脑机接口还能针对感官缺陷或损伤患者,解码大脑信息并实现感官补偿。目前助听方面已发挥重要作用,并向语音、视觉等拓展。如锁定综合征和渐冻症会导致失语,患者借助脑机接口能控制光标、文字生成、语音合成等,与外界重建交流。如加州大学成功将大脑信号转换成合成语音,帮助中风失语女性以高达80字/分钟的速度再“说话”。
 
未来,脑机接口可望向神经系统相关的疾病治疗、人体增强等多样化的场景深化应用。研发重点和难点之一涉及大脑记忆和意识的疾病,如阿尔茨海默症,利用脑机接口实时监测和干预可能加速病理研究和诊疗手段开发,并支持对人类大脑原理的研究。
 
二、脑机接口与混合现实深化融合,将推动新一代人机交互模式变革
 
新一代XR设备的兴起,激发人机交互模式的演进需求,驱动脑机接口的融合发展。脑机接口可以实现更直接的脑电交互,结合XR等的视觉、手势、语音等交互,能够提供更为丰富、自然的交互方式。近期突出的市场创新进展有:
 
肌电交互:Meta正在研发一款具有革命性的交互腕带,基于EMG(肌电图)读取用户手臂神经信号,可以在手指运动发生前就定位跟踪,甚至能感知极微小的手势,能用于隔空操控鼠标、打字、玩游戏等。
 
眼动交互:苹果正式发布头显Vision Pro,提出空间计算并展现出惊艳的虚实交互体验。其中暗藏了眼动交互功能,如通过监测瞳孔变化预测用户行为从而实时重建UI,使得个性化交互更便捷、流畅。
 
脑电+XR多重交互:OpenBCI与Varjo合作开发出Galea BCI设备,成功把包含多种传感器的非侵入式脑机接口系统和混合现实系统整合一体,创造出能进行多重体验交互的新型软硬件平台,如让残疾人能更精准脑控无人机。
 
未来在商业及生活服务方面,脑机接口与XR等结合适用领域会十分广泛,如娱乐、社交、身份识别、疲劳干预、个性化学习等。这类脑机技术多采用非植入式,更加安全便捷、更易被大众接受,更有可能形成消费级应用从而加速脑机接口普及。
 
三、脑机接口与人工智能相辅相成,成为促进人机和谐共生的重要路径之一
 
生成式AI爆发带来潜在威胁,提高了脑机接口发展的必要性。脑机接口有望架设人脑与数字体、机器等的高速连接,增强人脑能力避免被直接替代,同时促进更安全、高效的AI发展。类脑智能成为重点发展方向之一,主要有两方面:
 
提高大脑解读能力:AI大模型等技术的加速突破,能支持更高效处理脑机接口采集的大量脑信号,提升对大脑文字、影像等信息解码与重建效率,促进大脑信息处理机制等的基础研究。如大阪大学研究团队基于扩散模型,成功重建通过功能近红外光谱(fMRI)获得的人脑活动图像。
 
促进类脑计算发展:脑机接口促进脑数据采集和脑科学研究,能反过来支持类脑计算的框架、算法、芯片等技术创新,跳出冯-诺伊曼计算结构局限,推动更低功耗、高效率、可信可控的AI发展。如IBM推出类脑芯片原型NorthPole,相比传统CPU大幅提升能效25倍。
 
未来随着脑机接口和AI结合的进一步深入,长期有望促成新的类脑计算结构体系、赛博格(人机融合体)、脑联网等的发展突破,降低AI风险、促进人机和谐共生。
 
图片
未来连接

 

趋势八:星地直连通信推动泛在网络覆盖

 

1月3日,美国太空探索技术公司使用猎鹰9号火箭,成功发射21颗“星链”卫星,其中6颗卫星具备“直连手机”功能。卫星上新增一个面积为 25m²的中频 PCS 频谱天线,补充卫星 Ku 和 Ka 频段天线,同时 配备先进的 eNodeB 调制解调器,提供天基手机漫游接入服务,由于具有星间激光链路功能,Starlink 具备提供全球任何地区任何时段普通手机接入的能力。1月11日,荣耀Magic6 系列旗舰新品,号称实现了体积最小、信号最稳、且最省电的手机卫星通信体验。开年发生的星侧和端侧两个标志性事件,标志着2024年也许成为星地直连泛在网络全面普及的元年。
 
信息通信技术作为第三次科技革命的核心力量,自诞生起就以“Anytime,Anywhere,Anyone,Anything”为终极目标。如今的地球上,地面蜂窝网络已经覆盖了70%的人口,但覆盖的地表面积实际只有20%。当发生摧毁通信设施的自然灾害或身处无网络地区的人为事故时,“失联”的悲剧仍然难以避免,这也为攻克“紧急状态通信”这一难关提出了迫切需求。星地直连通信技术就是在这样的背景下发展而来,迄今已取得很大进步。2022年底,苹果公司、华为公司相继发布了支持短报文(类似手机短信功能)应急通信服务的新款手机。2023年,华为又推出了Mate 60Pro手机,依托天通卫星实现了星地直连语音通信。这一系列技术突破和产品创新,预示着星地直连通信已步入实用化的快车道。据美国市场分析公司ABI Research预测,随着NTN(非地面网络)技术不断发展,预计到2030年,全球将有1.7亿台NTN移动终端设备,产生的收入将达163亿美元,从2022年至2030年的复合年均增长率将达76%(过去10年为22%),基于手机直连卫星的泛在网络覆盖的时代即将到来。
 
星地直连通信的突破主要得益于两个因素。一方面,卫星和火箭技术加速创新。可回收火箭技术日臻成熟,卫星发射成本显著降低。美国SpaceX公司的Starlink(星链系统)正在以每年上千颗的速度积极部署近地轨道。目前,Starlink 2.0 Mini卫星已经发射,相较于1.0版本,其体积扩大了4倍,重量增加了3倍,通信能力提高了4倍。未来,完整的Starlink 2.0卫星将重达1.5吨。同时,美国卫星通信公司AST Mobile已开始部署基于低轨道的64平米超大阵列天线。卫星重量的增加、天线面积的扩大、部署密度的增长,都降低了对地面设备天线大小和功率强度的需求。尽管Starlink目前仍然需要较大的地面设备,但正在向手机直接与卫星进行宽带通信的目标挺近。卫星与火箭技术突破,促使天地网络的体验越来越接近,并可实现二者之间顺滑切换,这成为普及卫星通信技术的核心动力。
 
另一方面,民用手机逐步实现星地网络兼容。近年来,华为公司与北斗系统开展的合作、苹果公司与美国卫星通信系统“全球星”开展的合作,都是通过在手机中集成专用卫星通信芯片,以实现宽窄带结合的直连卫星功能。眼下,星地通信仍会以窄带为主,主要通过短信和语音通信,这种方式在应急、野外、高空、远洋等场景,有着广泛应用前景。同时,我国芯片厂商已推出星地一体化通信模组。未来随着设备加速普及,该模组的价格会快速下降,趋向与传统手机通信模组持平,这将为星地网络兼容的民用手机的大规模普及,打下坚实基础。
 
历次通信技术变革都会带来信息通信与互联网领域的产业新机遇。星地直连、6G网络的时代,将是一个低成本泛在(含地面、海洋、空中、太空等)接入的时代,必然催生大量的软硬件需求。其中一个重点趋势是对于宽窄带结合的即时通信和应急通信产品的新需求,由此带来对语音和视频压缩技术的新需求。这些技术在即时通讯工具、在线会议等互联网产品的普及中,曾发挥了决定性作用,在卫星通信时代也会成为爆款应用的关键。另外一个重点趋势是泛在物联网的爆发。在各种野外生态或工程监测领域,如抗击自然灾害、动植物保护、工程建设等,窄带卫星通信与边缘计算、可再生能源等相结合,将带来应用场景上的全新可能性。比如,我国的国家电网公司已经在野外电力设备监测场景下使用窄带卫星通信技术。
 
必须看到,商业航天、卫星制造、通信设备等领域,均处于大国竞争前沿。比如,太空轨道、通信频谱都是有限资源,全球遵循“先到先得、先占永得”原则。这方面,尽管我国星网集团已公布上万颗卫星的发射计划,但仍然远低于Starlink等美国同行的进度。可见,发挥国家统筹力量、依托巨大市场容量、系统化扶持龙头企业、建立产业生态和技术壁垒等,都是一个国家能否在新的通信革命中取得领先的要素。

 

趋势九:eVTOL加速空中出行奔赴新时代

 

随着城市化进程加速,交通拥堵和环境污染问题日益突出,人类社会对绿色高效的交通方式的需求日益迫切。因此,开发低空空域、实现低空出行、发展低空经济已成为解决这些问题的重要选择之一。由电动垂直起降飞行器(electric vertical take-off and landing,eVTOL)驱动的空中交通被视为推动低空经济发展的核心引擎。eVTOL采用以新能源电池作为动力的分布式电推进系统,能有效降低飞行噪音和提升操作系统的安全性,同时实现垂直起降、无需跑道,是一种理想的绿色智能交通工具。
 
从未来产业发展来看,eVTOL应用场景广阔。现阶段最主要的是替代直升机,在测绘、消防救援、电力巡线、警用巡查、医疗救护、搜救、海上石油钻井、农业植保、农业飞防等领域广泛应用。而行业内普遍期望,eVTOL能广泛应用于以城市和区域出行为主的空中载人客运。在不同应用场景中,载人客运是必然的核心发展方向,因为人的时间价值远远高于货物。预计eVTOL率先在载货物流、城市服务、消防救灾等场景开始商业化运营,随着技术发展和市场成熟,载客eVTOL将迈入大规模商业化时代。电池续航里程提升,使得eVTOL主机厂在机型研发方面更倾向于城际和区域出行类型的机型,主要是由以下因素驱动:城际和区域出行的单位经济效益高、为客户节省的时间多、所需的飞行频率和机队密度较低和公众接受度高。当前载人客运的展示和试点推广日趋火热,2024年奥运会和2025年世博会的试运营计划或开启“eVTOL元年”。未来十年,在政府、产业巨头和民间资本的助推下的eVTOL低空交通领域,产业发展与投资局面很可能发生剧变。
 
面对多元化应用场景需求,eVTOL在关键核心技术,特别是飞行器构型设计方面,仍处于验证比较、市场选择到大规模应用的“前夜”,但数字技术加速和赋能已成共识,并在实践中落地。综合国内外情况来看,eVTOL在科技创新方面呈现“电动化、长续航、智能化”三大技术趋势:
 
第一,纯电推进的eVTOL成为主流,细分技术路线的优势需在场景中体现。
 
eVTOL普遍采用电推进系统作为动力装置,是一种航空领域的颠覆性技术。电推进系统利用电力驱动多个推进器作为动力装置,能有效提升飞行器气动效率、载运能力、环保性和鲁棒性等。传统直升机使用内燃机或涡轮发动机作为动力装置,噪音大、污染严重、能效低。
 
eVTOL在商业化的过程中形成了不同构型或技术路线,其中多旋翼构型实现技术路线简单,但有效载荷和航程相对有限;矢量推进构型(倾转旋翼、涵道)和复合翼构型eVTOL在航程、巡航速度和载重比方面优势明显,具有较好的有效载荷、最大起飞重量和运营经济性,更适合在城际运输等空中交通商业场景中应用推广。随着电池技术发展,复合翼及矢量推进构型相对于多旋翼的优势会越来越明显。全球900多个eVTOL设计研发项目的统计数据显示,约320个项目选择矢量推进构型,约260个选择多旋翼构型,约150个选择复合翼构型,其他项目选择悬停自行车和个人飞行器、电动旋翼机设计。
 
第二,高能量密度锂电池的技术突破,进一步提升eVTOL续航里程。
 
电池技术突破助力eVTOL实现中长距离城际飞行。锂电池因其高能量密度和安全性成为大多数eVTOL主机厂的首选动力来源,尤其在目标航程约200-300公里的范围内,其能源效率和成本优势明显。头部企业认为电池能量密度在300Wh/kg以上,eVTOL性能已经展现出比较好的商业化能力。目前,业界最领先的航空级别电池的能量密度有望达到500Wh/kg,将会极大提升eVTOL续航里程,有潜力支持现有厂商的机型飞行400-500公里。总体而言,eVTOL电池的下一步研发目标是在保证航空安全的前提下,提高电池能量密度并以业界可接受的成本实现量产。
 
氢能应用潜力大但受限于总成本高和技术成熟度低,导致氢能源飞机的商业化进程缓慢。长期来看,氢燃料电池的能量密度最高可达锂电池的数百倍,具有广阔的应用前景。短期内,由于成本、重量、储运和潜在安全风险等因素的限制,氢能电池的应用空间仍然有限。德国创业公司H2FLY近年推出了一款液态氢飞机HY4,该飞机为双体式、四座位、单发设计,主要用于技术验证和演示;空中客车等公司则计划在2035年前推出氢能飞机。
 
第三,“软件定义飞行器”和空中交通管理智能化共同加速无人驾驶愿景。
 
得益于智能驾驶技术发展与政策支持等有利因素,eVTOL飞行器正逐步从传统的有人驾驶模式过渡到更高效的无人驾驶模式,呈现出“软件定义飞行器”的趋势。未来eVTOL在空中交通竞争中的关键既包括飞行器设计和性能,也包括以AI为核心的软件技术,同时还需要配备高效的数字化空中交通管理系统来支持大量无人驾驶eVTOL运行。
 
在早期推广阶段,为了使eVTOL符合适航安全要求以及更容易被乘客接受,主机厂可能会为早期机型配备飞行员或安全员、延后无人驾驶eVTOL研发计划,或同时研发无人驾驶和有人驾驶eVTOL。然而,从长远来看,实现自主飞行、取消飞行员是降低运营成本、提高经济效益的必然选择。亿航、峰飞和波音公司旗下的Wisk专注研发无人驾驶飞行器,亿航已获得我国颁发的适航证,峰飞计划在配备安全员的前提下进行商业试运营,而Wisk计划在2028年洛杉矶奥运会期间才会开始试运行无飞行员、全自主飞行的飞行器。
 
此外,低空基础设施建设将助力高效安全空中交通管理,加速低空空域开放和利用进程。eVTOL在低空运行、服务公众,流量大于现有通航直升机。尽管eVTOL航空器数量远低于城市内网约车,但其运行环境为三维,受天气等因素影响,复杂性和不确定性较高。数字技术可通过以下途径助力空中交通管理智能化:(1)低成本、高精度、高可靠性的通信、导航、监视系统,实时获取航空器信息,降低航空器间隔,提高空域流量和安全性;(2)基于传统气象雷达以及激光雷达等新一代传感器收集的气象数据,结合AI大模型等技术,为低空飞行带来更精准、网格化的气象服务;(3)基于云计算、边缘计算、深度学习和人工智能的管控和调度系统,为eVTOL飞行提供决策支持,如实时航路规划、起降场选择;(4)集成多种技术的空域数字化平台为空域管理部门进行空域设计、航道规划、模拟测试提供数字化工具。
 
展望未来,我们期待在eVTOL技术、新能源技术和数字技术的发展和共同引领下,以eVTOL为代表的空中出行方式能够加快实现,改变以地面交通为主导的出行模式,推动全球加速奔赴空中出行新时代。

 

趋势十:多能流实时协同重塑虚拟电厂

 

随着新能源技术和信息技术的不断发展与成熟,在双碳目标背景下,虚拟电厂逐渐显现出其在能源结构转型中的关键作用,成为实现能源优化配置的重要解决策略。在未来电网的构成中,源端、负荷端和储能端三个关键部分正在经历显著变革。具体而言,源端将见证波动性清洁能源以大规模、高比例的方式接入电网;在负荷端,越来越多的用户正逐渐转变为发电、储能及电网响应的参与者;而在储能端,电化学储能技术的发展及氢储能技术的研究,正大幅降低能量存储与运输的成本。
 
过去,虚拟电厂的应用范围相对有限,但现在我们需要扩展其应用至城市乃至城市间的更广阔层面。城市运行中的三大核心调节性负荷—工业、算力和交通—随着工业创新、大规模模型算力以及新能源汽车等领域的发展,其电力需求持续增长。这既是挑战,也是机遇。数字化集成的虚拟电厂能够通过承担多网耦合和协同工作,将上述几类主要用电部门转变为可调节资源。这一转变将有效应对能源结构转型带来的电网压力,确保在新能源背景下,新型电力系统的平稳转型。
 
可再生能源消纳以及电力电子化是实现碳中和的关键,稳定电力供应是实打实的刚性需求。随着近年来新能源行业发展,电力电子资源的不断增加,国家需要有更高效的数字化控制手段。近期在新能源及电力电子化领域发生的几项重要事件:
 
1、蔚来参与全国规模最大的V2G需求响应项目:2023年8月23日,车网互动验证中心(e-Park)的V2G充放电系统需求响应试验在无锡正式启动。这个系统是目前国内规模最大的V2G充放电系统,为新型电力系统建设提供了坚实的支撑。
 
2、山东电力交易出现“负电价”现象:“五一”期间,山东电力现货市场的实时交易电价经历剧烈波动,区间从1047.51元/兆瓦时降至-80元/兆瓦时(约1.05元/度至-0.085元/度),期间多次出现负电价,这一现象在电力市场中尤为罕见。
 
3、中广核新能源深圳虚拟电厂的重大成就:到2023年中,中广核新能源深圳虚拟电厂成为首批满足并网接入要求的标准化虚拟电厂,并成功参与首轮精准响应。在虚拟电厂运营商中,其响应容量和响应精度均位居前列。
 
这些事件不仅标志着行业的重大进步,也展示了数字化控制在能源变革中的重要作用。工业、算力、交通等将是近几年的重点应用趋势:
 
一、规模巨大、可调性强的工业可调节负荷可提供规模灵活性:
 
腾讯以钢铁工艺流程中可调节负荷为初步虚拟电厂试点,并逐步囊括多种可调节资源;初步盘查,可通过调整电炉的生产节奏和功率以获得负荷灵活性;可根据不同优化目标对当日生产计划进行调整:
 
1、容量调节:典型的短流程电炉炼钢生产线能够提供5-20MW的灵活性。这涉及到在保证生产不受影响的情况下对设备产出的调节,同时也需要平衡设备运行和人力资源的排产。在电网交互控制方面,电网需按不同时间尺度向负荷方发出通知并进行控制。
 
2、方法优化:为了获得负荷灵活性,可以调整电炉的生产节奏和功率。这可能包括在响应时段降低电炉功率,延长电炉运行时间,或实行设备错峰使用。这样做的目标是在不损失总产量的前提下降低整体用电费用,并通过降低负荷获得补助。
 
3、策略制定:可以根据不同的优化目标对当日的生产计划进行调整。这包括设定不同的生产目标,例如最快生产时间、最快生产时间加上模铸、最低电价、最大化峰谷错开、以及在最低电价下的需求侧响应等。这些目标策略将指导未来的响应方式。
 
二、数字基础设施的能耗优化,数据中心任务移动可改变负荷:
 
根据与其他数据中心是否互联,数据中心有两类:独立的数据中心(如传统的机房);互联网数据中心(IDC):多个IDCs通过光纤可以进行数据负荷传输,并与其之间传输数据的光纤网共同构成算力网络。
 
1、负荷转移:在云计算场景下,尤其是在AI海量计算的时代,IDC负荷通过算力网络转移数据负荷,从而实现电力的转移。考虑到东西电力资源的巨大差异,这种负荷转移在电力管理中尤为重要。
 
2、策略实施:数据中心腾讯自身做了应用场景需求响应特性测试。这包括在不影响任务性能的情况下,调节服务器功率,并关注响应速度、响应深度、响应时长和响应精度。
 
3、时效性考虑:探索数据中心服务器的负荷灵活性策略,并进行灵活调节。这涉及到对实时性不敏感的计算任务进行扩缩容和“断点续算”,以快速改变负荷分布。这类任务包括科学计算、视频渲染以及其他独立或耦合并行任务。
 
三、与C端互动平移伸缩电动车充电状态,聚合为“大电池”:
 
电动汽车(EV)将电力网络与交通网络这两个复杂的人造系统紧密耦合;EV的充放电与出行由驾乘用户决定, 形成以EV为核心的信息-物理-社群系统(Cyber-Physical-Social System),带来新的问题与调控潜力。
 
1、时空协同:在电力-交通网络耦合的定义中,通过交通网络转移充电负荷,从而改变电网的潮流分布,这在新能源车时代尤其关键。
 
2、实施方案:通过电力控制中心,结合交通拥堵信息发布以及各充电站的可用容量,制定即时策略,引导电动汽车到达对交通系统和电力系统都最佳的位置进行充电,以实现EV充电服务的效益最大化。
 
3、试点实验:基于价格调控的电动营运车辆调度是接下来的一个重要尝试方向。这包括利用出行价格调控车流密度和供需关系,以及利用充电价格调控充电需求的时空分布。目标是解决出行需求与充电负荷的供需不平衡,通过各类价格对营运车辆进行适当引导。