中国人民大学和上海高级算法研究院联合开发的SEAP技术,通过模仿人脑按需激活不同区域的工作方式,让大语言模型能够根据任务类型智能选择相关神经元,实现"聪明偷懒"。该技术在保持97.8%原始性能的同时,将推理速度提升48-52%,为AI模型在普通设备上的高效部署提供了创新解决方案。
香港科技大学研究团队开发出首个开源长篇音乐生成模型YuE,能根据歌词创作5分钟完整歌曲。该系统采用双阶段架构和轨道解耦技术,在人工评估中与商业系统性能相当,支持多语言创作和风格转换,为音乐创作民主化奠定基础。
微软升级了Azure AI Speech服务,用户仅需几秒钟的语音样本即可快速生成逼真的语音复制品。该个人语音功能于2024年5月21日正式发布,采用名为"DragonV2.1Neural"的零样本文本转语音模型,支持100多种语言。微软表示新版本在语音自然度、韵律稳定性和发音准确性方面都有显著提升,可用于定制聊天机器人语音、视频配音等应用。尽管微软要求用户遵守使用政策并获得原说话者同意,但该技术仍可能被恶意使用。
阿里巴巴DAMO院推出开源多语言大模型Babel,支持全球25种主要语言,覆盖90%世界人口。采用创新的层扩展技术而非传统继续训练,推出9B和83B两个版本。在多语言任务评估中表现出色,83B版本接近GPT-4o性能,特别关注印地语、孟加拉语等被忽视的大语言群体,推动AI技术的包容性发展。
vivo和香港中文大学的研究团队开发了UI-R1系统,首次将强化学习技术应用到图形界面操作中。该系统仅用136个训练样本就能让AI学会操作手机、电脑界面,在跨平台测试中表现优异,为智能设备交互开辟了高效的新路径。
香港大学、香港科技大学与快手科技联合发布开创性研究,提出用交互式生成视频(IGV)技术构建下一代游戏引擎,将彻底改变游戏开发模式。该技术能实时生成无限游戏内容,让每个人都能成为游戏设计师,解决传统游戏内容有限、成本高昂、缺乏个性化等根本问题,为游戏产业描绘了一个充满想象力的未来。
新加坡国立大学研究团队开发了IPV-BENCH,首个专门评估AI视频模型处理"不可能场景"能力的基准测试平台。研究发现,当前最先进的AI视频模型在生成和理解违反物理定律、生物规律等不可能场景时表现不佳,最好的生成模型成功率仅37.3%,理解模型在时间推理方面尤其困难,揭示了AI技术在创造力和复杂推理方面的重大局限性。
上海AI实验室团队开发的MM-Eureka突破了多模态视觉推理难题,这是一个能同时理解图像和文字并进行复杂推理的AI系统。通过创新的强化学习训练策略和高质量的MMK12数据集,MM-Eureka不仅在数学推理上表现出色,还展现出惊人的跨学科推理能力,在物理、化学、生物等领域都有优异表现,性能接近OpenAI的o1模型。研究团队将所有成果完全开源,为AI研究社区提供了宝贵资源。
UCLA团队首次成功让20亿参数的小型视觉AI模型实现了类似DeepSeek R1的"啊哈时刻"现象。他们通过在未经指令微调的基础模型上直接应用强化学习,让模型学会了自我反思和深度推理,在视觉推理任务上取得了显著突破。研究还发现指令微调可能限制模型的推理能力发展,为AI训练方法提供了新的思路。
香港科技大学研究团队提出PreSelect方法,通过分析文本对不同AI模型能力的预测能力来筛选高质量训练数据。该方法基于"能够准确反映模型能力差异的文本往往也是最佳训练材料"的核心洞察,仅用轻量级fastText分类器就能实现大规模数据筛选,在多项实验中展现出10倍训练效率提升,为AI模型开发提供了经济高效的解决方案。
Google Research与以色列理工学院联合研究发现,大型语言模型存在显著的"隐性知识"现象——AI内部掌握的知识远超其外部表现,平均差距达40%。研究团队通过测试三个主流AI模型的1700个事实性问题,发现AI在内部完全知道答案但1000次尝试都不会说出的极端情况。这一发现揭示了AI语言生成机制的根本局限,为改进AI表现和理解智能系统认知机制提供了新视角。
西安交通大学团队提出MAPS多智能体系统,基于心理学大七人格理论设计7个专门化AI智能体协作解决多模态科学问题。系统采用苏格拉底式质疑方法进行自我监督,在数学、物理、化学问题求解上比现有最佳AI提升15.84%,甚至超越人类专家3.58%,为AI协作系统设计提供了新思路。
复旦大学研究团队开发出革命性的AI机器人训练方法"双重偏好优化",让机器人具备预测行动后果的"想象力"。该方法通过同时优化动作选择和状态预测,使7B参数模型的任务成功率提升31.4%,规划效率提升33.0%,甚至超越GPT-4o表现。研究建立了自动化数据收集系统和VoTa-Bench测试平台,为实现更智能的机器人助手奠定基础。
阿里达摩院推出VACE系统,这是首个能够统一处理文字转视频、视频编辑、遮罩编辑等12种视频任务的AI模型。通过创新的视频条件单元(VCU)和上下文适配器架构,VACE不仅能单独完成各类视频生成编辑任务,还支持任务组合创造出传统方法无法实现的效果,为视频创作提供了革命性的一站式解决方案。
Google DeepMind发布Gemma 3多模态AI模型家族,参数量从1B到27B,支持文字、图片理解和多语言处理,可在普通设备运行。创新的5:1注意力架构将内存消耗降低75%,支持128K长文档处理。在多项测试中表现优异,27B版本在聊天机器人竞技场排名第9,超越了许多更大规模的模型,实现了AI技术的真正民主化。
上海AI实验室等机构联合开发的Dita机器人学习模型实现重大突破,仅需10个示例就能让机器人掌握复杂任务。该模型创新性地结合扩散模型与Transformer架构,让机器人具备类似人类的环境观察和任务理解能力,在多个基准测试中表现优异,并成功完成包括倾倒液体、多步骤操作等高难度真实世界任务,为通用机器人智能发展开辟新路径。
Canonical宣布Ubuntu 25.10"Questing Quokka"将引入基于可信平台模块(TPM)芯片的全盘加密功能。该功能原计划在23.10版本推出,现在终于落地。新方案利用现代PC内置的TPM 2.0芯片存储加密密钥,支持自动解锁,无需手动输入密码。系统要求PC具备TPM 2.0芯片、UEFI固件并启用安全启动。相比传统LUKS加密方案,TPM加密可实现无人值守启动,特别适合服务器环境。该功能将采用统一内核镜像系统,通过snap包管理内核更新。
创新光学无线网络全球论坛在五周年之际与国际电信联盟签署合作协议,旨在加速光子技术发展。该项目由NTT主导,联合爱立信、诺基亚等巨头,致力于构建全光子网络基础设施,应对AI驱动的数据中心增长需求。研究显示,全球数据中心容量2024至2027年将增长57%,迫切需要更高带宽、更低延迟和能耗的网络解决方案。
乐天移动宣布选择思科、诺基亚和F5作为合作伙伴,共同支持其在日本的5G独立组网建设。该网络将采用云原生和AI驱动系统,旨在简化运营、降低成本并提升客户体验。作为2019年推出全球首个端到端云原生移动网络的先驱,乐天移动此次通过战略合作进一步推进网络自主运营。同时宣布在九州等地区扩大5G覆盖范围。
Meta公司报告运营成本和研发支出增长,正加速推进人工智能业务。公司成立Meta超级智能实验室,专注开发下一代AI模型。CEO扎克伯格表示将建设多个千兆瓦级集群,包括明年上线的1千兆瓦Prometheus集群和可扩展至5千兆瓦的Hyperion集群。最新财报显示收入成本增长16%,资本支出达170亿美元用于服务器、数据中心和网络基础设施投资。