阿卡迈技术公司宣布 Akamai App & API Protector 在 《2025 年度 Gartner(R) Peer Insights(TM) 云端WAAP客户之声报告》 中荣膺“客户之选”称号。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。
中国人民大学研究团队开发了Tool-Light框架,通过信息熵理论解决AI工具使用中的过度调用、调用不足和过度思考问题。该框架采用熵引导采样和两阶段自演化训练,让AI学会合理使用外部工具。在10个推理任务测试中,Tool-Light显著提升了AI的效率和准确性,为AI工具集成推理提供了新的解决方案。
新加坡国立大学研究团队发现现代AI推理模型存在意外困境:传统的推理示例反而会降低性能,最高降幅达35%。研究识别出两个关键问题并开发了I2S解决方案,通过将示例转化为抽象指导而非具体模仿,在多个模型上实现显著提升。该方法轻量级、免训练,为AI推理能力优化开辟新思路。
中科院研究团队开发的VGGT-X技术突破了3D重建领域的关键瓶颈,通过内存优化、全局对齐和鲁棒训练策略,实现了用上千张照片快速重建高质量3D场景。该技术将内存使用量减少76%,处理速度提升数十倍,在保持接近传统方法质量的同时,让3D重建从专业任务变为普通设备可完成的日常操作,为建筑、电商、文保等领域的应用普及铺平了道路。
埃默里大学团队发布AceSearcher框架,通过让单一AI模型扮演分析师和调查员双重角色,实现复杂问题的系统性分解和推理。该技术在多跳问答等任务上平均提升7.6%准确率,15亿参数的小模型即可媲美数百亿参数大模型,显著提升参数效率,为AI推理能力发展提供了新的技术路径。
腾讯混元团队发布HunyuanImage 3.0,这是全球首个统一图像理解与生成的原生多模态开源模型。该模型基于800亿参数架构,在推理时激活130亿参数,具备思维链推理能力,在文本-图像对齐和视觉质量评估中达到业界领先水平,成为目前最强大的开源图像生成模型,为AI图像生成领域带来重大突破。
北京理工大学团队提出DART框架,通过去耦合训练和自适应数据管理策略大幅提升GUI智能体训练效率。DART-GUI-7B在OSWorld测试中达到42.13%成功率,比基础模型提高14.61%,训练吞吐量提升1.9倍,环境利用率提升5.5倍。该方法解决了传统GUI智能体训练中的效率瓶颈和数据质量问题,为AI自动化电脑操作技术发展奠定重要基础。
香港中文大学和香港科技大学联合开发了MGM-Omni,一个能够理解超过60分钟音频并生成10分钟以上连贯语音的AI系统。该系统采用创新的"大脑-嘴巴"双轨架构,分别负责多模态理解和语音生成,通过分块并行解码技术解决了文本语音对齐难题,实现了零样本语音克隆。在长音频理解测试中成功率达94%,语音生成速度提升3倍,为构建更自然的人机交互系统开辟了新路径。
中山大学研究团队开发出LOVE-R1视频理解模型,通过模仿人类"先粗后细、重点观察"的认知方式,让AI能够智能地在长视频中定位关键片段进行高分辨率分析。该模型采用快慢结合的处理策略和三阶段训练方案,在四个长视频理解基准上平均提升3.1个百分点,为解决长视频理解中的时空信息平衡难题提供了新思路。
这项由DP Technology和北京大学联合完成的研究提出了SphereAR方法,通过超球面约束解决连续标记自回归图像生成中的方差崩溃问题。该方法将所有输入输出限制在固定半径球面上,实现尺度不变性,在ImageNet数据集上创下自回归模型新纪录,SphereAR-H达到1.34 FID分数,首次让纯自回归方法在同等参数规模下超越扩散和遮蔽生成模型。
微软研究院联合清华大学开发的PixelCraft系统,通过多智能体协作突破了AI视觉推理瓶颈。该系统采用专业分工模式,包含调度员、规划员、推理员等角色,配备图像记忆库实现灵活推理。在权威测试中准确率提升5-9个百分点,特别擅长分析复杂图表和几何图形,为科研、金融、教育等领域提供精确的视觉分析能力。
清华深研院研究团队通过分析AI模型的内部语义表征空间,发现传统认为对立的探索与利用能力实际上可以解耦并同时增强。基于这一发现,他们开发了VERL方法,通过有效排序及其导数来动态调节训练激励,在高考2024数据集上实现了21.4%的绝对准确率提升,为AI推理能力发展开辟了新路径。
这项由中国传媒大学和微软联合开展的研究提出了UniMIC框架,创新性地采用令牌化技术解决人机协作中的通信效率问题。该技术将多媒体数据转换为紧凑令牌进行传输,避免了传统方法的累积损失,在文本生成图像、图像编辑等任务中实现60-80%的带宽节省,同时保持近乎无损的质量,为未来AI原生通信协议奠定了基础。
NVIDIA团队成功实现了4位浮点精度(NVFP4)的大语言模型训练突破,通过创新的双级缩放、随机哈达玛变换、二维块缩放和随机舍入技术,在120亿参数模型上完成了史上最长的4位精度训练实验。相比传统方法,NVFP4将训练速度提升2-3倍,内存使用减半,同时保持了与8位精度相当的模型性能,为大模型训练的效率优化开辟了新路径。
上海人工智能实验室研究团队开发了BRIDGE系统,通过强化学习优化的深度-图像生成引擎解决单目深度估计中的数据稀缺问题。系统能根据深度信息生成2000万张高质量图像,采用混合监督策略结合教师模型预测和高精度真实标注进行训练。在多个基准测试中取得最优性能,仅用三分之一数据量就超越现有最佳方法,为自动驾驶、机器人导航等应用提供更准确的深度感知能力。
这项由腾讯与武汉大学合作的研究开发了一种革命性的AI智能体CEL,它能像人类一样从零开始学习游戏规则并制定策略。与传统需要大量数据训练的"黑箱"AI不同,CEL通过观察、思考和反思的方式自主学习,整个决策过程完全透明。在扫雷、冰湖导航和推箱子三种游戏测试中,CEL都表现出色,甚至超越了预先知道规则的传统AI。这种"会思考的AI"为未来可解释人工智能的发展指明了新方向。
这项由上海AI实验室联合多所知名高校开发的SID导航系统,首次实现了机器人通过自我经验学习来提升导航能力的突破。该系统能让机器人仅凭简单的目标描述就在陌生环境中自主探索,在SOON任务中成功率达50.9%,比现有方法提升13.9%。这种自监督学习范式不仅解决了传统方法对人工标注数据的依赖,还为未来智能家居机器人的普及奠定了重要技术基础。
随着大语言模型在人工智能时代展现强大力量,可穿戴设备成为收集人体数据的重要载体。通过实时监测血压、心率、血糖等生命体征,结合AI边缘计算能力,医疗正向个性化转型。基因治疗、数字孪生技术让每个人都能拥有专属的医疗数字化身,实现从"报销型医疗"向"创新循证医疗"的转变,为疾病预防和健康管理带来革命性突破。
在巴黎举办的欧洲开放基础设施峰会期间,专门用一整天时间讨论VMware迁移问题。博通收购VMware后许可证价格上涨,导致客户运营成本大幅增加。开源开发者展示了将VMware虚拟机迁移到开源替代方案的产品。Forrester分析师指出VMware客户对此感到信任破裂。OpenStack等开源解决方案虽然复杂度较高,但提供了健康的开源生态系统替代方案。