这是首份关于自动驾驶领域视觉-语言-行动模型的全景调研,由清华大学等多校团队完成。研究梳理了让汽车能看、能说、能开的VLA4AD技术发展历程,从早期语言解释器到最新推理增强系统的四个阶段,分析了20多个代表性模型,整理了相关数据集和评估方法,并指出了实时性能、安全验证、多模态融合等关键挑战和未来发展方向。
ByteDance人工智能团队开发的FR3E算法通过模仿侦探破案的思维模式,让AI在数学推理中能够识别关键决策点并进行重点探索,显著提高了数学问题解决的准确性和稳定性。该算法在AIME24等困难数学竞赛上表现出色,为AI推理能力的提升开辟了新方向。
中科院团队开发出DiffSpectra系统,首次实现仅通过多模态光谱数据就能准确推断分子完整三维结构的AI技术。该系统同时处理红外、拉曼和紫外光谱,采用扩散模型直接生成分子结构,突破了传统依赖分子库查找的局限。测试显示16.01%完全准确率,前20候选准确率达96.86%,将revolutionize化学分析效率,加速新药研发和材料科学发展。
上海AI实验室等机构联合研究揭示了大语言模型代码评估中的系统性偏见问题。研究发现现有测试方法存在"同质化陷阱",AI生成的测试用例往往无法发现人类编程中的多样化错误。研究团队提出SAGA人机协作框架,通过分析正确和错误的人类代码生成高质量测试用例,显著提升了代码评估的准确性和鉴别力,为AI编程评估提供了新的解决方案。
腾讯AI实验室提出突破性"分工合作"方法解决AI数学推理难题,通过推理者和证明者两个专门系统的协作,成功攻克5个此前无人能解的国际数学奥林匹克竞赛题目,在AI数学推理领域实现重要突破,为复杂智能任务的解决提供了全新思路。
亚马逊发布Nova Premier AI模型的首个全面安全评估报告,针对化学生物武器、网络攻击和AI自主研发三大高风险领域进行了系统性测试。研究采用自动化基准测试和人工评估相结合的方法,并邀请第三方机构独立验证。结果显示Nova Premier虽然在各领域知识水平有所提升,但实际危险操作能力仍在安全阈值内,可安全向公众开放。
Yale大学等机构联合开发的Agent KB系统让AI助手们能够像人类一样分享经验和知识,通过"师生协作"模式和跨领域知识迁移,在GAIA和SWE-bench基准测试中取得了显著的性能提升,其中最困难任务的成功率提升了近20个百分点,为AI发展开辟了"集体智慧"的新范式。
卡内基梅隆大学研究团队深入分析了当前世界模型的根本缺陷,提出了PAN架构。该研究发现现有系统过分关注视觉效果而忽略智能推理,提出混合表示和多尺度推理的解决方案。PAN采用离散标记和连续嵌入的组合,通过增强的大语言模型和扩散预测器实现真正的"思想实验"能力,为AI从内容生成器向智能推理系统的转变提供了新路径。
这项由以色列理工学院等机构完成的研究提出了SingLoRA方法,用单一矩阵替代传统LoRA的双矩阵设计,解决了AI模型微调中的稳定性问题。该方法在保持性能的同时将参数量减少一半,在语言理解和图像生成任务中都表现出色,为大模型的高效适应提供了新的解决思路。
阿联酋穆罕默德·本·扎耶德人工智能大学研究团队开发出世界首个支持埃及阿拉伯语双文字系统的AI语言模型Nile-Chat,能同时理解和生成阿拉伯文字和拉丁字母书写的埃及阿拉伯语。该模型采用创新的混合专家架构,在各项测试中显著超越现有模型,为超过1亿埃及阿拉伯语使用者提供了更精准的AI语言服务。
本古里安大学研究团队开发了Diff-Mamba,这是对高效AI架构Mamba的重要改进。该技术通过创新的"差分"机制解决了AI系统容易"走神"的问题,让AI能够更好地专注于重要信息、过滤无关内容。实验证明,Diff-Mamba在语言理解、信息检索和长文本处理方面都有显著提升,为构建更可靠、更高效的AI系统提供了新思路。
这项研究首次系统性解决了图扩散模型的公平性问题,提出了FAROS框架,通过在生成过程中智能切换节点属性来消除偏见。该方法无需重新训练模型,在保持准确性的同时显著提升了公平性,在多个数据集上实现了帕累托最优的性能权衡,为构建更公平的AI系统提供了实用工具。
苹果公司研究团队开发了AXLearn,一个模块化的大型AI模型训练系统。该系统采用严格的组件封装设计,能在GPU、TPU、Trainium等异构硬件上运行,将添加新功能的代码量从数百行减少到10行,实现了常数级的复杂度增长。研究团队创造了"代码行复杂度"指标来量化模块化优势,并通过大规模实验证明了系统的高性能和扩展性。
网络和基础设施管理技术提供商NetBox Labs完成3500万美元B轮融资。该公司是开源网络基础设施管理平台NetBox的商业化运营方,服务数万家企业用户,包括数十家财富500强公司。NetBox已成为现代技术基础设施构建、管理和自动化的标准平台,可加速创新、简化运营并支持AI应用场景。
ITPro Today针对IT专业人士进行的边缘计算策略调查显示,55%的受访者对边缘计算概念仅"有所了解",21%的组织IT预算中边缘计算投资不足5%,而33%的组织至少投入10%。性能提升和安全性是采用边缘计算的主要驱动因素,分析和数据缓存是主要应用场景。Microsoft Azure IoT Edge是最广泛使用的边缘平台,混合云-边缘模型成为主流架构。成本仍是边缘计算采用的最大障碍。
Liqid发布了新产品,支持主机服务器应用程序访问由GPU、内存和存储池构建的动态编排GPU服务器系统,专注于AI推理和代理应用。该公司从PCIe Gen 4架构升级至PCIe 5,支持CXL 2.0内存池化。新产品包括Matrix软件、可组合GPU服务器、可组合内存和I/O加速器等。系统提供两种配置:UltraStack可为单台服务器提供最多30个GPU和100TB DRAM;SmartStack可在最多20个服务器节点间池化30个GPU。
Uber宣布与Lucid和Nuro合作部署至少2万辆自动驾驶出租车。Lucid负责制造基于Gravity电动SUV的改装车辆,Nuro提供自动驾驶软件。车辆搭载英伟达DRIVE Thor芯片的Nuro Driver模块,具备L4级自动驾驶能力。该服务将于2026年底在美国单一城市启动,随后6年内部署超过2万辆车辆。
法国AI实验室Mistral为其Le Chat聊天机器人推出多项新功能,包括"深度研究"模式、原生多语言推理和高级图像编辑功能。深度研究模式将Le Chat转变为协调研究助手,能够规划、澄清需求、搜索和综合数据。该功能面向消费者和企业用户,可进行详尽的旅行规划分析和企业研究。Mistral专注于将Le Chat集成到企业生态系统中,支持本地数据连接,无需上传至云端。新增的项目功能帮助用户组织聊天、文档和想法,多语言推理现已支持法语、西班牙语、日语等。
AWS为S3对象存储新增向量存储桶功能,旨在降低Amazon OpenSearch Service中低频访问向量的存储成本。该功能专为向量数据存储设计,可将上传、存储和查询向量的总成本降低90%。新的向量存储桶提供专用API,无需预配置基础设施即可存储和查询向量数据。每个存储桶最多支持10000个向量索引,每个索引可容纳数千万个向量。该功能已与Amazon Bedrock Knowledge Bases集成,支持构建RAG应用程序,并可与OpenSearch Service协同工作以优化成本。
谷歌澄清ChromeOS不会完全转变为Android,而是基于Android底层技术构建ChromeOS体验,实现更高性能和更好的设备协同。新的统一代码库将减少开发工作量,简化AI功能访问,同时保持ChromeOS的安全性和管理能力。这一变化可能影响入门级Chromebook的硬件要求,但将为两个平台带来显著优势,包括更好的Android应用兼容性和多用户支持。