最新文章 - 至顶网

2025-09-09

谷歌研究团队发布超级预测模型：让AI像天气预报员一样预测全球大气变化

谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型，能够在不到一分钟内完成10天全球天气预报，准确性超越传统方法90%的指标。该模型采用图神经网络技术，通过学习40年历史数据掌握天气变化规律，在极端天气预测方面表现卓越，能耗仅为传统方法的千分之一，为气象学领域带来了效率和精度的双重突破。

韩国成均馆大学让AI"忘掉"敏感数据的可视化新工具：机器遗忘技术的透明评估系统

韩国成均馆大学研究团队开发了首个机器遗忘可视化评估系统Unlearning Comparator，解决了AI"选择性失忆"技术缺乏标准化评估的问题。系统通过直观界面帮助研究人员深入比较不同遗忘方法，并基于分析洞察开发出性能优异的引导遗忘新方法，为构建更负责任的AI系统提供重要工具支持。

ByteDance团队开发出首个多模态网页浏览AI测试基准：MM-BrowseComp，能看懂图像和视频的智能助手评估标准终于来了

ByteDance等机构联合发布的MM-BrowseComp是首个专门评估AI多模态网页浏览能力的测试基准。该研究包含224道需要综合处理文字、图像、视频信息的题目，测试结果显示即使是最先进的OpenAI o3模型也只达到29%的准确率，揭示了当前AI在多模态信息理解方面的技术短板，为未来AI发展指明了重要方向。

华东师范大学研究团队让AI预测自己说话的"靠谱程度"：首次实现细粒度实时信心评估

华东师范大学等机构联合开发FineCE方法，首次实现AI系统在文本生成过程中的细粒度实时信心评估。该方法通过蒙特卡罗采样构建训练数据，结合后向信心整合策略，让AI能够准确判断自己答案的可靠性。实验显示在多个基准数据集上显著优于现有方法，为AI安全性和可解释性研究开辟新方向。

时间就是九分：复旦大学、上海人工智能教育研究所团队首次让AI学会边生成边反思

复旦大学团队提出PASR技术，首次让AI具备在生成过程中主动反思和修正的能力，改变了传统AI只能事后修改的局限。该方法在10个任务上显著提升了准确率，同时降低了41.6%的计算消耗，代表了AI从被动执行向主动思考的重要转变。

悉尼科技大学破解推荐系统痛点：当AI学会分辨"共同喜好"与"独特品味"

悉尼科技大学等机构联合提出REARM框架，通过元网络过滤模态共享特征噪声，运用正交约束保护独特信息，并深度挖掘用户兴趣与商品关联关系，在多个电商数据集上显著提升推荐准确性，为多模态推荐系统的个性化与精准化提供了新的技术路径。

揭秘未来预测的终极考场：FutureX如何测试AI预言家的真本事

ByteDance Seed等机构联合开发的FutureX是首个专门测试AI未来预测能力的实时平台，每日从195个网站收集真实事件让25个AI模型预测，完全避免数据污染。测试发现Grok-4等先进模型在复杂预测中表现优秀，但与人类专家相比仍有差距，为AI预测能力发展提供了重要基准。

武汉大学团队让AI学会"诊断"金融知识：像医生检查身体一样评估AI模型

武汉大学团队开发出FinCDM金融AI认知诊断框架，首次将教育心理学的认知诊断理论应用到金融AI评估中。该框架能像医生体检一样精确诊断AI模型在70个金融概念上的具体掌握情况，而非传统的粗糙总分评估。研究构建了基于CPA考试的高质量数据集，对30个AI模型的测试揭示了模型间的隐藏差异和现有评估的盲区，为金融AI的精准选择和针对性改进提供了重要工具。

从点云到代码：上海人工智能实验室让3D建模像写程序一样简单

上海人工智能实验室等机构联合开发的MeshCoder系统能将3D物体点云自动转换为可编辑的Blender Python代码。该系统采用分层训练策略，先训练部件识别模型，再训练整体推理模型，在重建精度上显著优于现有方法。生成的代码支持灵活的几何和拓扑编辑，并能增强大语言模型对3D形状的理解能力，为游戏开发、建筑设计等领域带来新的可能性。

扩散语言模型遇到量化压缩：香港城市大学团队首次系统研究扩散大语言模型的压缩之路

香港城市大学等机构联合开展的首个扩散大语言模型量化研究发现，这类新型AI模型存在特殊的激活异常值分布模式，为量化压缩带来新挑战。研究系统评估了多种量化方法，发现4位权重量化和8位权重激活同时量化是目前最实用的选择，GPTQ和DuQuant分别在两种策略中表现最佳，为扩散语言模型的实用化部署提供了技术指导。

阿里达摩院推出RynnEC：让机器人像人类一样"看懂"世界的革命性技术

阿里达摩院推出RynnEC，这是一个专为机器人设计的视频理解AI模型。它能让机器人像人类一样理解物理空间，准确识别物体位置、判断距离关系，甚至预测行动后果。该技术在认知测试中超越现有AI模型10.7个百分点，并提供轻量版本便于实际部署，为未来智能机器人的普及铺平道路。

NVIDIA发布Nemotron Nano 2：小身材大智慧，让AI推理速度飞跃6倍

NVIDIA发布Nemotron Nano 2混合AI模型，采用创新的Mamba-Transformer架构，在保持90亿参数规模的同时，实现了比同类模型3-6倍的推理速度提升。该模型在数学、科学、编程等复杂推理任务上表现出色，支持15种语言，能在单GPU上处理12.8万字符长文本，为高效AI应用开辟了新路径。

ByteDance Seed和南京大学联手破解AI训练难题：无需人工标注的"双向学习"让机器自己当老师

ByteDance Seed和南京大学研究团队提出DuPO双向学习训练法，让AI模型通过"出题-验证"的方式自我提升，无需人工标注。该方法在多语言翻译和数学推理上效果显著，让7B模型达到GPT-4o水平，数学推理提升6.4个百分点。这一突破为AI自主学习开辟新路径，大幅降低训练成本。

俄勒冈大学研究团队推出mSCoRe：让AI学会全球常识推理的"多语言考场"

俄勒冈大学和Adobe研究团队开发了mSCoRe基准系统，专门测评AI在多语言环境下的常识推理能力。该系统首次将推理过程细分为十种基本技能，涵盖逻辑、情境和社会伦理三大类别，并创新性地引入动态复杂度扩展机制。通过对八个顶级大语言模型的全面测试，研究发现现有AI系统过度依赖单一推理模式，在文化敏感的社会常识判断上仍有显著不足。

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: