最新文章第221页

2025-05-30

DeepMind CEO哈萨比斯：AGI将在2030后到来，年轻人要更重视怎么学习而非学什么专业，梵高画作震撼人心是因为他的人生

"当我看到梵高的每一笔中都有他的痛苦时，才明白我们看的不是作品，而是作者的人生。AI正以惊人的速度接近人类水平通用智能，让Google从'伦敦那帮疯子在搞AGI'转变为全公司共识。DeepMind让AI'合理地幻觉'来创造突破，就像Astra技术让用户第一次惊呼'AI能做到比想象更多'——这不仅是技术革命，更是重新定义创造力的开始。"

大模型应该怎么用？我们大多数人都错了，微软最新研究：大模型对话次数越多，性能越差

微软研究院前不久发布了一篇论文，揭示了一个反常识的现象：当我们和AI进行长时间多轮对话时，它们会变得越来越"糊涂"，给出的答案质量也会明显下降。微软研究院的这项研究，用严谨的科学方法证实了这个现象的存在，这不是个别模型的问题，而是几乎所有大模型的通病。研究团队测试了包括GPT-4、Claude、Gemini在内的15个主流AI模型，发现它们在多轮对话中的表现平均下降了39%。

2025-05-30

英伟达发布Q1财报，黄仁勋：有没有美国芯片，中国AI都会高速发展

英伟达2025Q1营收440亿美元创纪录，数据中心业务暴涨73%至390亿美元。黄仁勋直言："中国是全球最大AI市场，出口管制只会让美国失去平台领导权。Blackwell架构推动推理性能提升30倍，微软已部署数万块GPU，AI工厂正成为各国数字基础设施核心。"

打破界限：KAIST研究团队用SMILES解析器提升大语言模型对化学分子的理解能力

KAIST研究团队开发了CLEANMOL框架，解决了大语言模型理解SMILES分子表示法的关键难题。传统模型即使在简单任务如计数分子环数时也表现不佳，因为SMILES编码中结构信息常呈非连续分布。研究通过设计官能团匹配、环计数等确定性任务，大大提升了模型对分子结构的理解。实验表明，预训练后的模型在逆合成等下游任务上表现优异，精确匹配率从45.6%提升至58.1%。这一突破无需昂贵实验数据，为药物开发和材料设计提供了低成本高效的AI支持方案。

视频生成

稀疏注意力

语义感知排列

2025-05-30

SVG2: 通过语义感知排列实现视频生成加速，伯克利与MIT团队带来视频AI重大突破

加州大学伯克利分校、MIT和斯坦福联合研发的SVG2技术通过语义感知排列实现了视频生成的重大加速。该方法巧妙解决了现有稀疏注意力机制中的两大瓶颈：识别不准确和计算浪费。通过k-means聚类对像素按语义特性分组并重排，SVG2在保持高质量的同时将生成速度提升至2.3倍，使原本需30分钟的视频生成缩短至13分钟，为实用化AI视频创作铺平了道路。

OmniConsistency：解锁图像风格化新境界，国立新加坡大学Show Lab团队突破风格一致性难题

图像生成

扩散模型

风格一致性

2025-05-30

OmniConsistency：解锁图像风格化新境界，国立新加坡大学Show Lab团队突破风格一致性难题

国立新加坡大学Show Lab团队开发的OmniConsistency是一种基于扩散变换器的通用一致性插件，用于解决图像风格化中的一致性问题。该方法采用两阶段解耦训练策略和滚动LoRA银行机制，实现风格学习与一致性学习的分离，有效保留图像风格化过程中的语义、结构和细节。研究团队构建了包含22种风格的高质量配对数据集，并通过定量与定性评估证明该方法达到了与商业模型GPT-4o相当的性能。OmniConsistency具有即插即用兼容性、强大的风格泛化能力和高计算效率，为图像风格化技术带来了重大突破。

人工智能

多智能体系统

社交认知

2025-05-30

MetaMind：用元认知多智能体系统模拟人类社交思维的突破性研究

这项研究介绍了MetaMind，一个模拟人类社交思维的多智能体框架，由威斯康星大学麦迪逊分校和清华大学研究人员共同开发。该系统通过三阶段协作流程（心智理论智能体生成假设、领域智能体应用社会规范约束、响应智能体生成回应）模拟人类元认知过程。实验表明，MetaMind在社交理解任务中显著超越现有方法，首次使AI系统在心智理论任务上达到人类水平表现，为更具共情心和文化敏感性的AI互动铺平道路。

大语言模型控制

稀疏自编码器

安全对齐

2025-05-30

超越提示工程：通过"原子级目标控制"实现大语言模型的稳健行为操控

这项研究提出了一种名为"控制目标原子"(STA)的新方法，用于精确控制大语言模型的行为。与传统提示工程相比，STA通过稀疏自编码器识别并操作模型内部的解耦知识组件，实现更稳健、灵活的行为控制。实验证明，STA在安全控制方面表现卓越，同时对模型一般能力影响微小。研究还发现控制引导方法在应对对抗性场景时比提示工程更为稳健，并成功应用于控制大型推理模型的思考长度。

人工智能

数学推理

语言模型优化

2025-05-30

数学推理的新突破：NVIDIA与清华大学联手打造的"负例感知微调"如何弥合监督学习与强化学习的鸿沟

这项由清华大学与NVIDIA合作的研究提出了"负例感知微调"（NFT）算法，挑战了"自我提升仅适用于强化学习"的传统观念。通过构建隐式负面策略处理错误答案，NFT在数学推理任务上匹配甚至超越了顶尖强化学习算法的表现。研究不仅证明了监督学习与强化学习在特定条件下的等价性，还展示了如何利用负面反馈显著提升大语言模型的数学能力，为AI训练方法论开辟了新视角。

人工智能

强化学习

大型语言模型

2025-05-30

让语言模型思考更聪明：通过强化学习实现混合隐式推理

这项研究提出了一种名为混合推理策略优化（HRPO）的新方法，通过强化学习使大型语言模型能够结合离散标记和连续隐藏表示进行推理。HRPO设计了创新的门控机制，初始时以标记嵌入为主，逐渐增加隐藏状态的比例，并通过强化学习优化这一混合策略。实验表明，HRPO在知识和推理任务上显著优于现有方法，甚至使小型模型达到大型模型的性能，同时展现出跨语言推理等有趣特性。

人工智能

大语言模型

信息检索

2025-05-30

REARANK：基于强化学习的推理重排序智能助手——助力文献搜索更智能更精准

这项研究介绍了REARANK，一种基于大语言模型的创新列表式推理重排序助手。通过强化学习技术，该模型在排序前先进行明确推理，显著提升了排序性能和可解释性。仅使用179个标注样本训练的REARANK-7B在多个信息检索基准测试中表现卓越，甚至在推理密集型任务上超越了GPT-4。研究证明了结合推理能力与高效排序策略的重要性，为构建更智能的信息检索系统提供了新思路。

机器人新纪元

具身智能

2025-05-30

五大机器人团队谈：人形机器人的卡点和破局之道

面对商业落地，人形机器人遇到了哪些难题？又将如何破壁？

语音识别

语音处理

句子重音检测

2025-05-30

WHISTRESS：用句子重音检测丰富语音转录，希伯来大学最新语音识别突破

来自耶路撒冷希伯来大学的研究团队开发了WHISTRESS，一种创新的无需对齐的句子重音检测方法，能够识别说话者在语音中强调的关键词语。研究者基于Whisper模型增加了重音检测组件，并创建了TINYSTRESS-15K合成数据集用于训练。实验表明，WHISTRESS在多个基准测试中表现优异，甚至展示了强大的零样本泛化能力。这项技术使语音识别系统不仅能理解"说了什么"，还能捕捉"如何说"的细微差别，为人机交互带来更自然的体验。

计算机视觉

物理模拟

视频生成

2025-05-30

力量提示：视频生成模型如何学习并泛化物理力控制信号

这项研究提出了"力量提示"方法，使视频生成模型能够响应物理力控制信号。研究团队来自布朗大学和谷歌DeepMind，他们通过设计两种力提示——局部点力和全局风力，让模型生成符合物理规律的视频。惊人的是，尽管仅使用约15,000个合成训练样本，模型展现出卓越的泛化能力，能够处理不同材质、几何形状和环境下的力学交互。研究还发现模型具有初步的质量理解能力，相同力量对不同质量物体产生不同影响。这一突破为交互式视频生成和直观世界模型提供了新方向。

流体模拟

神经物理学

交互式控制

2025-05-30

实时、可交互的流体模拟：北京交通大学与西蒙弗雷泽大学联合推出神经-MPM混合方法

北京交通大学与西蒙弗雷泽大学联合研发的混合神经-MPM方法实现了实时交互式流体模拟。该方法巧妙结合神经物理学与传统数值求解器，在低时空分辨率下运行神经网络并设置保障机制自动切换到MPM，显著降低计算延迟同时保持高保真度。团队还设计了基于扩散模型的控制器，支持用户通过简单草图直观控制流体行为，为游戏、VR和设计领域提供了实用解决方案。

机器人学习

人机交互

计算机视觉

2025-05-30

EgoZero：从智能眼镜到机器人学习的零数据迁移革命

这项研究介绍了EgoZero，一种创新的机器人学习系统，能够仅通过Project Aria智能眼镜捕获的人类示范数据，训练出零样本迁移的机器人操作策略。研究团队提出了一种形态无关的状态-动作表示方法，使用点集来统一人类和机器人数据，并开发了从原始视觉输入中提取准确3D表示的技术。在没有任何机器人训练数据的情况下，EgoZero在7种真实世界操作任务上实现了70%的成功率，展示了强大的泛化能力，为解决机器人学习中的数据瓶颈问题提供了新思路。

FLAME-MoE：探秘专家混合模型的秘密花园——卡内基梅隆大学打造全透明语言模型研究平台

混合专家模型

大语言模型

开源研究平台

2025-05-30

FLAME-MoE：探秘专家混合模型的秘密花园——卡内基梅隆大学打造全透明语言模型研究平台

FLAME-MoE是卡内基梅隆大学团队开发的首个全透明混合专家语言模型研究平台，包含7个规模从3800万到17亿活跃参数的模型。它采用每层64位专家、top-8选择和2位共享专家的架构，公开所有训练数据、代码和检查点。实验显示，FLAME-MoE比相同计算量的密集模型提升3.4个百分点，并揭示了三个关键发现：专家逐渐专注于特定词汇子集，专家协同激活保持稀疏多样，路由行为在训练早期就趋于稳定。这一平台为MoE模型的系统研究提供了前所未有的开放基础。

ModernGBERT：德国语言的新标杆，维尔茨堡大学推出全透明1B参数编码器模型

自然语言处理

德语编码器模型

长文本理解

2025-05-30

ModernGBERT：德国语言的新标杆，维尔茨堡大学推出全透明1B参数编码器模型

这篇论文介绍了ModernGBERT，一个由维尔茨堡大学研究团队开发的高性能德语编码器模型家族（1.34亿和10亿参数版本）。研究将ModernBERT的创新架构应用于德语，同时通过LLM2Vec方法将德语解码器模型转换为编码器以进行对比研究。在SuperGLEBer和MTEB等基准测试中，ModernGBERT 10亿参数模型不仅超越了之前最先进的德语编码器，还在性能和参数效率方面优于转换后的编码器。研究团队还证明了更大模型能有效利用大规模单语语料库，为德语自然语言处理提供了全透明、高性能的资源。

数源AI

AI源于数据，数源AI专注于AI领域入门及提升，让大家能够更加快速高效的完成相关专业知识的学习！学AI就来数源！

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: