最新文章第29页

2025-09-12

南洋理工大学团队突破性发现：AI观看教学视频能否真正学会知识？

南洋理工大学研究团队构建了Video-MMMU基准，通过300个专业教学视频和900道问题，评估AI模型从视频中学习知识的能力。研究发现人类专家知识增益达33.1%，而最先进的AI模型仅达15.6%，特别在知识适应新场景方面表现不佳。该研究揭示了当前AI在真正理解和应用知识方面的局限性，为未来AI教育应用发展指明了方向。

机器人有了"新老师"：清华团队让机器人通过试错学会更聪明的操作

清华大学等机构开发的SimpleVLA-RL框架突破了传统机器人依赖大量人类演示数据的局限，让机器人通过强化学习自主试错掌握技能。该方法在数据稀缺情况下将成功率从17.3%提升至91.7%，并在真实世界中验证有效，机器人还自主发现了"推切"等创新操作方式，为机器人智能化发展开辟新路径。

AI语音助手为什么总是答非所求？港中深研究团队发现问题根源并给出解决方案

港中深研究团队发现语音AI系统"答非所问"的根本原因在于声学和语义理解的认知鸿沟，并提出EchoX解决方案。通过创新的"回声训练"方法，EchoX用仅6千小时训练数据就在知识问答任务中取得显著性能提升，综合得分46.3分超越主流系统，为语音AI发展指明新方向。

ByteDance智能创作实验室与清华大学联手：让任何人都能制作电影级说话视频

ByteDance智能创作实验室与清华大学联合发布HuMo系统，这是首个实现文字、图片、音频三模态协同控制的人物视频生成框架。该系统通过创新的渐进式训练方法和时间自适应引导策略，让用户仅需提供文字描述、参考照片和音频就能生成电影级说话视频，在多项评测中超越现有专业系统，为内容创作带来革命性突破。

字节跳动破解AI智能体难题：让机器像人一样从经验中明智学习

字节跳动种子团队提出熵调制策略梯度EMPG方法，解决AI智能体在长期任务中的稀疏奖励学习难题。通过自校准梯度缩放和未来清晰度奖励双重机制，根据步骤不确定性动态调整学习信号强度。在WebShop、ALFWorld和Deep Search三大基准测试中，EMPG显著提升了模型性能和训练稳定性，域外泛化能力尤为突出，为复杂AI系统的可靠训练提供了新的解决方案。

快手团队发布Kling-Avatar：让AI真正"读懂"你的想法，生成超逼真长时长数字人视频

快手科技Kling团队发布的Kling-Avatar技术通过多模态大语言模型导演实现真正的指令理解，采用级联生成框架支持长时长数字人视频制作。该系统在唇形同步、情感表达、身份一致性等关键指标上全面超越现有技术，支持1080p/48fps输出，展现强大跨域泛化能力，为数字人直播、在线教育等应用提供突破性解决方案。

香港大学团队发布600万张图像的AI绘画推理数据集：让AI像人类一样"想象"后再创作

香港大学团队发布史上最大规模AI绘画推理数据集FLUX-Reason-6M，包含600万张高质量图像和2000万条双语描述，耗费15000个GPU天计算资源。首创"生成链式思维"训练法，让AI学会像人类艺术家般思考创作过程。同时推出PRISM-Bench测评标准，对19个先进模型评测显示闭源模型仍领先，但所有模型在文字渲染等复杂任务上都有改进空间。

南大团队打造视频界的"3D地图"：2.7万小时海量视频数据集让AI看懂真实世界的空间关系

南京大学研究团队构建了SpatialVID，一个包含2.7万小时高质量视频的大规模空间标注数据集。该数据集为每个视频片段提供精确的摄像机姿态、深度信息、动态掩码和结构化语义描述，涵盖城市、自然、室内等多样场景。通过严格的四重筛选机制和创新的几何先验增强标注流程，SpatialVID在规模和质量上都创下新纪录，为训练具有空间理解能力的AI模型提供了前所未有的数据基础，将推动自动驾驶、机器人导航、虚拟现实等领域的技术进步。

人工智能

计算机视觉

文本检索

2025-09-12

东北大学团队突破文本人物搜索技术：让机器像人一样"看懂"人物描述

这项研究通过创新的梯度注意力机制和500万张图片的WebPerson数据集，显著提升了文本描述人物检索的准确性。GA-DMS框架能智能识别描述中的关键词汇，过滤噪声干扰，在标准测试中达到77.6%的准确率，为安防监控、人员搜寻等应用提供了重要技术支撑。

人工智能

图表理解

自适应推理

2025-09-12

上海交通大学团队破解图表理解难题：让AI学会选择最合适的推理方式

上海交通大学团队通过引入"视觉可编程性"概念，成功让AI学会根据图表特征自主选择代码分析或直接观察的推理方式。该自适应框架在四个基准数据集上平均准确率达62.8%，显著超越固定策略方法。研究采用双重奖励机制训练，确保AI既追求准确性又具备策略选择智慧，为构建更灵活可靠的人工智能系统提供了新思路。

人工智能

图像修复

高斯涂抹技术

2025-09-12

哈工大联合多所高校：用高斯涂抹法重新定义图片修复，让残缺照片秒变完美

哈工大团队开创性地将3D高斯涂抹技术应用于图片修复，通过连续光斑融合替代传统像素拼接，结合DINO语义理解和分块处理策略，实现了更自然流畅的图片修复效果。该技术能处理20%-60%面积的缺失，在人脸和自然场景修复中表现出色，为图像处理领域提供了全新思路。

华为诺亚方舟实验室开发出首个能像人类一样"看懂"3D世界的机器人助手OmniEVA

机器人智能

空间推理

身体感知

2025-09-12

华为诺亚方舟实验室开发出首个能像人类一样"看懂"3D世界的机器人助手OmniEVA

华为诺亚方舟实验室开发出名为OmniEVA的智能机器人系统，它具备两项核心创新：任务自适应3D建模机制能根据具体任务智能切换2D/3D视觉模式，身体感知推理框架让机器人制定计划时考虑自身物理限制。该系统在8个公开测试中有7个达到最佳成绩，复杂操作任务成功率提升28.95%-50%，已成功部署到真实机器人并能自主完成日常辅助任务。

大模型训练的隐性杀手：为什么越训练越"笨"？INFLY TECH团队破解多样性崩塌之谜

强化学习

散度优化

模型多样性

2025-09-12

大模型训练的隐性杀手：为什么越训练越"笨"？INFLY TECH团队破解多样性崩塌之谜

INFLY TECH、复旦大学和格里菲斯大学联合研究发现，大语言模型强化学习训练中存在"多样性崩塌"现象：模型单次准确率提升但多次尝试成功率下降。研究团队提出DPH-RL框架，通过改用正向KL散度等"质量覆盖"散度方法，成功解决了这一问题，同时避免了灾难性遗忘，为构建更通用的AI推理模型提供了新路径。

金融

大模型

通义点金

2025-09-12

从读图到懂图，AI+金融理解力新升级

OCR要落伍了？多模态大模型凭借端到端的图像识别与语义理解能力，正在颠覆传统 OCR 的应用逻辑，预示着图像识别与理解正迈向新一代的技术范式。

人工智能

云计算

战略重组

2025-09-12

OpenAI与微软签署初步协议修订合作条款

OpenAI和微软宣布签署一项非约束性谅解备忘录，修订双方合作关系。随着两家公司在AI市场竞争客户并寻求新的基础设施合作伙伴，其关系日趋复杂。该协议涉及OpenAI从非营利组织向营利实体的重组计划，需要微软这一最大投资者的批准。双方表示将积极制定最终合同条款，共同致力于为所有人提供最佳AI工具。

人工智能

机器人技术

技术竞争

2025-09-12

国产R1人形机器人亮相，挑战特斯拉Optimus霸主地位

中国科技企业发布了名为R1的人形机器人，直接对标特斯拉的Optimus机器人产品。这款新型机器人代表了中国在人工智能和机器人技术领域的最新突破，展现出与国际巨头竞争的实力。R1机器人的推出标志着全球人形机器人市场竞争进一步加剧。

人工智能

市场研究

实时分析

2025-09-12

智能化追踪研究：AI与人类智慧的融合

制药公司需要持续监控品牌健康状况以制定战略决策，但传统方法缺乏灵活性。本次网络研讨会探讨技术如何从定量和定性角度变革追踪研究。专家小组将揭示新技术如何重新定义传统追踪方法，实现实时数据收集和分析。内容包括：传统追踪研究的挑战和局限性、技术如何带来速度和灵活性、AI在情感分析和实时分析中的作用，以及追踪研究的未来发展趋势。

人工智能

生成式AI

实施策略

2025-09-12

生命科学企业如何成功实施生成式AI

超过70%的生成式AI实验未能投入生产应用。本文探讨了实验与生产系统间的差距，分析了质量一致性、用例评估和工作流集成等关键挑战。文章提出了结构化的优先级评估框架，重点关注重复性手工任务、大量文本处理和代码生成三大高价值应用场景。同时介绍了代理AI的发展趋势和技术演进的三个阶段，强调通过战略性集成现有业务流程来实现创新和运营卓越。

商用办公

生成式AI

产品发布

2025-09-12

Microsoft 365 Copilot十月推出销售、服务、财务智能体套装

微软宣布将在10月份推出整合版Microsoft 365 Copilot，该版本将销售、客户服务和财务管理等多个专业领域的AI助手功能打包集成。这一更新将为企业用户提供更全面的智能办公解决方案，通过统一平台实现跨部门协作和业务流程优化，进一步提升工作效率和决策质量。

内容版权

网络爬虫技术

RSL标准协议

2025-09-12

在线媒体品牌希望新协议能阻止未授权AI爬虫

雅虎、Quora、Medium等在线媒体品牌正采用名为RSL的新协议，防止AI公司未经授权复制其内容用于模型训练。RSL协议基于RSS标准开发，为AI时代的互联网提供缺失的许可层。该协议旨在成为比robots.txt更强大的技术层，应对目前占互联网流量一半以上的AI爬虫。Reddit、MIT出版社等多家机构已加入该协议。随着AI导致网站流量下降25%，出版商正通过诉讼或授权协议寻求补偿。

数源AI

AI源于数据，数源AI专注于AI领域入门及提升，让大家能够更加快速高效的完成相关专业知识的学习！学AI就来数源！

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: