最新文章第12页

2025-10-20

大语言模型竟然连最基本的格式要求都做不到？莫斯科高等经济学院揭露AI的"格式盲区"

莫斯科高等经济学院研究员尼古拉·斯克里普科开发了IFEval-FC基准测试，专门评估大语言模型在函数调用中遵循格式指令的能力。研究发现，即使是GPT-5和Claude Opus 4.1等最先进模型，在处理看似简单的格式要求时准确率也不超过80%，揭示了AI在实际应用中的重要局限性。

上海AI实验室推出MinerU2.5：让文档解析变得像看图说话一样简单

上海人工智能实验室联合多家机构推出MinerU2.5文档解析模型，仅用12亿参数就在文本、公式、表格识别等任务上全面超越GPT-4o等大型模型。该模型采用创新的两阶段解析策略，先进行全局布局分析再做局部精细识别，计算效率提升一个数量级。通过重新定义任务标准和构建高质量数据引擎，MinerU2.5能准确处理旋转表格、复杂公式、多语言文档等挑战性内容，为文档数字化提供了高效解决方案。

英伟达突破视频生成瓶颈：LONGLIVE让普通电脑也能实时生成超长视频

英伟达研究团队开发的LONGLIVE系统实现了实时交互式长视频生成的重大突破。该系统通过KV重缓存、流式长视频调优和短窗口注意力等创新技术，在单块H100显卡上达到20.7FPS的生成速度，支持240秒视频生成，速度比现有系统快41倍。核心创新在于解决了传统视频生成系统面临的效率与质量矛盾，以及交互式生成中的视觉连续性难题，为视频创作的民主化开辟了新路径。

AI大语言模型训练的"熵值困境"：中科大团队如何让机器学习更稳定

中科大研究团队针对AI大语言模型训练中的"熵值困境"问题，提出了分位数优势估计新方法。该方法通过改进基准线设定策略，有效解决了训练过程中的熵值崩塌和爆炸问题，在数学推理任务上实现了显著性能提升。研究显示，仅需一行代码修改就能获得21.5%的准确率改进，且具有80%样本自动过滤的高效特性，为AI训练稳定性提供了理论保障和实用解决方案。

罗格斯大学与Adobe联手破解AI智能体训练难题：大模型如何在复杂任务中学会平衡探索与利用

罗格斯大学与Adobe联合研究发现AI智能体在执行30+步骤的复杂任务时会遭遇"探索-利用级联失效"——早期盲目探索导致错误决策传播至后续步骤，造成训练崩溃。研究团队开发的EPO框架通过轨迹感知熵正则化、历史窗口平滑机制和自适应权重调整，成功解决了这一难题，在测试中实现152%性能提升，为AI智能体处理复杂多步任务奠定了重要基础。

KAIST团队用AI当"审稿神探"：破解学术评审中的"瞎说八道"难题

KAIST团队开发了名为REVIEWSCORE的AI系统，用于识别学术评审中的错误信息。研究发现，在AI顶级会议的评审意见中，26.4%的问题在论文中已有答案，15.2%的批评基于错误信息。该系统通过分析评审逻辑、验证前提假设来评估评审质量，为解决学术评审质量下降问题提供了新思路。

清华、新加坡大学等顶尖高校联手：让AI像人类一样深度思考，解决推理训练中的"偏心"问题

清华大学、新加坡国立大学等顶尖高校联合发布重大AI研究成果，创新性地提出变分推理框架解决AI推理训练中的偏见问题。该方法将AI思考过程分解为思维轨迹和答案两部分，通过"思考教练"机制避免AI偏向简单问题的毛病。实验显示在数学、编程等多个领域均有显著提升，为构建更智能可靠的AI系统奠定基础。

传统强化学习新变革：谷歌等研究机构发现语言模型可以跳过数字评分直接从文字反馈中学习

新加坡国立大学等机构研究团队提出反馈条件策略（FCP），让AI直接从文字反馈学习而非转换为数字评分。该方法在数学和通用推理任务上表现优异，能处理复杂混合反馈，支持灵活的行为控制，避免了传统强化学习中的奖励黑客问题，为AI训练开辟了新路径。

上海AI实验室发布CapRL：图像描述能力实现飞跃式突破

上海AI实验室等机构联合发布CapRL框架，通过创新的强化学习方法解决AI图像描述质量评判难题。该方法将主观的描述质量转化为客观的问答准确率测试，使30亿参数模型达到720亿参数模型的描述效果，在多项基准测试中实现显著提升，为视觉AI应用带来实质性改进。

AI语音助手的全面"体检报告"：香港中文大学研究团队首创多维度评测体系

香港中文大学研究团队创建了首个全面评估AI语音助手的标准体系VoiceAssistant-Eval，包含10,497个测试案例，涵盖听说看三大能力维度的13个任务类别。通过对22个模型的测试发现：商业模型并非全面领先，多数模型说话强于听力，小模型也能超越大模型，但多模态整合和安全性仍需改进。

人工智能长征路：斯坦福大学等顶尖机构联手揭示AI在复杂任务中的"马拉松式"挑战

这项由滴滴出行、中山大学、清华大学等机构联合开展的突破性研究首次深入揭示了人工智能在处理复杂长期任务时面临的重大挑战。研究团队开发了UltraHorizon测试平台，发现目前最先进的AI系统在长期任务中表现远不如人类，主要受限于"情境锁定"和"基础能力缺陷"两大根本问题，并提出了有效的解决策略。

香港中文大学推出WebGen-Agent：让AI做网站就像聊天一样简单，准确率暴涨一倍

香港中文大学研究团队开发的WebGen-Agent系统通过为AI配备视觉反馈和用户测试能力，解决了传统网站生成AI"盲目"开发的问题。该系统让AI能够"看见"网站外观并模拟用户测试功能，结合智能回溯机制和Step-GRPO训练方法，将Claude-3.5-Sonnet的网站生成准确率从26.4%提升至51.9%，美观度评分从3.0提升至3.9分，为AI网站生成技术带来突破性进展。

香港科技大学团队发布LucidFlux：让模糊照片重获新生的AI修复神器

香港科技大学团队开发的LucidFlux是一个革命性的图像修复系统，能够在不需要任何文字描述的情况下自动修复模糊、噪点、压缩损坏的照片。该系统采用双分支条件器协同工作，一个分支保护细节信息，另一个分支抑制伪影，通过时间步和层级自适应调制实现精准修复。系统使用SigLIP直接从图像提取语义信息，避免了传统方法依赖文字描述的局限性。在多项测试中，LucidFlux都超越了现有的开源和商业修复工具，为图像修复技术树立了新标杆。

机器人技术

3D场景生成

任务导向生成

2025-10-20

上海交大团队突破机器人场景生成瓶颈：让AI直接从任务指令"看懂"桌面应该怎么摆

上海交通大学和上海人工智能实验室联合团队提出MesaTask框架，首次实现从高层任务指令直接生成符合要求的三维桌面场景。研究构建了包含10700个精调场景的MesaTask-10K数据集，通过"空间推理链"方法将复杂生成过程分解为物体推理、关系推理和场景构建三步。实验显示该方法在任务一致性和布局合理性方面显著优于现有技术，为机器人训练和智能场景生成提供了新的解决方案。

2025-10-17

智算赋能，生态共荣——超智算人工智能产业生态大会在京启幕，共筑AI发展新范式

2025年10月16日，以“智算驱动·万象更新”为主题的超智算人工智能产业生态大会在北京银保园金融文化交流中心盛大启幕。

2025-10-17

Littelfuse推出首款具有SPDT和长行程且兼容回流焊接的发光轻触开关

全新K5V系列开关融合LED背光、镀金可靠性与紧凑防尘设计，采用耐高温PAR材料，实现高效SMT组装。

至顶科技

AI

创业

2025-10-17

至顶科技助力AI创业者，在HICOOL峰会探索“如何用AI赚到第一桶金”

10月17日，在2025 HICOOL 创业者峰会期间，由HICOOL主办，至顶科技联合主办的《人工智能分舞台》正式亮相。

IDEA研究院等机构联手打造智能AI助手：让机器像人类一样思考和学习的突破性技术

人工智能

检索增强生成

多智能体系统

2025-10-17

IDEA研究院等机构联手打造智能AI助手：让机器像人类一样思考和学习的突破性技术

IDEA研究院等机构联合开发了ToG-3智能推理系统，通过多智能体协作和双重进化机制，让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异，能用较小模型达到卓越性能，为AI技术的普及应用开辟了新路径，在教育、医疗、商业决策等领域具有广阔应用前景。

人工智能

强化学习

协同训练

2025-10-17

AI训练新突破：上海AI实验室让大模型自己当老师，推理和判断能力同步飞跃

上海人工智能实验室提出SPARK框架，创新性地让AI模型在学习推理的同时学会自我评判，通过回收训练数据建立策略与奖励的协同进化机制。实验显示，该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%，且训练成本仅为传统方法的一半，展现出强大的泛化能力和自我反思能力。

人工智能

移动设备交互

认知框架

2025-10-17

天津大学团队发布D-ARTEMIS：让手机AI助手像人类一样"三思而后行"

这项由天津大学、滴滴出行等机构联合开展的研究提出了D-Artemis框架，通过模拟人类"思考-校准-反思"认知过程，让手机AI助手具备预执行错误检测和纠正能力。该框架在AndroidWorld上达到75.8%成功率，在ScreenSpot-V2上达到96.8%成功率，将传统系统的基础操作错误大幅降低，标志着AI助手从"事后补救"向"事前预防"的重要转变。

数源AI

AI源于数据，数源AI专注于AI领域入门及提升，让大家能够更加快速高效的完成相关专业知识的学习！学AI就来数源！

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: