最新文章第5页

2025-10-20

AI语音助手的全面"体检报告"：香港中文大学研究团队首创多维度评测体系

香港中文大学研究团队创建了首个全面评估AI语音助手的标准体系VoiceAssistant-Eval，包含10,497个测试案例，涵盖听说看三大能力维度的13个任务类别。通过对22个模型的测试发现：商业模型并非全面领先，多数模型说话强于听力，小模型也能超越大模型，但多模态整合和安全性仍需改进。

人工智能长征路：斯坦福大学等顶尖机构联手揭示AI在复杂任务中的"马拉松式"挑战

这项由滴滴出行、中山大学、清华大学等机构联合开展的突破性研究首次深入揭示了人工智能在处理复杂长期任务时面临的重大挑战。研究团队开发了UltraHorizon测试平台，发现目前最先进的AI系统在长期任务中表现远不如人类，主要受限于"情境锁定"和"基础能力缺陷"两大根本问题，并提出了有效的解决策略。

香港中文大学推出WebGen-Agent：让AI做网站就像聊天一样简单，准确率暴涨一倍

香港中文大学研究团队开发的WebGen-Agent系统通过为AI配备视觉反馈和用户测试能力，解决了传统网站生成AI"盲目"开发的问题。该系统让AI能够"看见"网站外观并模拟用户测试功能，结合智能回溯机制和Step-GRPO训练方法，将Claude-3.5-Sonnet的网站生成准确率从26.4%提升至51.9%，美观度评分从3.0提升至3.9分，为AI网站生成技术带来突破性进展。

香港科技大学团队发布LucidFlux：让模糊照片重获新生的AI修复神器

香港科技大学团队开发的LucidFlux是一个革命性的图像修复系统，能够在不需要任何文字描述的情况下自动修复模糊、噪点、压缩损坏的照片。该系统采用双分支条件器协同工作，一个分支保护细节信息，另一个分支抑制伪影，通过时间步和层级自适应调制实现精准修复。系统使用SigLIP直接从图像提取语义信息，避免了传统方法依赖文字描述的局限性。在多项测试中，LucidFlux都超越了现有的开源和商业修复工具，为图像修复技术树立了新标杆。

机器人技术

3D场景生成

任务导向生成

2025-10-20

上海交大团队突破机器人场景生成瓶颈：让AI直接从任务指令"看懂"桌面应该怎么摆

上海交通大学和上海人工智能实验室联合团队提出MesaTask框架，首次实现从高层任务指令直接生成符合要求的三维桌面场景。研究构建了包含10700个精调场景的MesaTask-10K数据集，通过"空间推理链"方法将复杂生成过程分解为物体推理、关系推理和场景构建三步。实验显示该方法在任务一致性和布局合理性方面显著优于现有技术，为机器人训练和智能场景生成提供了新的解决方案。

2025-10-17

智算赋能，生态共荣——超智算人工智能产业生态大会在京启幕，共筑AI发展新范式

2025年10月16日，以“智算驱动·万象更新”为主题的超智算人工智能产业生态大会在北京银保园金融文化交流中心盛大启幕。

2025-10-17

Littelfuse推出首款具有SPDT和长行程且兼容回流焊接的发光轻触开关

全新K5V系列开关融合LED背光、镀金可靠性与紧凑防尘设计，采用耐高温PAR材料，实现高效SMT组装。

至顶科技

AI

创业

2025-10-17

至顶科技助力AI创业者，在HICOOL峰会探索“如何用AI赚到第一桶金”

10月17日，在2025 HICOOL 创业者峰会期间，由HICOOL主办，至顶科技联合主办的《人工智能分舞台》正式亮相。

IDEA研究院等机构联手打造智能AI助手：让机器像人类一样思考和学习的突破性技术

人工智能

检索增强生成

多智能体系统

2025-10-17

IDEA研究院等机构联手打造智能AI助手：让机器像人类一样思考和学习的突破性技术

IDEA研究院等机构联合开发了ToG-3智能推理系统，通过多智能体协作和双重进化机制，让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异，能用较小模型达到卓越性能，为AI技术的普及应用开辟了新路径，在教育、医疗、商业决策等领域具有广阔应用前景。

人工智能

强化学习

协同训练

2025-10-17

AI训练新突破：上海AI实验室让大模型自己当老师，推理和判断能力同步飞跃

上海人工智能实验室提出SPARK框架，创新性地让AI模型在学习推理的同时学会自我评判，通过回收训练数据建立策略与奖励的协同进化机制。实验显示，该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%，且训练成本仅为传统方法的一半，展现出强大的泛化能力和自我反思能力。

人工智能

移动设备交互

认知框架

2025-10-17

天津大学团队发布D-ARTEMIS：让手机AI助手像人类一样"三思而后行"

这项由天津大学、滴滴出行等机构联合开展的研究提出了D-Artemis框架，通过模拟人类"思考-校准-反思"认知过程，让手机AI助手具备预执行错误检测和纠正能力。该框架在AndroidWorld上达到75.8%成功率，在ScreenSpot-V2上达到96.8%成功率，将传统系统的基础操作错误大幅降低，标志着AI助手从"事后补救"向"事前预防"的重要转变。

字节跳动推出X-Streamer：让静态照片变身会聊天的数字人，实现无限时长实时对话

数字人技术

实时视频生成

统一多模态框架

2025-10-17

字节跳动推出X-Streamer：让静态照片变身会聊天的数字人，实现无限时长实时对话

字节跳动研究团队推出X-Streamer技术，首次实现从单张照片生成具有无限对话能力的数字人。该系统采用思考者-行动者双架构，统一处理文本、语音和视频生成，支持实时交互和长时间稳定对话。在双GPU配置下可达25fps生成速度，在多项指标上超越现有方法，为数字人技术的实际应用奠定了基础。

强化学习

自我模仿学习

智能体训练

2025-10-17

腾讯研究团队发明AI智能体训练新方法：让机器学会"从成功中学习"

腾讯优图实验室提出SPEAR方法，通过建立AI"成功经验库"和渐进式探索策略，解决智能体训练中的探索-利用平衡难题。该方法在虚拟环境、网购模拟和数学解题等任务中显著提升AI表现，仅增加10%-25%计算开销却带来高达20%的性能改进，为AI智能体实用化部署提供重要技术突破。

聊天机器人如何避免自己的夸夸其谈？Scale AI和UCLA团队破解AI训练的"奖励陷阱"

人工智能

强化学习

奖励建模

2025-10-17

聊天机器人如何避免自己的夸夸其谈？Scale AI和UCLA团队破解AI训练的"奖励陷阱"

Scale AI和UCLA研究团队发现AI训练中的"奖励过度优化"问题关键在于高分区域的准确性。他们提出基于评分标准的新方法，通过详细的评判标准而非简单偏好判断来训练模型。实验显示该方法在通用对话和医疗诊断任务中显著提升了模型表现，胜率分别达到39.7%和34.4%，并有效延缓了性能衰减现象。

人工智能

计算机视觉

模型可解释性

2025-10-17

中科院团队揭秘AI看图说话的"秘密"：机器到底在看什么？

中科院团队开发的EAGLE框架首次实现了对多模态大语言模型决策过程的精确解释，能够揭示AI在生成文字时关注的图片区域，并区分其依赖视觉证据还是语言先验。该方法在准确性上比现有技术提升20%以上，计算资源需求减少80%，在幻觉检测和纠正方面表现卓越，为构建更可信的AI系统提供了重要工具。

人工智能

图像生成

评估指标

2025-10-17

KAUST研究团队首创AI检查员：让机器像人一样发现图片生成中的"穿帮镜头"

KAUST研究团队开发的Mind-the-Glitch系统首次实现了AI图片生成中视觉一致性的精确检测和定位。该系统通过分离扩散模型的语义和视觉特征，创新性地解决了传统方法只能给出整体评分却无法指出具体问题位置的难题。其提出的VSM指标在测试中显著优于CLIP、DINO等现有方法，为AI图片生成质量评估提供了新的标准工具。

人工智能

状态空间模型

模型优化

2025-10-17

清华大学重磅成果：让AI变得更聪明的"记忆扩容"术

清华大学研究团队提出StateX技术，通过"记忆扩容"方式解决RNN模型记忆有限问题。该技术采用后训练改造策略，无需从头训练即可显著提升AI的长文本处理和信息记忆能力。实验显示，改造后的模型在记忆密集型任务上提升3.36%，"大海捞针"测试准确率从26%提升至42%，为AI模型优化提供了经济高效的新路径。

历史文献数字化

光学字符识别

多语言文档处理

2025-10-17

斯坦福大学研究团队首创CHURRO：让沉睡千年的古代文献重新开口说话

斯坦福大学研究团队开发了CHURRO历史文献识别系统，可处理跨越22世纪、46种语言的古代文献。该系统基于CHURRO-DS数据集训练，包含近10万页历史文档。CHURRO在印刷和手写文档识别上分别达到82.3%和70.1%准确率，超越最好的商业模型，成本仅为其1/15.5，为历史文献数字化提供了高效解决方案。

人工智能

强化学习

数学推理

2025-10-17

KAIST研究团队突破AI训练瓶颈：让大语言模型从"废料"中学会更聪明推理

KAIST研究团队开发出RL-ZVP方法，首次让AI从训练中的"无用数据"学习。传统方法遇到全对或全错答案时会停止学习，但RL-ZVP通过分析词汇重要性给予精确反馈。在数学推理测试中，该方法比现有技术提升高达8.6个准确率点，且训练过程更稳定。这项突破重新定义了AI训练范式，证明了被忽视的训练数据实际蕴含巨大学习潜力。

计算机视觉

视频生成模型

统一框架

2025-10-17

中国传媒大学团队发现：一个预训练视频生成模型竟能通用处理各种视觉任务

中国传媒大学团队发现，通过巧妙设计"视觉句子"框架，一个预训练的视频生成模型经过轻量级调整后能够统一处理多种视觉任务，包括图像生成、深度预测、物体分割等。该方法无需大量任务特定数据，每个任务仅用20个样本就能实现良好效果，展现了从专用AI向通用AI转变的可能性。

数源AI

AI源于数据，数源AI专注于AI领域入门及提升，让大家能够更加快速高效的完成相关专业知识的学习！学AI就来数源！

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: