上海人工智能实验室联合多家机构推出MinerU2.5文档解析模型,仅用12亿参数就在文本、公式、表格识别等任务上全面超越GPT-4o等大型模型。该模型采用创新的两阶段解析策略,先进行全局布局分析再做局部精细识别,计算效率提升一个数量级。通过重新定义任务标准和构建高质量数据引擎,MinerU2.5能准确处理旋转表格、复杂公式、多语言文档等挑战性内容,为文档数字化提供了高效解决方案。
英伟达研究团队开发的LONGLIVE系统实现了实时交互式长视频生成的重大突破。该系统通过KV重缓存、流式长视频调优和短窗口注意力等创新技术,在单块H100显卡上达到20.7FPS的生成速度,支持240秒视频生成,速度比现有系统快41倍。核心创新在于解决了传统视频生成系统面临的效率与质量矛盾,以及交互式生成中的视觉连续性难题,为视频创作的民主化开辟了新路径。
中科大研究团队针对AI大语言模型训练中的"熵值困境"问题,提出了分位数优势估计新方法。该方法通过改进基准线设定策略,有效解决了训练过程中的熵值崩塌和爆炸问题,在数学推理任务上实现了显著性能提升。研究显示,仅需一行代码修改就能获得21.5%的准确率改进,且具有80%样本自动过滤的高效特性,为AI训练稳定性提供了理论保障和实用解决方案。
罗格斯大学与Adobe联合研究发现AI智能体在执行30+步骤的复杂任务时会遭遇"探索-利用级联失效"——早期盲目探索导致错误决策传播至后续步骤,造成训练崩溃。研究团队开发的EPO框架通过轨迹感知熵正则化、历史窗口平滑机制和自适应权重调整,成功解决了这一难题,在测试中实现152%性能提升,为AI智能体处理复杂多步任务奠定了重要基础。
KAIST团队开发了名为REVIEWSCORE的AI系统,用于识别学术评审中的错误信息。研究发现,在AI顶级会议的评审意见中,26.4%的问题在论文中已有答案,15.2%的批评基于错误信息。该系统通过分析评审逻辑、验证前提假设来评估评审质量,为解决学术评审质量下降问题提供了新思路。
清华大学、新加坡国立大学等顶尖高校联合发布重大AI研究成果,创新性地提出变分推理框架解决AI推理训练中的偏见问题。该方法将AI思考过程分解为思维轨迹和答案两部分,通过"思考教练"机制避免AI偏向简单问题的毛病。实验显示在数学、编程等多个领域均有显著提升,为构建更智能可靠的AI系统奠定基础。
新加坡国立大学等机构研究团队提出反馈条件策略(FCP),让AI直接从文字反馈学习而非转换为数字评分。该方法在数学和通用推理任务上表现优异,能处理复杂混合反馈,支持灵活的行为控制,避免了传统强化学习中的奖励黑客问题,为AI训练开辟了新路径。
上海AI实验室等机构联合发布CapRL框架,通过创新的强化学习方法解决AI图像描述质量评判难题。该方法将主观的描述质量转化为客观的问答准确率测试,使30亿参数模型达到720亿参数模型的描述效果,在多项基准测试中实现显著提升,为视觉AI应用带来实质性改进。
香港中文大学研究团队创建了首个全面评估AI语音助手的标准体系VoiceAssistant-Eval,包含10,497个测试案例,涵盖听说看三大能力维度的13个任务类别。通过对22个模型的测试发现:商业模型并非全面领先,多数模型说话强于听力,小模型也能超越大模型,但多模态整合和安全性仍需改进。
这项由滴滴出行、中山大学、清华大学等机构联合开展的突破性研究首次深入揭示了人工智能在处理复杂长期任务时面临的重大挑战。研究团队开发了UltraHorizon测试平台,发现目前最先进的AI系统在长期任务中表现远不如人类,主要受限于"情境锁定"和"基础能力缺陷"两大根本问题,并提出了有效的解决策略。
香港中文大学研究团队开发的WebGen-Agent系统通过为AI配备视觉反馈和用户测试能力,解决了传统网站生成AI"盲目"开发的问题。该系统让AI能够"看见"网站外观并模拟用户测试功能,结合智能回溯机制和Step-GRPO训练方法,将Claude-3.5-Sonnet的网站生成准确率从26.4%提升至51.9%,美观度评分从3.0提升至3.9分,为AI网站生成技术带来突破性进展。
香港科技大学团队开发的LucidFlux是一个革命性的图像修复系统,能够在不需要任何文字描述的情况下自动修复模糊、噪点、压缩损坏的照片。该系统采用双分支条件器协同工作,一个分支保护细节信息,另一个分支抑制伪影,通过时间步和层级自适应调制实现精准修复。系统使用SigLIP直接从图像提取语义信息,避免了传统方法依赖文字描述的局限性。在多项测试中,LucidFlux都超越了现有的开源和商业修复工具,为图像修复技术树立了新标杆。
上海交通大学和上海人工智能实验室联合团队提出MesaTask框架,首次实现从高层任务指令直接生成符合要求的三维桌面场景。研究构建了包含10700个精调场景的MesaTask-10K数据集,通过"空间推理链"方法将复杂生成过程分解为物体推理、关系推理和场景构建三步。实验显示该方法在任务一致性和布局合理性方面显著优于现有技术,为机器人训练和智能场景生成提供了新的解决方案。
2025年10月16日,以“智算驱动·万象更新”为主题的超智算人工智能产业生态大会在北京银保园金融文化交流中心盛大启幕。
全新K5V系列开关融合LED背光、镀金可靠性与紧凑防尘设计,采用耐高温PAR材料,实现高效SMT组装。
10月17日,在2025 HICOOL 创业者峰会期间,由HICOOL主办,至顶科技联合主办的《人工智能分舞台》正式亮相。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。
这项由天津大学、滴滴出行等机构联合开展的研究提出了D-Artemis框架,通过模拟人类"思考-校准-反思"认知过程,让手机AI助手具备预执行错误检测和纠正能力。该框架在AndroidWorld上达到75.8%成功率,在ScreenSpot-V2上达到96.8%成功率,将传统系统的基础操作错误大幅降低,标志着AI助手从"事后补救"向"事前预防"的重要转变。
字节跳动研究团队推出X-Streamer技术,首次实现从单张照片生成具有无限对话能力的数字人。该系统采用思考者-行动者双架构,统一处理文本、语音和视频生成,支持实时交互和长时间稳定对话。在双GPU配置下可达25fps生成速度,在多项指标上超越现有方法,为数字人技术的实际应用奠定了基础。