阿里巴巴通义千问团队推出GSPO算法,解决了大型语言模型强化学习训练中的稳定性问题。该算法改变传统逐词优化方式,采用序列级重要性权重和截断机制,显著提高训练效率和稳定性,特别适用于专家混合模型训练,已成功应用于Qwen3模型并取得显著性能提升。
俄罗斯Sber AI团队开发出NABLA算法,通过邻域自适应块级注意力机制实现AI视频生成2.7倍加速。该算法采用三步优化:降维侦察、智能筛选和精确映射,动态识别重要注意力区域,在保持视频质量的同时大幅减少计算开销,为高效AI视频生成提供新解决方案。
蚂蚁集团研究团队推出Agentar-Fin-R1金融专用AI模型,首次实现了金融专业知识与强推理能力的完美结合。该模型在保持通用推理能力的同时,在金融专业任务上取得突破性表现,并通过创新的三重保险体系确保高风险金融场景下的可靠性和合规性,为金融AI的专业化发展开辟了全新路径。
西安交通大学等机构研究团队提出MUR方法,通过"动量不确定性"概念让AI推理系统学会轻重缓急,在节省50%以上计算资源的同时提升0.62-3.37%的准确率。该方法从物理学动量概念获得灵感,能够识别关键推理步骤并选择性地分配计算资源,解决了AI推理中的"过度思考"问题,为提高AI系统效率开辟了新路径。
这项由都柏林大学团队完成的研究提出了DriftMoE系统,通过神经网络路由器与增量专家的协同学习来处理数据流中的概念漂移问题。该方法在九个基准数据集上的表现与传统大型集成方法相当,但资源消耗显著更低,特别适合边缘计算等资源受限场景,为构建高效自适应的流数据学习系统提供了新思路。
TechCrunch Disrupt 2025 AI舞台将汇聚塑造科技未来的领军人物,顶尖风投将揭示在快速变化的AI领域获得融资的关键。来自Apptronik、ElevenLabs、Hugging Face、Runway等创新企业的领导者将分享前沿洞见,探讨AI如何重塑创意过程、改变物理世界、变革国防安全和重新定义人际关系。10月27-29日,五大主题舞台将在旧金山呈现科技创新的未来图景。
英超联赛与微软达成五年战略合作伙伴关系,推出AI驱动的Premier League Companion服务,为全球球迷提供个性化体验。该服务利用Azure OpenAI技术,整合30多个赛季的统计数据、30万篇文章和9000个视频,帮助球迷发现和了解更多内容。未来还将为Fantasy Premier League引入个人助理经理功能,并通过Azure AI优化比赛直播体验和赛后分析。
继在Computex的首次发布后,全新AMD锐龙Threadripper 9000系列高端台式机(HEDT)处理器将于2025年7月31日正式上市。
Runway推出最新AI模型Aleph,旨在重新定义视频创作与编辑方式。基于通用世界模型和模拟模型研究,Aleph提供对话式AI工具,能即时对现有或生成的视频进行复杂编辑。用户只需简单提示,即可删除物体、更换背景或重塑整个场景。与以往专注于文本生成视频的模型不同,Aleph强调"流畅编辑",确保场景、角色和环境的一致性,无需逐帧修复缺陷,为电影制作者和广告商提供更高效的工作流程。
斯坦福大学NLP研究小组发布了全新的2024版GloVe词向量,这是对2014年原版的重大升级。新版本使用维基百科、Gigaword新闻数据和Dolma语料库进行训练,新增超过70万词汇,涵盖疫情、科技、网络文化等现代概念。测试显示新版本在处理当代文本、非西方人名地名和社交媒体内容方面表现显著优于旧版本,为自然语言处理应用提供了更准确的语言理解工具。
TeleAI团队发布TeleChat2、TeleChat2.5和T1三款大语言模型的技术报告,详述了从10万亿tokens预训练到强化学习优化的完整开发过程。T1-115B在数学推理上超越OpenAI o1-mini,展现了国产AI模型的技术突破。研究采用4D并行训练策略,在8000个华为昇腾NPU上完成训练,并全面开源以促进AI技术发展。
巴基斯坦拉合尔COMSATS大学研究团队开发出同时识别人脸年龄和性别的AI系统,专门针对精准广告投放优化。该系统性别识别准确率达95%,年龄估算平均误差仅5.77年。与传统分别处理两项任务的方法不同,研究采用统一框架学习共享特征表示,显著提升了整体性能。系统基于20000张人脸图像训练,为商业广告和智能监控等领域提供了新的技术解决方案。
GLiNER2是Fastino AI开发的统一信息提取系统,仅用2亿参数就集成了命名实体识别、文本分类和层次化结构提取三大功能。该系统最大亮点是完全支持CPU运行,无需GPU显卡,处理速度比同类模型快40倍,准确率达到72%。采用Apache 2.0开源协议,用户可通过pip免费安装使用,为企业和个人提供了高效、安全、低成本的文档处理解决方案。
斯坦福神经AI实验室开发出SpelkeNet系统,通过"虚拟戳击"让AI像婴儿一样理解物体的物理结构。该系统不依赖外观特征,而是模拟物理力作用来发现哪些像素会一起移动。在物体操作任务中表现显著优于传统方法,并意外展现出对支撑关系和材料属性的理解能力。
西班牙巴斯克大学开发的SegDT是首个将扩散变压器技术应用于医疗图像分割的AI系统,专门用于皮肤病变识别。该系统创新性地融合了修正流技术,将传统35步推理过程压缩至15步,在保持94%以上准确率的同时大幅提升效率。SegDT仅需990万参数即可在普通GPU上运行,为资源受限的医疗机构提供了专业级诊断支持,有望推动医疗AI的广泛普及应用。
浙江大学团队开发的LAPO方法成功解决了AI推理模型"过度思考"问题,通过两阶段训练让AI学会根据问题复杂度自主调整推理深度。实验显示该方法将计算用量减少40.9%的同时准确率提升2.3%,为AI系统的智能化和实用化发展提供了重要突破。
本研究提出了首个针对视觉自回归模型的测试时缩放框架TTS-VAR,通过自适应批次管理、聚类式多样性搜索和重采样式潜力选择三大策略,将AI图像生成质量显著提升8.7%。该框架巧妙地将生成过程视为路径搜索问题,在早期保持结构多样性,后期进行智能选择,实现了计算效率与生成质量的双重优化,为视觉生成技术发展提供了新思路。
斯坦福大学研究团队成功开发出FluidLoco系统,首次让机器人掌握了在复杂现实环境中稳定搬运液体的能力。该系统通过液体动力学预测模型和分层控制架构,让机器人能够预测液体运动并做出相应调整,在各种地形和干扰条件下保持85%以上的成功率。这项突破将在餐饮服务、医疗健康、工业制造等领域产生重要应用价值。