ByteDance种子实验室推出VeOmni全模态AI训练框架,通过模块化设计和分布式优化策略,解决了同时训练处理文字、图像、视频、音频等多种数据类型AI模型的技术难题。该框架让300亿参数模型在128个GPU上实现每秒2800+ tokens处理速度,支持16万长度序列,在与主流框架对比中展现显著性能优势。
致力于将 AI 技术应用于复杂环境中数据的Cloudera宣布推出最新版本Cloudera Data Services,将私有 AI 引入本地环境,并为企业在其防火墙后提供安全可靠的 GPU 加速生成式 AI 功能。
香港科技大学联合腾讯微信AI等机构开发出SitEmb-v1.5情境感知文本嵌入模型,突破传统AI只能孤立处理文本片段的局限。该技术让AI在理解文本时能考虑上下文环境,就像人类阅读一样。仅10亿参数的模型就超越了多个70-80亿参数的先进系统,在书籍理解等复杂任务中表现优异,已开源供全球开发者使用。
RoboMemory是中科大等机构联合开发的仿生机器人记忆框架,模仿人脑构建四重记忆系统,让机器人具备终身学习能力。在标准测试中超越当前最先进模型5个百分点,真实环境测试显示机器人重复任务成功率提升75%。该框架解决了传统机器人"健忘"问题,为智能机器人发展奠定重要基础。
田纳西理工大学研究发现,在特定条件下,纯粹追求短期利益的人工智能反而会自发表现出探索行为。研究通过多臂老虎机和网格世界实验证实,当环境具有重复结构且智能体拥有足够记忆时,贪婪策略能够产生类似Thompson采样的探索效果。这一发现挑战了探索与利用必须对立的传统观点,为简化强化学习算法设计提供了新思路。
宾夕法尼亚大学研究团队开发了AgentTTS系统,解决多阶段AI任务中的计算资源分配难题。通过发现不同子任务对模型大小的偏好差异、最优预算点存在性和子任务间相互依赖关系三个关键规律,该系统能智能分配计算预算,在六个数据集上的测试显示其在搜索效率和最终性能上均超越传统方法,为AI资源管理提供了新思路。
港科大团队提出的动态掩码稀疏注意力机制通过内容感知的动态掩码生成和位置感知的稀疏计算,让大语言模型学会智能分配注意力资源。该方法在保持完整信息的同时大幅降低计算复杂度,在长序列处理中实现10倍以上加速,并在多项基准测试中超越现有方法,为高效长文本处理提供了新的解决方案。
腾讯AI实验室推出认知内核-专业版,这是首个完全开源且几乎免费的AI智能体框架。该框架通过创新的分层架构和统一接口设计,最大化利用大语言模型能力,避免对昂贵专有工具的依赖。研究团队还训练了8B参数的CK-Pro-8B模型,在GAIA基准测试中超越同等规模开源模型,为AI助手的民主化发展提供了重要技术基础。
这项由意大利布鲁诺·凯斯勒基金会等机构联合完成的研究创建了首个跨语言多模态AI评测基准MCIF,涵盖英德意中四种语言,包含文字、语音、视频三种模态和13项任务。通过对21个先进AI模型的测试,发现AI在长文本处理、跨模态融合和指令鲁棒性方面存在显著不足,为AI技术改进指明了方向。
三星SAIL实验室开发了一套AI游戏制作系统,包含评测器AVR-Eval和制作器AVR-Agent。系统能通过观看游戏录像来评判质量,并基于反馈不断改进游戏。测试显示该方法比一次性生成效果好79.2%,但AI目前还不能有效利用外部资源和反馈,展现了人机创作的根本差异。
三家AI巨头同时发布重磅新模型。OpenAI推出首批开放权重模型OSS 120b和OSS 20b,具备Apache许可证,大模型推理能力与o4-mini相当,小模型可在智能手机运行。Anthropic发布Claude Opus 4.1,在代码编程和推理任务上显著提升。Google DeepMind推出Genie 3世界模型,可实时生成可交互的720p游戏世界,被视为通向AGI的重要步骤。
加州大学欧文分校计算机科学家Peter Burke展示了机器人如何通过生成式AI模型和硬件自主编程大脑。该项目中,AI模型被提示编写代码,创建实时无人机地面控制系统,运行在搭载树莓派的无人机上。整个过程耗时2.5周,生成1万行代码,效率比传统开发提升20倍。研究发现当前AI模型处理超过1万行代码时准确性显著下降。专家认为这标志着空间智能和自主捕获技术的重大进步。
OpenAI发布了两款开放权重AI推理模型gpt-oss-120b和gpt-oss-20b,具备与o系列相似的推理能力。这是OpenAI自五年前GPT-2以来首次发布开放模型。两款模型在多项基准测试中表现优异,其中120b版本可在单个英伟达GPU上运行,20b版本可在16GB内存的消费级笔记本上运行。模型采用Apache 2.0许可证发布,支持商业化使用。
加拿大AI公司Cohere推出名为North的AI智能体平台,承诺通过私有部署确保企业和政府数据安全。该平台可在客户自有基础设施上运行,包括本地环境、混合云或离线环境,最少仅需两个GPU。North具备聊天搜索功能,支持客服查询、会议记录总结等,并集成Gmail、Slack等办公工具,符合GDPR等国际合规标准。
香港科技大学研究团队开发出SpA2V框架,这是首个能够从音频中提取空间信息并生成对应视频的AI系统。该技术不仅能识别声音类型,还能准确判断声源位置、移动方向和距离,通过两阶段生成过程实现"听音生画"。实验结果显示SpA2V在空间对应性和视频质量方面显著超越现有方法,为音频可视化、影视制作、教育应用等领域开辟了新的可能性。
香港中文大学联合上海AI实验室开发的DAEDAL技术,突破了扩散语言模型固定长度限制的束缚。通过智能的长度预估和动态扩展机制,让AI能够根据任务复杂度自动调整回答长度,在数学推理等任务上准确率提升至85.8%,同时大幅提高计算效率。这项无需重新训练的技术为AI系统的自适应能力开辟了新方向。
南京大学团队提出PixNerd,一种革命性的像素空间图像生成模型。该模型摒弃传统VAE两阶段架构,直接在像素层面工作,通过神经场技术实现端到端训练。在ImageNet测试中达到2.15 FID,推理速度比同类模型快8倍,支持任意分辨率生成。研究还扩展至文本生成图像,在GenEval和DPG基准测试中表现优异,为AI图像生成提供了更简洁高效的解决方案。
上海交大团队开发SWE-Exp系统,让AI能从过往代码修复经验中学习,通过构建"经验银行"存储成功和失败案例,采用双智能体协作模式实现智能修复。在基准测试中达到41.6%成功率,比之前最好方法提升7.2%,开创了从试错探索向经验驱动修复的新范式。
上海交通大学研究团队开发了SWE-Debate框架,通过让多个AI代理进行结构化辩论来解决软件bug问题。该方法首先构建代码依赖图谱生成故障传播路径,然后组织AI代理进行三轮辩论选择最优修复方案。实验显示问题解决成功率达41.4%,故障定位准确率提升14.67%,证明了多智能体协作在复杂软件问题解决中的优势。