这项由浙江大学等多家机构联合完成的大规模调研首次系统性梳理了操作系统智能体这一前沿领域,全面分析了基于多模态大语言模型的AI助手如何像人类一样操作电脑手机。研究涵盖了技术架构、训练方法、评估体系和发展挑战,为实现类似贾维斯的智能数字助手提供了完整的技术路线图。
微软八月补丁星期二更新修复了超过100个漏洞,其中包括8个关键的远程代码执行漏洞,影响DirectX、Hyper-V、Office等多个产品。此外还修复了Windows NTLM权限提升漏洞、Hyper-V信息泄露漏洞等。值得关注的是Windows Kerberos权限提升漏洞CVE-2025-53779,虽然已有公开利用代码但暂无实际攻击证据。SharePoint的两个漏洞也需重点关注,特别是RCE漏洞CVE-2025-49712可能与已知认证绕过漏洞组合使用。
Google Photos推出快速修复方案,允许用户重新启用经典搜索功能,替代此前推出的"Ask Photos" Gemini AI搜索工具。这一调整回应了用户对传统搜索方式的需求,为那些更偏好直接关键词搜索而非AI对话式查询的用户提供了选择。
浙江大学和阿里巴巴团队开发Memp框架,为智能体构建程序性记忆能力。该系统通过构建、检索、更新三个模块,让智能体从过往经验中学习,显著提升任务成功率50%,执行效率提升一半。更重要的是,强模型的记忆可传递给弱模型,实现经验共享。这项研究为构建具有持续学习能力的智能系统开辟新路径。
卡内基梅隆大学开发的LightSwitch技术能让3D物体在任意光照环境下呈现真实外观,解决了传统重光照方法速度慢、效果不真实的问题。该技术采用材质感知和多视角一致性机制,将计算时间从数小时压缩至几分钟,在电影制作、游戏开发、虚拟现实等领域具有广阔应用前景。
清华大学和智谱AI联合发布GLM-4.5系列模型,这是首个在推理、编程和智能代理三大核心领域同时达到顶尖水平的开源AI模型。GLM-4.5拥有355B参数但仅激活32B,创新的混合推理模式能根据任务复杂度自动选择思考深度。该模型在12项基准测试中排名第三,智能代理任务排名第二,已完全开源供研究使用。
韩国NXN Labs开发的Voost系统实现了虚拟试衣技术的重大突破,能够同时处理"试穿"和"脱衣"两个相反任务。该系统使用统一的AI模型和创新的双向学习方法,在图像质量、细节保持和结构准确性方面都超越了现有技术,为电商购物和时尚行业带来革命性改变。
浙江大学联合多家机构提出AEPO方法,通过多答案生成和自适应探索奖励机制,显著提升AI在图形界面中的元素识别准确性。该技术让AI能同时考虑多个候选答案并科学评估,解决了传统方法容易陷入错误自信的问题,在五个基准测试中均达到业界领先水平,为智能GUI助手的实际应用奠定了重要基础。
上海交通大学团队开发的ASAP方法通过"锚点引导"和"首词惊喜度"两阶段技术,成功解决了AI推理模型内容冗长问题。该方法在保持准确性的同时,将推理速度提升43.5%,生成内容减少23.5%,为AI推理优化开辟了新方向,代表了从追求模型规模向追求效率质量平衡的重要转变。
这项ETH苏黎世等机构的综述研究首次从无标签视觉数据可用性角度系统分析视觉语言模型的无监督适应问题,提出了包含无数据迁移、无监督领域迁移、批次测试时适应和在线测试时适应四种场景的分类框架,详细梳理了每种场景下的核心方法和策略,为该领域提供了全面的理论指导和实践参考,推动AI向更灵活自主的方向发展。
厦门大学研究团队开发出UI-AGILE框架,通过"简单思考"策略、连续评分奖励和分解定位技术,让人工智能学会像人类一样精准操作电脑界面。该方法在专业测试中将定位准确率提升23%,仅需9000个样本就能高效训练。这项突破性技术具有强通用性,可直接提升现有AI系统性能,将很快应用于智能助手、自动化工具等日常软件中,为用户带来更便捷的人机交互体验。
北京航空航天大学团队开发的MeshLLM系统实现了大语言模型与3D建模的创新融合,用户可通过自然对话创建和理解3D模型。该系统采用原始网格分解策略,将训练数据扩展至150万样本,比传统方法增加近50倍。通过渐进式训练和多任务学习,MeshLLM在生成质量和理解能力上显著超越现有方法,为3D内容创作和人机交互开辟了新途径。
上海AI实验室等机构联合发布MELLA项目,通过创新的"双源数据策略"解决了多语言视觉AI的文化理解难题。该研究构建了包含680万样本的大规模数据集,涵盖8种低资源语言,让AI既能流利表达又能理解文化内涵。实验显示文化理解能力提升150%以上,为全球数十亿非英语用户带来更优质的AI服务体验。
Meta FAIR实验室研究团队发现推理型AI模型虽然逻辑能力强,但在事实表达上容易产生幻觉。他们创新性地设计了包含准确性、详细性、相关性三维评价的训练体系,通过在线强化学习让AI模型既会深度思考又能准确表达事实。实验显示新方法将事实准确率提升23个百分点,同时增加23%的信息详细度,为构建更可信赖的AI系统提供了切实可行的解决方案。
东华师范大学团队提出MLLMSeg框架,仅用34M参数的轻量级模型在图像分割任务中超越了632M参数的传统SAM模型。该方法通过创新的DSFF特征融合模块,充分挖掘多模态大语言模型视觉编码器的潜力,将细节特征与语义特征完美结合,在RefCOCO等标准数据集上取得领先性能,为移动设备部署和实际应用提供了高效解决方案。
中山大学研究团队揭示了大语言模型存在"注意力盆地"现象,即AI在处理多文档时优先关注开头和结尾内容,忽略中间信息。研究发现这种U型注意力分布源于模型对结构边界的特殊偏好。基于此发现,团队开发了注意力驱动重排序方法,通过调整信息位置而非修改模型参数,在十种主流AI模型上实现了显著性能提升,为AI优化提供了全新的"顺势而为"思路。
上海交通大学团队提出SODEC图像压缩技术,突破传统扩散模型压缩速度慢、保真度差的限制。通过单步扩散处理、保真指导模块和比特率退火训练策略,SODEC实现比传统方法38倍的速度提升,同时在图像质量各项指标上超越现有最先进方法,为多媒体应用提供高效解决方案。
Dell PowerProtect以持续创新助力企业提升网络韧性、简化恢复流程,在持续演进的网络威胁环境中筑牢数据安全防线