UCLA团队首创"具身网络智能体"概念,开发出能同时在现实世界和网络世界中操作的新型AI系统。通过1500多个跨域任务测试发现,当前最先进AI模型在此类任务中表现远逊于人类,主要问题在于跨域协调困难。该研究为AI发展指明了"统一智能"新方向,虽然技术尚不成熟,但为未来智能助手、智慧医疗、教育等应用奠定了基础。
这项由谷歌联合22所顶尖院校开发的研究首次推出了多语言多模态金融AI评测基准MultiFinBen,测试AI在五种语言和三种信息模态下的金融任务处理能力。结果显示即使最强的GPT-4o也只达到50.67%准确率,在多语言任务上仅7.50%,揭示了当前AI技术在实际金融应用中的严重不足,为行业发展指明了改进方向。
伦敦玛丽女王大学研究团队开发了CMI-Bench音乐AI评测基准,首次对11个主流音乐AI模型进行全面测试。结果显示这些模型在标准化评测中表现远低于预期,普遍不如传统专业软件,还存在明显文化偏见和性别偏见,为音乐AI发展提供了重要警示。
META公司FAIR实验组开发的V-JEPA 2系统通过观看100万小时视频实现了AI的重大突破,首次让机器同时具备理解、预测和规划三项核心能力。该系统在视频理解、行为预测和机器人控制等多个任务上创下新纪录,特别是仅用62小时训练就能零样本控制机械臂,为通用人工智能发展提供了新路径。
Meta研究团队开发了革命性的AU-Net架构,让AI无需传统分词直接从字节理解语言。这项技术在多语言处理和字符级任务上显著超越传统方法,为AI语言理解开辟了新路径。
上海人工智能实验室联合哈尔滨工业大学开发了Graph Counselor,一种让AI智能体像专业团队协作的图谱推理新方法。通过规划、思考、执行三个智能体的分工合作,加上自我反思机制,该方法在图谱问答任务上比现有方法提升24.2%,能显著减少AI的"胡说八道"现象,为构建更可靠的AI系统提供了新思路。
伊利诺伊大学香槟分校研究团队开发了Router-R1,一个能让多个AI模型像团队一样协作的智能调度系统。该系统通过强化学习,学会在"思考"和"调用专家"之间灵活切换,能根据任务复杂度动态协调不同AI模型,同时平衡性能与成本。在七个问答数据集的测试中,Router-R1显著超越现有方法,平均准确率提升约20%,并展现出对未见过模型的强泛化能力。
南京大学研究团队提出T2MIR架构,通过令牌级和任务级专家混合机制,解决了强化学习中多模态数据处理和多任务适应的关键挑战。该方法让AI系统能像专家团队一样分工协作,显著提升了学习效率和任务适应能力,为构建更智能的自适应AI系统提供了新思路。
今年是Amy Herzog第一次参加re:Inforce,她深刻感受到生成式AI已经进入旅程的下一阶段,从谈论愿景到真正开始看到成果。当然,她喜欢看到技术创新真正落地的瞬间,更希望有一天,安全能成为支撑这一切的最强底气。
存储行业近期动态频繁,Arctera、Wasabi和TD SYNNEX联合推出渠道专属数据保护解决方案;AWS启用EC2环境SAN启动功能;Broadcom发布VMware Cloud Foundation 9.0版本;Commvault与Kyndryl合作提升网络弹性服务;CTERA成为首家支持模型上下文协议的混合云存储供应商;多家企业获得新一轮融资,推动AI基础设施和数据管理技术发展。
亚马逊确认其升级版数字助手Alexa+用户数已超过100万。该服务由生成式AI驱动,目前仍处于邀请测试阶段,尚未公开发布。Alexa+提供更自然的对话交互、智能家居集成和AI扩展功能,早期访问期间免费使用,正式发布后Prime会员免费,非Prime用户每月收费19.99美元。用户反馈不一,但亚马逊表示已推出近90%的预告功能。
Salesforce发布Agentforce 3,这是其企业级人工智能产品的重大升级,新增AI代理观察和控制功能。该平台帮助企业构建、定制和部署生成式AI代理,自主辅助员工工作。新版本推出命令中心,提供完整的可观察性和模型上下文协议支持,实现与其他代理和服务的即插即用兼容性,并新增100多个预构建行业操作,加速标准化AI代理部署。
自动驾驶汽车已在旧金山、凤凰城等城市运营,不再是遥远的概念。Waymo等公司正扩大车队规模,特斯拉也在奥斯汀推出首个自动驾驶服务。自动驾驶技术有望提高交通安全、效率和可持续性,减少90%由人为错误导致的交通事故。但若缺乏监管,可能增加车辆行驶里程、加剧拥堵。城市需要通过路边管理、数据共享要求、电气化激励等政策工具,主动规划自动驾驶未来,确保其服务于公共利益。
泄露代码显示xAI正在为Grok开发高级文件编辑器,支持电子表格功能。该功能允许用户在编辑文件的同时与Grok对话并获得AI助手支持。这标志着xAI正努力与OpenAI、谷歌和微软竞争,将AI副驾驶嵌入生产力工具中。此举可能是马斯克将X打造成集文档、聊天、支付和社交媒体于一体的"超级应用"计划的重要一步。
孟加拉国联合国际大学研究团队开发了VisText-Mosquito多模态数据集,这是首个集成视觉检测和自然语言推理的蚊子繁殖点识别系统。该系统包含1970张标注图像,能够识别五类繁殖容器并进行水面分割,同时提供人类可理解的判断解释。YOLOv9s等模型达到92.9%检测精度,为全球蚊媒疾病防控提供了AI技术支撑。
斯坦福大学推出DynaGuide技术,让机器人无需重新训练就能通过视觉示例学会新任务。该系统采用独立的动态模型为机器人提供实时行为指导,成功率达70%,在处理模糊指令时比传统方法强5.4倍。技术支持多目标引导和即插即用部署,已在真实机器人上验证成功,为个性化机器人服务开辟新路径。
特拉维夫大学研究团队通过分析GCG攻击机制,发现越狱攻击的成功依赖于"注意力劫持"现象,即攻击后缀能占据AI注意力机制的主导地位。研究表明,攻击的万能性与劫持强度直接相关,并基于此开发了增强攻击效果和防御攻击的实用方法,为AI安全研究提供了新视角。
台湾大学与NVIDIA合作开发了EMLoC技术,让普通用户能在24GB消费级显卡上训练38B参数的超大AI模型。该方法通过创建智能"模拟器"将训练内存需求降至推理水平,配合独创的LoRA校正算法确保训练效果。这项突破大幅降低了AI模型定制化门槛,有望推动AI技术民主化发展。
美国加州大学洛杉矶分校等机构联合开发的Xolver系统,创新性地让AI学会像奥数团队一样协作解题和积累经验。该系统通过多智能体协作和双重记忆机制,在数学竞赛和编程挑战中取得突破性成绩,即使使用小型模型也能超越大型商用AI,为人工智能的发展开辟了新路径。