加州大学欧文分校计算机科学家Peter Burke展示了机器人如何通过生成式AI模型和硬件自主编程大脑。该项目中,AI模型被提示编写代码,创建实时无人机地面控制系统,运行在搭载树莓派的无人机上。整个过程耗时2.5周,生成1万行代码,效率比传统开发提升20倍。研究发现当前AI模型处理超过1万行代码时准确性显著下降。专家认为这标志着空间智能和自主捕获技术的重大进步。
OpenAI发布了两款开放权重AI推理模型gpt-oss-120b和gpt-oss-20b,具备与o系列相似的推理能力。这是OpenAI自五年前GPT-2以来首次发布开放模型。两款模型在多项基准测试中表现优异,其中120b版本可在单个英伟达GPU上运行,20b版本可在16GB内存的消费级笔记本上运行。模型采用Apache 2.0许可证发布,支持商业化使用。
加拿大AI公司Cohere推出名为North的AI智能体平台,承诺通过私有部署确保企业和政府数据安全。该平台可在客户自有基础设施上运行,包括本地环境、混合云或离线环境,最少仅需两个GPU。North具备聊天搜索功能,支持客服查询、会议记录总结等,并集成Gmail、Slack等办公工具,符合GDPR等国际合规标准。
香港科技大学研究团队开发出SpA2V框架,这是首个能够从音频中提取空间信息并生成对应视频的AI系统。该技术不仅能识别声音类型,还能准确判断声源位置、移动方向和距离,通过两阶段生成过程实现"听音生画"。实验结果显示SpA2V在空间对应性和视频质量方面显著超越现有方法,为音频可视化、影视制作、教育应用等领域开辟了新的可能性。
香港中文大学联合上海AI实验室开发的DAEDAL技术,突破了扩散语言模型固定长度限制的束缚。通过智能的长度预估和动态扩展机制,让AI能够根据任务复杂度自动调整回答长度,在数学推理等任务上准确率提升至85.8%,同时大幅提高计算效率。这项无需重新训练的技术为AI系统的自适应能力开辟了新方向。
南京大学团队提出PixNerd,一种革命性的像素空间图像生成模型。该模型摒弃传统VAE两阶段架构,直接在像素层面工作,通过神经场技术实现端到端训练。在ImageNet测试中达到2.15 FID,推理速度比同类模型快8倍,支持任意分辨率生成。研究还扩展至文本生成图像,在GenEval和DPG基准测试中表现优异,为AI图像生成提供了更简洁高效的解决方案。
上海交大团队开发SWE-Exp系统,让AI能从过往代码修复经验中学习,通过构建"经验银行"存储成功和失败案例,采用双智能体协作模式实现智能修复。在基准测试中达到41.6%成功率,比之前最好方法提升7.2%,开创了从试错探索向经验驱动修复的新范式。
上海交通大学研究团队开发了SWE-Debate框架,通过让多个AI代理进行结构化辩论来解决软件bug问题。该方法首先构建代码依赖图谱生成故障传播路径,然后组织AI代理进行三轮辩论选择最优修复方案。实验显示问题解决成功率达41.4%,故障定位准确率提升14.67%,证明了多智能体协作在复杂软件问题解决中的优势。
上海复旦大学研究团队发布了多模态指称分割技术的全面综述,这项技术能让机器像人一样理解复杂的语言描述并在视觉场景中精确分割目标。研究涵盖了从静态图像到动态视频、从单一视觉到音视频融合的完整技术体系,分析了超过600篇相关论文,总结了统一的技术架构和发展趋势,为这一前沿AI技术领域提供了权威性的技术指南和未来发展方向。
清华大学团队开发的IGL-Nav系统实现了机器人图像导航的重大突破,让机器人能够仅通过一张任意角度拍摄的照片准确找到拍摄地点。该系统采用3D高斯点云技术进行实时场景重建,结合粗定位到精定位的分层策略,在传统和自由视角导航任务中都显著超越现有方法。系统已成功部署到真实机器人平台,展现出强大的泛化能力和实用价值。
谷歌搜索负责人莉兹·里德发表博文回应外界质疑,声称AI搜索功能并未减少网站流量。她表示总体有机点击量同比保持稳定,同时谷歌搜索次数在增加。这似乎是对皮尤研究中心分析的回应,该研究显示AI概览功能降低了点击率。不过谷歌并未提供具体数据支撑其说法,且承认用户有时仅从AI答案中获取所需信息而不再点击。
微软发布了名为Project Ire的自主AI代理,声称可在无人协助下检测恶意软件。该原型使用大语言模型和二进制分析工具对软件进行逆向工程,判断代码是否恶意。在约4000个"困难目标"文件的实际测试中,该AI代理标记为恶意的文件中89%确实是恶意的,但仅检测出所有恶意软件的26%。微软计划将其集成到Defender安全工具套件中,作为威胁检测的二进制分析器。
随着新学年临近,Google在Gemini中推出"引导学习"工具,旨在像AI导师一样帮助用户深入理解概念而非简单获取答案。该功能通过图像、图表、视频和互动测验逐步分解问题,适应用户需求。此举紧随OpenAI推出ChatGPT学习模式一周后,两家公司都试图解决AI聊天机器人可能削弱学习过程的担忧。Google还宣布为美国、日本、印尼、韩国和巴西学生提供免费一年AI Pro订阅。
云软件集团将收购凯雷集团旗下的Arctera公司。Arctera是Cohesity去年收购威睿达后遗留的资产集合,主要包括备份执行器、数据合规和信息规模三大业务单元。Arctera拥有约3万全球客户、1500多名员工,年收入超过4亿美元。该交易将以现金形式完成,预计2025年第四季度完成收购。
特斯拉在机器人出租车领域引发巨大关注,尽管尚未推出真正的无人驾驶出租车服务。该公司最近采取了积极行动,包括在两个城市提供有监督的机器人出租车服务、扩大奥斯汀服务区域等。然而,马斯克在八年多时间里反复声称即将发布无监督自动驾驶系统,但从未兑现承诺。文章分析认为,特斯拉的实际部署行动既有研发价值,也有宣传目的,但真正的里程碑将是推出完全无监督的机器人出租车服务。
支付平台Lava Payments获得580万美元种子轮融资,由Lerer Hippeau领投。该公司致力于为AI代理经济构建数字钱包解决方案,允许用户使用统一积分在多个商户和服务间进行交易,无需人工干预。创始人Mitchell Jones发现在使用AI工具时需要重复订阅和认证,因此开发了这一平台。用户可一次性购买使用积分,AI代理可在执行任务时自动扣费,简化了支付流程。
AWS将自动推理检查功能正式推向市场,旨在为企业和监管行业提供更安全、可解释的AI应用部署。该功能利用数学验证方法确定真实性,能够验证AI响应准确性并检测模型幻觉问题,声称可捕获近100%的幻觉现象。神经符号AI结合了神经网络的模式识别与符号AI的逻辑推理,通过数学证明方法解决企业对生成式AI不确定性的担忧,为金融审计等应用场景提供可验证的正确性保障。
人工智能初创公司Cohere今日正式发布North生产力平台。该平台提供聊天机器人界面,帮助员工查询组织记录,从文档和云应用中检索数据。平台还能自动化内容创建,生成财务数据可视化和竞品研究报告等。North使用AI代理集合来自动化多步骤业务流程,支持与主流云应用集成。平台基于Cohere旗舰Command大语言模型变体,仅需两块显卡即可运行。
谷歌研究人员开发了新型AI研究智能体框架TTD-DR,在关键基准测试中超越OpenAI等竞争对手。该系统模拟人类写作过程,采用起草、搜索信息、迭代修订的方式,运用扩散机制和进化算法生成更全面准确的复杂主题研究。与传统线性处理方式不同,TTD-DR将研究报告创建视为扩散过程,从初始草稿逐步完善为高质量最终报告,为企业提供专业研究助手解决方案。
马来亚银行与微软签署为期五年、价值约十亿林吉特的合作协议,旨在推动其业务运营中的数字化和人工智能创新。该协议将使这家马来西亚领先的金融集团采用微软Azure作为主要云平台之一,用于战略性系统、功能和数据工作负载。银行还将为44000名员工部署Microsoft 365 Copilot智能助手,并使用微软先进的安全工具加强网络防御。