上海AI实验库推出YUME系统,用户只需输入一张图片就能创建可键盘控制的虚拟世界。该系统采用创新的运动量化技术,将复杂的三维控制简化为WASD键操作,并通过智能记忆机制实现无限长度的世界探索。系统具备强大的跨风格适应能力,不仅能处理真实场景,还能重现动漫、游戏等各种艺术风格的虚拟世界,为虚拟现实和交互娱乐领域提供了全新的技术路径。
上海AI实验室研究团队开发了革命性的AI编程验证方法,让大语言模型能够在最小人工干预下自动生成和验证程序规范。该方法摒弃传统的人工标注训练,采用强化学习让模型在形式化语言空间中自主探索,在Dafny编程验证任务上显著超越现有方法,为AI自主学习开辟新道路。
德国研究机构发现AI图像生成模型的记忆删除技术存在严重缺陷,现有权重修剪方法只是表面隐藏记忆而非真正删除。研究团队开发的Dori技术能够绕过这些防护措施,重新激活看似已被遗忘的训练数据。他们提出的对抗性微调解决方案通过重塑AI整体行为模式实现更可靠的记忆消除,为AI安全和版权保护提供了新思路。
上海人工智能实验室的研究团队通过大量实验发现,AI在数学、编程、逻辑推理三个领域的跨域学习中表现出复杂的相互影响:数学与逻辑推理能力相互促进,编程训练效果因模型类型而异,多领域组合训练虽然在单项上可能不如专门训练,但整体表现更均衡。同时,模板一致性、课程学习、奖励设计等因素对AI学习效果影响巨大,中文训练的AI推理能力普遍低于英文训练。
北京大学等七所院校研究团队通过"图灵眼测试"发现,包括OpenAI o1、Claude-4在内的15个顶级多模态AI模型在人类轻松完成的基础视觉任务上几乎全军覆没,成功率接近零。研究揭示问题根源在于AI视觉编码器的泛化能力缺陷,而非推理不足,为改进AI视觉系统指明了新方向,对自动驾驶、医疗影像等应用具有重要警示意义。
华盛顿大学研究团队发现,大型语言模型在未接受手语训练的情况下,竟然具备理解德语手语的能力。通过系统实验,他们证实了模型能够判断手语语法正确性,并进行手语与文字间的翻译。这种"涌现的多模态能力"源于模型对语言抽象结构的深度理解,为开发手语翻译技术和改善聋哑人群数字交流体验开启了新可能。
谷歌DeepMind团队提出STAR方法,通过模仿苏格拉底教学法让AI学会类比推理,解决传统AI无法"举一反三"的问题。实验显示该方法显著提升AI处理新问题的能力,在逻辑推理准确率从40%提升至75%以上。这项突破为创造真正智能的AI系统指明方向,未来将在教育、医疗、创意设计等领域产生重要应用价值。
索尼与KAIST联合开发的DesignLab突破了传统AI设计工具的单步生成局限,创新性地将设计过程分解为评审和修改两个角色,通过迭代优化实现专业级PPT设计。该系统采用"逆向扰动"方法构造训练数据,在与商业工具的对比中表现优异,为AI在创意设计领域的应用开辟了新路径。
Meta和华盛顿大学研究团队开发出PrefPalette系统,首次将认知科学的多属性决策理论引入AI偏好预测。该系统通过分析19个属性维度理解用户偏好形成过程,在Reddit 45个社区测试中准确率比GPT-4o提高46.6%。系统不仅能预测用户喜好,还能解释预测原因,为构建透明可解释的个性化AI奠定基础。
瑞士苏黎世联邦理工学院研发的EXPTEACH系统让机器人首次具备了类人学习能力。通过双重记忆机制,机器人能从失败中学习并将经验应用到新任务,成功率从22%提升至80%。系统还观察到机器人自主创新行为,如使用工具解决问题。这项突破性研究为通用智能机器人发展开辟了新道路。
清华大学团队提出了一种创新的零样本量化方法,专门针对物体检测任务优化AI模型。该方法无需真实训练数据,通过自适应标签采样生成任务特定的合成图像,结合多层次知识蒸馏框架实现高效模型压缩。实验显示,该方法在多个数据集上的性能甚至超越了使用完整真实数据的传统方法,同时显著提升了训练效率,为隐私保护与AI技术发展找到了平衡点。
首尔大学研究团队开发出RALU技术,通过智能识别图像重要区域并优化计算资源分配,成功将AI图像生成速度提升3-7倍。该技术采用三阶段生成策略,重点处理边缘区域以避免失真,同时配备噪声重调度算法确保质量稳定。测试显示该技术在大幅加速的同时保持了高质量输出,且可与现有加速方法结合使用,为AI绘图工具的普及和实时应用提供了重要技术突破。
MIT研究团队开发出TIM系统,通过模仿人类认知的"聪明遗忘"机制,让AI能够进行无限长度的复杂推理。该系统将推理任务分解为树状结构,自动清理已完成子任务的细节信息,仅保留关键结论,实现了用不到50%内存完成相同推理任务的突破。配合TIMRUN引擎,TIM还支持端到端工具调用,大幅降低了成本和复杂度,为开发真正智能的AI助手开辟了新路径。
香港科技园公司率领九家园区人工智能企业参加WAIC 2025 ,业务横跨生命健康科技、金融科技、娱乐事业、航天科技、数码、教育。
StepFun团队发布了突破性语音AI系统Step-Audio 2,这是首个真正实现端到端语音对话的模型,能直接处理语音而无需文字转换。该系统不仅能理解语言内容,还能感知情绪、语调等副语言信息,并用自然的语音回应。通过8百万小时语音数据训练,在多项测试中超越GPT-4o等商业系统,代表了人机交互技术的重大进步。
NVIDIA联合台湾大学推出ThinkAct框架,首次实现机器人"思考后行动"的能力。该系统通过双架构设计,让机器人先进行视觉推理和计划制定,再执行具体动作。在多项测试中表现优异,成功率提升15%以上,并展现出少样本适应、长期规划和自我纠错三大突破性能力,为通用智能机器人发展指明方向。
上海AI实验室提出SOPHIA方法,通过半外部策略强化学习让视觉AI学会深度推理。该方法结合模型自身视觉理解与外部推理能力,有效避免视觉幻觉问题。在多个基准测试中显著提升性能,InternVL3.0-38B平均提升8.50%,在挑战性数学和科学推理任务上甚至超越部分闭源模型,为多模态AI的"慢思考"能力发展提供了新路径。
许多人认为一旦实现通用人工智能(AGI)和人工智能超级智能(ASI),这些高度先进的AI将能够告诉我们人生的真正意义。然而,巅峰AI可能无法明确回答这个史诗般的问题。即使AI拥有人类所有知识,也不意味着能从中找到生命意义的答案。AI可能会选择提供多种可能性而非绝对答案,以避免分裂人类社会。
剑桥咨询CEO蒙蒂·巴洛在采访中分享了如何识别具有潜力的技术领域。他表示,当听到看似不可能或令人惊讶的技术时会特别关注,如深度学习AI、量子计算等。该公司作为"深度科技强国",专注于生物工程、人工智能、量子计算等领域,拥有740名员工,年均为客户创造5000多项专利。巴洛强调跨学科合作的重要性,预测未来计算机系统的应用需求将大幅增长。
智能交通信号灯、自适应建筑、实时调度的公共交通——AI正在全面重塑城市运转方式。从智能建筑的能耗管理到街灯的动态调节,从交通流量优化到公共安全预警,AI正在城市基础设施的各个层面发挥作用。匹兹堡的AI交通控制系统让路口等待时间减少40%,排放下降21%。吉隆坡部署的5000个AI摄像头实现实时监控和预警。智能垃圾桶、聊天机器人等应用让城市服务更高效便民。