最新文章第25页

2025-08-06

北大团队发布ROCKET-3：让AI机器人在游戏中"练武"，竟能零基础操控真实世界

北京大学研究团队开发的ROCKET-3系统通过让AI在《我的世界》中完成10万个训练任务，学会了跨视角空间推理能力。该AI在游戏中的交互成功率提升了4倍，更令人惊喜的是能够零基础操控真实世界的机器人。这项研究证明了虚拟环境训练的巨大潜力，为AI从专用工具向通用智能体的转变指明了新方向。

Anthropic团队：AI的内心世界并非不可捉摸——首次实现语言模型性格特征的精准监控与调节

Anthropic研究团队开发出革命性的"人格向量"技术，首次实现对AI性格特征的精准监控与调节。该技术能够实时检测AI的恶意、逢迎、幻觉等倾向，预测准确率达75-97%，并提供训练前数据筛选、训练中预防调节、部署后实时监控三重保护。研究发现AI学习过程中存在意外的性格相互影响现象，为构建更安全可控的AI系统提供了重要技术支撑。

微软Phi-Ground：让AI助手真正看懂电脑屏幕的突破性技术

微软研究院团队开发了Phi-Ground模型，解决AI助手无法准确操作电脑界面的关键问题。通过创新的两阶段策略和大规模数据训练，该模型在多项基准测试中创下最佳记录，准确率显著提升。研究涵盖了从数据处理到模型优化的完整技术链条，为构建真正实用的AI助手奠定重要基础，同时也提出了隐私保护等需要解决的挑战。

南卫理公会大学发现：ChatGPT背后的注意力机制为何如此强大——从递归神经网络视角破解Softmax注意力的表达力之谜

南卫理公会大学研究团队通过递归神经网络视角重新解析Softmax注意力机制，发现其可分解为无穷多个递归网络的叠加，每个网络捕捉不同阶数的特征交互。研究证明线性注意力仅为Softmax的一阶近似，缺乏高阶交互能力，并发现Softmax分母可用简单向量归一化替代，为优化AI计算效率提供新思路。

斯坦福团队推出农业AI助手测试集：让AI学会像农学家一样思考

这项由斯坦福大学等多所知名研究机构联合开展的研究，首次为农业人工智能建立了全面的评估标准AgroBench。该测试集涵盖疾病识别、害虫识别、杂草识别等七个农业核心任务，包含4342个专家标注的问答对，测试结果显示AI在农业管理建议方面表现出色，但在精确视觉识别任务上仍需改进，为农业AI的未来发展指明了方向。

北大团队揭秘：如何让3D渲染技术从"手工作坊"升级为"智能工厂"

北京航空航天大学等机构联合提出NeRF-GS框架，将神经辐射场NeRF与3D高斯点云3DGS进行协同优化。该方法通过特征共享、残差向量建模和联合优化三大机制，有效解决了3DGS对初始化敏感、空间感知有限等问题，在保持实时渲染的同时显著提升了图像质量，为3D场景表示技术融合提供了新思路。

哈佛大学首次实现"时间流动"感知的人工智能：让机器像人类一样理解运动和变化

哈佛大学研究团队首次实现了人工智能的"流等变性"，让机器能够像人类一样理解时间中的运动和变化。这项突破性研究开发出FERNNs神经网络，不仅能识别物体位置，还能理解运动规律。实验显示，该技术在运动预测任务中性能提升50倍，并具备零样本泛化到新运动模式的能力，为自动驾驶、机器人、视频分析等领域开辟了新前景。

Meta团队如何让AI学会全世界的语言？重新定义多语言视觉理解的全球化突破

Meta AI团队联合MIT等机构开发的MetaCLIP 2系统，首次实现了真正的全球化AI视觉理解。该系统支持300多种语言，不仅突破了传统多语言AI的"诅咒"问题，还让英语性能提升0.8%，在多项国际测试中创下新纪录。通过创新的训练策略和开源架构，为构建真正服务全人类的AI技术奠定了基础。

阿里达摩院推出VL-Cogito：多模态推理能力突破的渐进式课程强化学习框架

阿里达摩院联合复旦大学开发了VL-Cogito多模态推理模型，采用创新的渐进式课程强化学习框架PCuRL。该系统模仿人类学习方式，通过三阶段训练让AI学会根据问题难度智能调整回答详细程度。VL-Cogito在十个基准测试中表现卓越，展现了在数学、科学、逻辑推理等多领域的强大能力，为多模态AI实际应用开辟了新路径。

香港中大团队让AI看懂网页设计图，直接生成完整前端代码

香港中大团队开发出ScreenCoder系统，能够直接将网页设计图转换为完整的HTML/CSS代码。该系统采用三个专门AI助手协作的方式：识别专家负责检测界面元素，规划专家构建布局结构，代码生成专家输出最终代码。测试显示布局准确率达75.5%，显著超越现有方法。该技术不仅提高了网页开发效率，还能作为训练数据工厂改进其他AI模型，为设计到代码的自动化转换提供了新的解决方案。

ShanghaiTech大学最新成果：让3D模型像变形金刚一样自动分解，一键实现爆炸图生成

ShanghaiTech大学研究团队开发了BANG系统，能让3D模型像变形金刚一样自动分解成零部件，生成爆炸图。该系统采用"生成式爆炸动力学"技术，通过AI深度学习理解物体结构逻辑，实现从完整到分解的平滑过渡。相比传统表面分割方法，BANG能处理内部结构，生成完整体积部件，处理速度提升8倍以上。系统支持语言控制和2D交互，可应用于3D打印、教育展示、产品设计等领域，为3D智能应用开创新范式。

卡内基梅隆大学新突破：让AI学会"看懂"天空中的汽车，再也不用担心航拍车辆识别困难了

卡内基梅隆大学研究团队开发了一种创新的航拍图像车辆检测技术，通过生成式AI和跨域适应解决了不同地区环境差异导致的检测性能下降问题。该方法利用扩散模型生成合成训练数据，结合多通道注意力机制实现精确标注，在多个数据集上相较现有方法提升显著，为智能交通、城市规划、应急响应等领域提供了实用的技术解决方案，并贡献了两个高质量的航拍车辆检测数据集。

AI让程序自己找病因！阿里巴巴联合多所高校突破性研究如何让代码修复变得更聪明

这项由阿里巴巴云计算联合浙江大学、南京理工大学开展的研究提出了Repair-R1方法，革命性地改变了自动化程序修复的思路。不同于传统的"先修复后测试"方式，该方法要求AI首先生成诊断性测试用例来理解错误根因，再进行针对性修复。通过强化学习框架同时优化测试生成和代码修复能力，在四个基准数据集上取得显著改进：修复成功率提升2.68%-48.29%，测试生成成功率提升16.38%-53.28%。这种"理解驱动"的修复策略为智能编程助手开辟了新方向。

人工智能

大语言模型

推理优化

2025-08-06

OpenAI与Anthropic发布推理优化大语言模型

OpenAI发布两款开源推理模型gpt-oss-120b和gpt-oss-20b，分别具有1170亿和210亿参数，可运行代码并与外部系统交互。其中20b版本仅需16GB显存，适合设备端部署。同时Anthropic推出Claude Opus 4.1升级版，在编程能力测试中得分提升至74.5%，并改进了研究和数据分析功能。

人工智能

虚拟环境生成

生成模型优化

2025-08-06

谷歌DeepMind发布Genie 3模型用于生成交互式虚拟世界

谷歌DeepMind发布Genie 3人工智能模型，可基于自然语言提示生成交互式虚拟世界。该模型是Genie系列第三代产品，能够模拟森林、高山景观等室内外环境，支持用户通过指令修改天气、调整视角或添加物体。相比前代产品，Genie 3可持续渲染数分钟，分辨率提升至720p，并具备视觉记忆功能。该模型可用于训练具身智能体，为自主系统如工业机器人提供更高质量的训练环境。目前仅向有限测试者开放研究预览版。

游戏

生成式AI

亚马逊云科技

2025-08-06

生成式AI，游戏行业穿越周期的确定性变量

真正开启新一轮上行周期，生成式AI无疑是最具确定性的方向，它正深刻重构内容创作、技术底座、商业模式，为游戏产业打开全新的增长通道。

人工智能

固态硬盘

高容量存储

2025-08-06

闪迪发布256TB AI专用SSD，计划2026年出货

闪迪在FMS 2025展会上发布了256TB容量的UltraQLC SN670固态硬盘，计划于2026年上半年出货。该产品采用BiCS 218层3D NAND闪存技术和PCIe Gen5接口，专为AI驱动的数据密集型工作负载设计。硬盘配备定制控制器和先进优化技术，具备动态频率调节功能，可在给定功耗下提升10%性能表现，并通过数据保持配置减少33%的数据回收循环。

人工智能

大语言模型

开源发布

2025-08-06

OpenAI发布两款开源大语言模型，今日可下载使用

OpenAI发布gpt-oss-120b和gpt-oss-20b两款开源模型，这是自2019年GPT-2以来首次发布开放权重模型。用户可下载到本地硬件运行，支持模拟推理、工具使用和深度定制。小模型需16GB内存，大模型需80GB内存。两款模型均采用混合专家架构，支持可配置的思维链，上下文窗口为128000个token。性能接近专有云模型，但仅支持文本处理。

人工智能

存储系统

性能优化

2025-08-06

MLPerf存储基准测试v2.0显示阵列性能大幅提升

MLPerf存储基准测试第二版显示，测试系统服务的加速器数量比2023年1.0版本增加约一倍。MLCommons表示本轮测试参与度大幅提高，提交机构地域代表性更强，系统多样性更丰富。该基准测试评估存储系统在Unet3D、Cosmoflow和Resnet50 AI训练任务中的性能，以及Llama 3训练中的检查点性能。随着AI训练集群GPU数量增加，故障率上升，检查点技术成为标准做法。

人工智能

世界模型

实时交互

2025-08-06

谷歌推出Genie 3世界模型，可实时动态修改模拟环境状态

谷歌DeepMind发布新一代世界模型Genie 3，相比前代产品实现多项关键提升。新模型支持720p分辨率输出，可持续运行数分钟而不产生伪影，并首次支持实时交互和文本提示功能，用户可通过文本指令动态改变模拟世界状态。DeepMind将其定位为AI智能体训练工具，可用于自动驾驶等场景的"假如"情况训练，提高模型可靠性。

于游的碎碎念

技术分享，生活分享，基本上想发啥就发啥

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: