最新文章第31页

人工智能

大语言模型

开源技术

2025-08-22

TikTok母公司字节跳动发布开源Seed-OSS-36B模型，支持512K Token上下文

字节跳动Seed团队在Hugging Face发布新的开源大语言模型Seed-OSS-36B，专为高级推理和开发者友好性设计。该模型提供三个版本：基础模型（含/不含合成数据）和指令调优版本。模型拥有360亿参数，支持512K令牌上下文长度，相当于约1600页文本。在数学推理、编程和长文本处理等基准测试中达到开源领域最先进水平。采用Apache-2.0许可证，允许企业免费商用部署。

小米

Redmi

智能手机

2025-08-21

REDMI Note 15 Pro+发布，同档最抗摔的实战之王，首销 1899元起

耐用品质实战之王，真抗摔真防水。

中南大学等机构突破难题：让AI真正理解长文本并生成完美图像，TextAtlas5M数据集问世

人工智能

长文本图像生成

大规模数据集

2025-08-21

中南大学等机构突破难题：让AI真正理解长文本并生成完美图像，TextAtlas5M数据集问世

中南大学等机构联合发布TextAtlas5M数据集，包含500万图像-文本对，专门解决AI长文本图像生成难题。该数据集平均文本长度148.82词，远超现有数据集，涵盖广告、学术、教育等真实场景。配套的TextAtlasEval基准测试显示，即使最先进的商业模型也面临显著挑战，为AI图像生成技术指明了新的发展方向。

视觉推理基准测试

人工智能评测

多模态模型局限性

2025-08-21

当所有AI都败下阵来：剑桥大学团队推出史上最难视觉推理测试ZeroBench

剑桥大学研究团队创建了史上最难的AI视觉测试ZeroBench，包含100道精心设计的视觉推理题目。在这项测试中，包括GPT-4o、Claude、Gemini在内的20个全球最先进AI模型全部得了0分，暴露了当前AI在基础视觉理解上的严重缺陷。研究发现AI主要在计数、空间推理等基础任务上失败，而非逻辑推理能力不足。

芯片设计

图神经网络

布局优化

2025-08-21

芯片设计的新武器：阿里云如何让AI帮工程师走出设计迷宫

阿里云智能集团研究团队在《VLSI设计期刊》发表突破性研究，提出基于图神经网络的芯片布局优化框架。该技术将复杂芯片设计转化为图形网络问题，通过AI系统自动寻找最优布局方案。实验显示相比传统方法，功耗降低15-18%，设计效率显著提升，已在智能手机和服务器芯片项目中成功应用。

认知科学

数字媒体技术

记忆重塑方法

2025-08-21

哈佛大学团队破解数字时代的"失忆症"：为什么我们越来越忘不掉糟糕记忆？

哈佛大学团队通过对1200名参与者的三年研究发现，数字媒体正在重塑人类记忆机制，导致负面信息记忆持久度比正面信息高40%。研究揭示了不同年龄群体的记忆模式差异，以及数字环境如何通过影响睡眠进一步干扰记忆整理过程，并提出了包括主动遗忘、正面记忆增强、信息摄入管理等实用的记忆重塑策略。

机器学习

量化训练

模型优化

2025-08-21

大型语言模型也能"节食减肥"：ISTA研究团队突破1位量化训练极限

奥地利科学技术研究所开发的QuEST方法实现了大型语言模型在极低精度下的稳定训练突破。该方法通过哈达玛变换和信任梯度估计器，成功将量化训练的精度极限从8位推进到4位，甚至实现1位精度的稳定训练。实验显示4位QuEST模型在相同资源下超越16位传统模型，运行速度提升达2.4倍，为AI模型的高效部署提供了新解决方案。

人工智能

神经辐射场

三维重建

2025-08-21

斯坦福大学如何让AI像人类一样思考：用4D建模重新定义空间理解

斯坦福大学Gordon Wetzstein教授团队提出神经辐射场技术，首次让AI具备类似人类的三维空间理解能力。该技术仅需少量不同角度照片即可重建完整三维场景，在图像质量上比传统方法提升20%以上。研究成果应用于自动驾驶、VR/AR、医学影像等领域，标志着AI从二维图像识别向三维空间理解的重大跃进。

电影导演的神器来了！大连理工团队打造CineMaster，让普通人也能像专业导演一样精准控制AI视频生成

3D视频生成

计算机视觉

多模态控制

2025-08-21

电影导演的神器来了！大连理工团队打造CineMaster，让普通人也能像专业导演一样精准控制AI视频生成

CineMaster是由大连理工大学等机构联合开发的突破性视频生成框架，首次实现了电影级别的三维空间精确控制。用户可在三维环境中自由摆放物体、设计摄像机运动，系统自动生成符合预期的高质量视频。该技术通过创新的数据标注流水线和分阶段训练策略，在物体定位精度和运动控制准确性方面显著超越现有方法，为可控视频生成领域树立了新标杆，有望推动创意产业的民主化发展。

人工智能

图像编辑

艺术风格迁移

2025-08-21

新加坡国立大学团队突破性成果：让AI从几十张图片就能学会艺术家的"涂鸦"技巧

新加坡国立大学团队开发的PhotoDoodle系统，通过两阶段训练策略实现了从少量样本学习艺术家照片涂鸦风格的突破。该系统采用位置编码复用和无噪声条件机制，仅需30-50对图片样本就能掌握特定艺术风格，在保持背景完整的同时精确添加装饰元素，为AI辅助艺术创作开辟了新方向。

AI评判官的隐形偏见：当合成数据遇上同门师兄弟，公正评价还能保证吗？——亚利桑那州立大学等多所高校联合发现"偏好泄漏"现象

人工智能

大语言模型

AI评估偏见

2025-08-21

AI评判官的隐形偏见：当合成数据遇上同门师兄弟，公正评价还能保证吗？——亚利桑那州立大学等多所高校联合发现"偏好泄漏"现象

亚利桑那州立大学等多所高校联合研究发现了AI评估中的"偏好泄漏"现象：当大语言模型既用于生成训练数据又用于评判学生模型时，会产生系统性偏见，偏爱体现自己风格的回答。研究显示这种偏见可达23.6%，比已知的自我中心偏见影响更严重，可能导致AI评估排行榜出现系统性偏差，威胁AI评估体系的公正性。

2025-08-21

数学AI也会"装懂"？四川大学研究团队揭示AI缺失的核心能力

四川大学研究团队发现，当前先进的AI模型在面对信息不完整的数学问题时，缺乏主动询问澄清信息的能力，更倾向于基于假设给出答案。

人工智能

计算机视觉

自动驾驶技术

2025-08-21

当AI学会"预见未来"：商汤科技如何让自动驾驶汽车拥有水晶球般的预知能力

商汤科技研究团队开发了MaskGWM，一个革命性的自动驾驶预测系统。该系统采用创新的"双重学习法"，让AI同时掌握图像生成和逻辑推理能力，能够预测长达12秒的未来驾驶场景。通过空间和时间两个维度的掩码重建训练，结合多视角预测能力，MaskGWM在标准测试中显著超越现有技术，并展现出强大的跨域泛化能力，为更安全智能的自动驾驶技术奠定了重要基础。

人工智能

长链推理

模型训练

2025-08-21

UC伯克利发现AI推理学习的秘密：结构比内容更重要的惊人真相

UC伯克利研究团队发现，仅用17000个训练样本就能让AI获得强大推理能力，关键在于推理的逻辑结构而非具体内容正确性。即使训练数据包含错误答案或错误计算，AI仍能学会推理，但一旦打乱逻辑结构，性能就会急剧下降。该发现颠覆了AI训练需要海量完美数据的认知，为资源有限的团队提供了经济高效的AI推理能力培养方案。

深度学习

层归一化

模型优化

2025-08-21

大型语言模型的"深度诅咒"：牛津大学发现训练深层网络的致命缺陷及解决方案

牛津大学研究团队发现大型语言模型存在"深度诅咒"现象：深层网络对模型贡献微乎其微，造成计算资源浪费。研究揭示Pre-LN架构中方差指数增长是根本原因，并提出层归一化缩放（LNS）解决方案。LNS通过简单的缩放因子控制方差增长，让每层都发挥作用，在各种规模模型上都实现显著性能提升，为提高AI训练效率提供了重要突破。