最新文章
2025-09-23

字节跳动与梅赛德斯-奔驰签署战略合作,以AI助力“奔驰标准”

9月23日,梅赛德斯-奔驰(中国)投资有限公司与北京字跳网络技术有限公司宣布签署升级战略合作备忘录,共同推动人工智能技术的跨业务融合,树立汽车产业数智化创新合作的新典范。

OpenAI 和 NVIDIA 宣布达成合作,部署 10 吉瓦 NVIDIA 系统
2025-09-23

OpenAI 和 NVIDIA 宣布达成合作,部署 10 吉瓦 NVIDIA 系统

此次合作将助力 OpenAI 构建和部署至少 10 吉瓦(gigawatt)的 AI 数据中心,这些数据中心将采用 NVIDIA 系统,包含数百万块 NVIDIA GPU,为 OpenAI 的下一代 AI 基础设施提供支持。

字节跳动全新RewardDance框架:让AI在"奖励舞蹈"中精进视觉创作能力

字节跳动全新RewardDance框架:让AI在"奖励舞蹈"中精进视觉创作能力

字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。

ByteDance推出Mini-o3:让AI像人类侦探一样深度思考的视觉搜索突破

ByteDance推出Mini-o3:让AI像人类侦探一样深度思考的视觉搜索突破

ByteDance团队开发的Mini-o3系统通过深度多轮推理突破了传统AI视觉理解的局限。该系统能像人类侦探般进行几十轮的视觉探索,在困难的视觉搜索任务上准确率达48%,相比现有模型提升显著。核心创新包括挑战性的Visual Probe数据集、多样化推理策略训练和突破性的过轮掩码技术,实现了测试时思考轮数的自然扩展。

普林斯顿大学突破:让AI聊天机器人像人一样思考的神奇方法

普林斯顿大学突破:让AI聊天机器人像人一样思考的神奇方法

普林斯顿大学研究团队开发了TraceRL方法,通过追踪AI推理过程而非仅关注最终答案来训练扩散语言模型。该方法训练出的TraDo系列模型虽然参数规模较小,但在数学推理任务上显著超越大型模型,并首次实现了具备长篇推理能力的扩散语言模型。研究团队已将完整框架开源,为AI可解释性和实际应用提供了重要突破。

Meta FAIR实验室重大突破:让AI语言模型推理速度提升5倍的神奇技术

Meta FAIR实验室重大突破:让AI语言模型推理速度提升5倍的神奇技术

Meta FAIR实验室提出的集合块解码技术通过融合传统下一词预测和遮蔽词预测,让语言模型能以任意顺序同时生成多个词汇,无需修改模型架构即可将推理速度提升3-5倍。该技术在Llama-3.1和Qwen-3模型上验证有效,为大型语言模型的实际应用提供了重要的效率突破,有望显著改善用户体验并降低部署成本。

腾讯AI团队革命性突破:无需"老师"指导,让AI自己学会阅读复杂文档

腾讯AI团队革命性突破:无需"老师"指导,让AI自己学会阅读复杂文档

腾讯AI团队开发出革命性文档识别系统POINTS-Reader,摆脱传统依赖大模型"蒸馏"的训练方式,通过自主学习机制让AI独立掌握文档理解能力。该方法分两阶段:先用统一格式的合成数据建立基础,再通过迭代自我改进在真实数据上持续提升。实验显示其性能超越多个同类模型,为AI自主学习开辟新路径。

香港中文大学团队让AI学会画图:从文字到精美矢量图的创作之路

香港中文大学团队让AI学会画图:从文字到精美矢量图的创作之路

香港中文大学团队开发出让AI学会矢量图形编程的创新方法,通过强化学习和跨模态奖励机制,成功将开源模型的绘图能力提升到商业级水平。研究建立了SGP-GenBench评估体系,发现AI不仅学会精确绘图,还发展出分层构建、创意补充等智能行为模式,为AI辅助设计开辟新路径。

世界建模新纪元:NTU、SMU和NTU联合推出首个3D和4D世界建模全面调研

世界建模新纪元:NTU、SMU和NTU联合推出首个3D和4D世界建模全面调研

新加坡多所顶尖大学联合发布首个3D和4D世界建模全面调研,系统整理了视频生成、占用网格和激光雷达三大技术路径。研究建立了统一的分类体系和评估标准,涵盖数据引擎、动作解释器、神经模拟器等四类功能,并深入分析了在自动驾驶、机器人、虚拟现实等领域的应用前景,为构建更加智能和安全的AI系统提供重要指导。

当算法不再"吃内存":独立研究者破解AI处理长文本的瓶颈难题

当算法不再"吃内存":独立研究者破解AI处理长文本的瓶颈难题

独立研究者Rishiraj Acharya提出了门控关联记忆网络(GAM),这是一种全新的AI架构,通过分工协作的方式解决了传统Transformer处理长文本时计算量呈二次方增长的问题。GAM采用局部卷积处理语法结构和全局关联记忆处理语义信息,配合智能门控机制动态融合,实现了线性复杂度的同时保持了更好的理解准确性,在多个数据集上都显著优于现有方法。

白川团队推出Baichuan-M2:让AI医生像真正的医生一样思考和对话,在全球最严格医疗测试中击败所有开源模型

白川团队推出Baichuan-M2:让AI医生像真正的医生一样思考和对话,在全球最严格医疗测试中击败所有开源模型

百川智能团队开发的Baichuan-M2是一个32B参数的医疗AI模型,通过创新的动态验证系统突破了传统静态评估局限。该系统包含虚拟患者模拟器和临床评估标准生成器,让AI在真实诊疗环境中学习。在HealthBench测试中,Baichuan-M2获得60.1分超越所有开源模型,在最困难的HealthBench Hard中获得34.7分,成为全球仅有两个突破32分的模型之一。

DINOv3能否成为医学影像的新标杆?帝国理工学院团队跨领域测试揭示惊人发现

DINOv3能否成为医学影像的新标杆?帝国理工学院团队跨领域测试揭示惊人发现

帝国理工学院团队对视觉基础模型DINOv3在医学影像领域进行了全面评估。研究发现DINOv3在胸部X光、CT扫描等任务上表现出色,甚至超越专门的医学AI模型,但在病理切片、电子显微镜、PET扫描等高度专业化任务上表现糟糕。更令人意外的是,传统的"大模型更好"规律在医学领域经常失效。这项研究为跨领域AI应用提供了重要洞察。

快手科技重磅发布:让AI看懂复杂视频的"慢-快"双眼系统

快手科技重磅发布:让AI看懂复杂视频的"慢-快"双眼系统

快手科技发布Keye-VL 1.5多模态AI系统,创新性地引入"慢-快"双眼视频编码策略,能够智能分配计算资源处理视频内容。系统通过四阶段渐进式训练,将上下文理解能力从8K扩展至128K tokens,显著提升长视频理解能力。在多项国际基准测试中表现卓越,特别是视频理解任务上超越同类产品,为内容创作、教育、医疗等领域的智能化应用奠定技术基础。

2025-09-23

是德科技:从芯片到智能网络,全面验证O-RAN无线连接

由移动网络运营商(MNO)主导的开放式无线接入网(O-RAN)联盟,一直是推动 5G 无线接入网(RAN)演进的核心力量。

2025-09-23

施耐德电气朱文沁:可靠电力是未来工业发展的“稳定器”

作为全球工业发展的“风向标”,2025中国国际工业博览会集中展示了全球制造业的高质量制造实力和创新能力。施耐德电气展示了多款为工业应用环境而设计的产品。其中Galaxy PW二代 UPS拥有卓越的适应能力,不仅能在高温、高湿、密集粉尘等恶劣用电环境下稳定运行,更可从容应对电压波动、谐波干扰等多重不确定因素,为关键设备提供全方位电力保护,确保其稳定运行。

UC Santa Cruz团队大幅精简视觉编码器训练:OpenVision 2让AI"看图说话"训练速度提升1.5倍

UC Santa Cruz团队大幅精简视觉编码器训练:OpenVision 2让AI"看图说话"训练速度提升1.5倍

UC Santa Cruz团队开发的OpenVision 2通过去除文本编码器,将视觉编码器训练简化为纯生成式学习,实现训练时间缩短1.5倍、内存使用减少1.8倍的显著效率提升。研究使用高质量合成数据集和token掩码策略,在保持性能的同时成功训练出10亿参数模型,挑战了CLIP式对比学习的必要性认知。

华中科技大学团队发明AI"视觉工具使用专家",让计算机像人类一样调用外部工具解决复杂视觉问题

华中科技大学团队发明AI"视觉工具使用专家",让计算机像人类一样调用外部工具解决复杂视觉问题

华中科技大学团队开发的ReVPT系统首次让AI学会像人类一样主动选择和使用视觉分析工具解决复杂问题。通过创新的两阶段强化学习训练,该系统能根据任务需求灵活调用物体检测、深度估计等专业工具,在多项国际测试中显著超越基础模型,部分指标甚至超越商业化产品,为AI视觉推理能力提升开辟了新路径。

华为技术团队首次全面解析AI智能研究助手的"大脑升级秘籍"

华为技术团队首次全面解析AI智能研究助手的"大脑升级秘籍"

华为技术团队发布突破性研究,首次系统阐述如何通过强化学习训练AI研究助手。研究涵盖数据合成、训练方法、系统框架、协作机制和评估标准五大核心领域,提出从"模仿学习"向"探索学习"的范式转变,让AI具备类似人类研究员的多步骤推理、工具使用和知识综合能力,为AI研究助手的实用化部署提供完整技术路径。

香港中文大学团队突破AI图像生成技术:让机器学会"变速"画画,一步到位还是精雕细琢?

香港中文大学团队突破AI图像生成技术:让机器学会"变速"画画,一步到位还是精雕细琢?

香港中文大学团队提出过渡模型(TiM),突破AI图像生成"速度与质量不可兼得"难题。该模型通过学习任意时间间隔的状态转换,让用户可以灵活选择生成步数,实现从快速生成到精细制作的连续调节。仅用8.65亿参数就超越了业界主流的数十亿参数模型,在多项评测中表现优异,支持4096×4096高分辨率和多种宽高比图像生成。

ByteDance UXO团队新突破:让AI生成图片再也不会认错人了

ByteDance UXO团队新突破:让AI生成图片再也不会认错人了

ByteDance团队开发的UMO框架解决了AI生成多人图片时的身份混乱问题。采用"多对多匹配"策略替代传统"一对一"方法,通过全局优化找到最佳人物-照片配对方案。结合奖励反馈学习和新的身份混乱度评估指标,显著提升了多人场景下的身份保持能力,在多项测试中取得大幅性能提升。