字节跳动种子团队提出熵调制策略梯度EMPG方法,解决AI智能体在长期任务中的稀疏奖励学习难题。通过自校准梯度缩放和未来清晰度奖励双重机制,根据步骤不确定性动态调整学习信号强度。在WebShop、ALFWorld和Deep Search三大基准测试中,EMPG显著提升了模型性能和训练稳定性,域外泛化能力尤为突出,为复杂AI系统的可靠训练提供了新的解决方案。
快手科技Kling团队发布的Kling-Avatar技术通过多模态大语言模型导演实现真正的指令理解,采用级联生成框架支持长时长数字人视频制作。该系统在唇形同步、情感表达、身份一致性等关键指标上全面超越现有技术,支持1080p/48fps输出,展现强大跨域泛化能力,为数字人直播、在线教育等应用提供突破性解决方案。
香港大学团队发布史上最大规模AI绘画推理数据集FLUX-Reason-6M,包含600万张高质量图像和2000万条双语描述,耗费15000个GPU天计算资源。首创"生成链式思维"训练法,让AI学会像人类艺术家般思考创作过程。同时推出PRISM-Bench测评标准,对19个先进模型评测显示闭源模型仍领先,但所有模型在文字渲染等复杂任务上都有改进空间。
南京大学研究团队构建了SpatialVID,一个包含2.7万小时高质量视频的大规模空间标注数据集。该数据集为每个视频片段提供精确的摄像机姿态、深度信息、动态掩码和结构化语义描述,涵盖城市、自然、室内等多样场景。通过严格的四重筛选机制和创新的几何先验增强标注流程,SpatialVID在规模和质量上都创下新纪录,为训练具有空间理解能力的AI模型提供了前所未有的数据基础,将推动自动驾驶、机器人导航、虚拟现实等领域的技术进步。
这项研究通过创新的梯度注意力机制和500万张图片的WebPerson数据集,显著提升了文本描述人物检索的准确性。GA-DMS框架能智能识别描述中的关键词汇,过滤噪声干扰,在标准测试中达到77.6%的准确率,为安防监控、人员搜寻等应用提供了重要技术支撑。
上海交通大学团队通过引入"视觉可编程性"概念,成功让AI学会根据图表特征自主选择代码分析或直接观察的推理方式。该自适应框架在四个基准数据集上平均准确率达62.8%,显著超越固定策略方法。研究采用双重奖励机制训练,确保AI既追求准确性又具备策略选择智慧,为构建更灵活可靠的人工智能系统提供了新思路。
哈工大团队开创性地将3D高斯涂抹技术应用于图片修复,通过连续光斑融合替代传统像素拼接,结合DINO语义理解和分块处理策略,实现了更自然流畅的图片修复效果。该技术能处理20%-60%面积的缺失,在人脸和自然场景修复中表现出色,为图像处理领域提供了全新思路。
华为诺亚方舟实验室开发出名为OmniEVA的智能机器人系统,它具备两项核心创新:任务自适应3D建模机制能根据具体任务智能切换2D/3D视觉模式,身体感知推理框架让机器人制定计划时考虑自身物理限制。该系统在8个公开测试中有7个达到最佳成绩,复杂操作任务成功率提升28.95%-50%,已成功部署到真实机器人并能自主完成日常辅助任务。
INFLY TECH、复旦大学和格里菲斯大学联合研究发现,大语言模型强化学习训练中存在"多样性崩塌"现象:模型单次准确率提升但多次尝试成功率下降。研究团队提出DPH-RL框架,通过改用正向KL散度等"质量覆盖"散度方法,成功解决了这一问题,同时避免了灾难性遗忘,为构建更通用的AI推理模型提供了新路径。
OCR要落伍了?多模态大模型凭借端到端的图像识别与语义理解能力,正在颠覆传统 OCR 的应用逻辑,预示着图像识别与理解正迈向新一代的技术范式。
OpenAI和微软宣布签署一项非约束性谅解备忘录,修订双方合作关系。随着两家公司在AI市场竞争客户并寻求新的基础设施合作伙伴,其关系日趋复杂。该协议涉及OpenAI从非营利组织向营利实体的重组计划,需要微软这一最大投资者的批准。双方表示将积极制定最终合同条款,共同致力于为所有人提供最佳AI工具。
中国科技企业发布了名为R1的人形机器人,直接对标特斯拉的Optimus机器人产品。这款新型机器人代表了中国在人工智能和机器人技术领域的最新突破,展现出与国际巨头竞争的实力。R1机器人的推出标志着全球人形机器人市场竞争进一步加剧。
制药公司需要持续监控品牌健康状况以制定战略决策,但传统方法缺乏灵活性。本次网络研讨会探讨技术如何从定量和定性角度变革追踪研究。专家小组将揭示新技术如何重新定义传统追踪方法,实现实时数据收集和分析。内容包括:传统追踪研究的挑战和局限性、技术如何带来速度和灵活性、AI在情感分析和实时分析中的作用,以及追踪研究的未来发展趋势。
超过70%的生成式AI实验未能投入生产应用。本文探讨了实验与生产系统间的差距,分析了质量一致性、用例评估和工作流集成等关键挑战。文章提出了结构化的优先级评估框架,重点关注重复性手工任务、大量文本处理和代码生成三大高价值应用场景。同时介绍了代理AI的发展趋势和技术演进的三个阶段,强调通过战略性集成现有业务流程来实现创新和运营卓越。
微软宣布将在10月份推出整合版Microsoft 365 Copilot,该版本将销售、客户服务和财务管理等多个专业领域的AI助手功能打包集成。这一更新将为企业用户提供更全面的智能办公解决方案,通过统一平台实现跨部门协作和业务流程优化,进一步提升工作效率和决策质量。
雅虎、Quora、Medium等在线媒体品牌正采用名为RSL的新协议,防止AI公司未经授权复制其内容用于模型训练。RSL协议基于RSS标准开发,为AI时代的互联网提供缺失的许可层。该协议旨在成为比robots.txt更强大的技术层,应对目前占互联网流量一半以上的AI爬虫。Reddit、MIT出版社等多家机构已加入该协议。随着AI导致网站流量下降25%,出版商正通过诉讼或授权协议寻求补偿。
思科280亿美元收购Splunk后的18个月里,两家公司专注于将Splunk的机器数据分析技术与思科网络产品线融合,打造"思科数据织网"。Splunk平台高级副总裁表示,收购后的协同效应为Splunk带来新动力,公司策略得到放大而非偏离。双方快速整合工程团队,推出AI Canvas等项目,致力于解决企业IT数据孤岛问题。新举措包括将机器数据与业务洞察连接,推出面向Snowflake的联邦搜索功能。
F5公司宣布以1.8亿美元收购企业AI安全领导者CalypsoAI,这是F5今年第四次收购。CalypsoAI成立于2018年,专注于AI威胁防护、数据安全和红队测试。收购完成后,F5将把CalypsoAI的AI安全能力集成到其应用交付和安全平台中,提供数据泄露防护、对抗性威胁保护和统一可视化治理等功能。此次收购不仅带来了先进的AI安全技术,还为F5引入了大量AI专业人才。
分布式存储公司Storj推出Production Cloud服务,专门面向媒体和影视制作行业。该服务整合了高性能分布式对象存储和云媒体访问功能,免收出口和API费用。服务基于分布式存储网络运行,Object Mount产品可将对象存储呈现为本地驱动器,支持直接从云端进行精确编辑。针对新闻、体育、影视等不同媒体机构需求,提供低延迟全球访问和可预测成本控制。
希捷将在未来五年内向其位于德里的纳米光子学业务投资1.15亿英镑,其中1亿英镑来自公司自有资金,另外1500万英镑由当地经济发展机构提供。该工厂专注于开发和制造用于希捷Mozaic硬盘驱动器记录磁头的激光器。希捷首席技术官表示,此次投资旨在开发每盘至少6TB容量的技术,并为实现每盘10TB容量目标奠定基础。公司认为,尽管AI数据中心主要依赖SSD,但在大规模数据湖存储方面,硬盘驱动器仍具有成本优势。