最新文章
AI视频生成新突破:天工AI让你用几张照片就能拍出好莱坞大片

AI视频生成新突破:天工AI让你用几张照片就能拍出好莱坞大片

天工AI推出的SkyReels-A2视频生成系统实现了重大突破,能够将多张不相关照片智能组合成高质量视频。该技术采用双分支架构处理语义和空间信息,通过200万训练样本学习元素组合规律。在与商业模型的对比中表现出色,特别是在物体一致性和视觉质量方面领先。该系统已开源,为创意产业、教育培训、虚拟电商等领域带来革命性应用前景。

字节跳动AI团队推出UNO:图像"魔法师"实现从一到多主题的自由创作

字节跳动AI团队推出UNO:图像"魔法师"实现从一到多主题的自由创作

字节跳动AI团队推出的UNO系统实现了图像生成领域的重要突破,能够根据参考图片生成新场景,并首次很好地解决了多主题图像生成的技术难题。该系统采用创新的渐进式训练策略和自动化数据生成技术,在保持参考物体特征的同时实现了灵活的场景创作,为创意产业提供了强大的AI辅助工具。

约翰斯·霍普金斯大学突破:让AI从多个视频中写出百科全书级文章,人类终于不用再看几十个视频总结新闻了!

约翰斯·霍普金斯大学突破:让AI从多个视频中写出百科全书级文章,人类终于不用再看几十个视频总结新闻了!

约翰斯·霍普金斯大学研究团队开发出突破性AI系统CAG,能像资深编辑一样从多个视频中提取信息并撰写维基百科风格文章。该系统采用三重协作机制,显著优于传统方法,为新闻业和知识管理带来革命性潜力,虽仍存在音频处理等挑战,但已证明多视频智能写作的可行性。

北大物理学院推出首个物理推理基准测试:AI模型在复杂物理问题面前还是个"学渣"

北大物理学院推出首个物理推理基准测试:AI模型在复杂物理问题面前还是个"学渣"

北京大学物理学院团队开发了首个专门评估AI大语言模型物理推理能力的基准测试PHYBench,包含500道原创物理题目。测试发现即使最先进的AI模型准确率也仅有36.9%,远低于人类专家的61.9%,揭示了AI在复杂物理推理中的显著局限性。

阿里巴巴团队让AI学会了完美"表演":一张照片秒变生动说话视频

阿里巴巴团队让AI学会了完美"表演":一张照片秒变生动说话视频

阿里巴巴团队首次实现仅凭一张照片生成逼真说话视频的AI技术突破。该系统不仅能完美同步嘴唇动作,还能自然展现面部表情、肢体动作和背景变化,并支持个性化的动作强度控制。这项技术将显著降低视频内容制作门槛,为在线教育、企业培训、数字营销等领域带来革命性变化。

OpenAI重大突破:让AI自己做研究,从读论文到写代码全包了

OpenAI重大突破:让AI自己做研究,从读论文到写代码全包了

OpenAI团队开发了PaperBench评估系统,测试AI复现顶级机器学习论文的能力。通过20篇ICML 2024精选论文和8316个评估点,发现最强AI模型Claude 3.5 Sonnet达到21%成功率,而人类专家为41.4%。研究揭示AI在代码编写方面较强但在实际执行中存在局限,为AI科研能力发展提供重要基准。

仅需220小时GPU训练,加州大学开源2B参数多模态大模型创下效率纪录

仅需220小时GPU训练,加州大学开源2B参数多模态大模型创下效率纪录

这项研究展示了如何用极少的计算资源训练出高性能的多模态大语言模型。加州大学团队仅用220小时GPU就训练出了2B参数的Open-Qwen2VL,性能超越了使用277倍训练数据的同类模型。关键创新包括高质量数据过滤、多模态序列打包和动态图像分辨率策略。更重要的是,该项目重新定义了AI模型的"完全开源"标准,公开了训练代码、数据过滤技术和全部训练数据,为学术界提供了宝贵的研究资源。

新加坡国大团队重磅突破:让AI学会看直播解说,5百万视频打造史上最强实时视频评论员

新加坡国大团队重磅突破:让AI学会看直播解说,5百万视频打造史上最强实时视频评论员

新加坡国立大学研究团队开发出革命性AI视频解说系统LiveCC,通过500万YouTube视频训练,实现0.5秒内实时生成视频解说。该系统在体育赛事解说质量上超越多个大型模型,在传统视频问答任务中也达到同规模最优性能,为AI实时多模态理解开辟新方向。

教电脑"看例子学编程":斯坦福团队开发CodeARC基准测试,让AI像人类一样从输入输出中推理程序逻辑

教电脑"看例子学编程":斯坦福团队开发CodeARC基准测试,让AI像人类一样从输入输出中推理程序逻辑

斯坦福等机构联合推出CodeARC基准测试,专门评估大型语言模型从输入输出例子中推理程序逻辑的归纳能力。该框架采用交互式评估方式,允许AI主动查询并获得反馈,更贴近真实编程场景。测试涵盖1114个Python函数,最强模型成功率仅52.7%,揭示了当前AI在程序推理方面的局限性。

Meta的Perception Encoder:从"我什么都不是"到"我什么都能做"的AI视觉新革命

Meta的Perception Encoder:从"我什么都不是"到"我什么都能做"的AI视觉新革命

Meta研究团队发现仅通过对比学习训练的AI视觉模型,内部竟隐藏着语言理解、空间定位等多种专业能力。他们开发了Perception Encoder系列,通过"对齐技术"激活这些隐藏技能,在图像分类、视频理解、目标检测等多个领域都达到了最先进性能,证明了"一个模型胜任多种任务"的可能性,为AI发展提供了新思路。

HoloMem发布面向LTO磁带库的即插即用全息存储驱动器

HoloMem发布面向LTO磁带库的即插即用全息存储驱动器

英国初创公司HoloMem正在开发基于带状盒式存储和驱动器的多层全息存储技术,使用寿命超过50年,可直接插入LTO磁带库机架无需更改上游软件。该技术采用现成组件如5美元激光二极管和量产聚合物薄片,成本低廉且坚固耐用。与传统全息存储不同,它使用光学读取的磁带带而非玻璃板。200TB容量的WORM格式盒带长约100米,可实现LTO系统的无缝升级。

OpenAI再次推迟开源模型发布计划

OpenAI再次推迟开源模型发布计划

OpenAI首席执行官萨姆·阿尔特曼周五宣布,公司将无限期推迟其开源模型的发布,这已是今年夏天第二次延期。阿尔特曼表示需要更多时间进行安全测试和高风险领域审查。该开源模型预计具备与o系列模型相似的推理能力,将是OpenAI多年来首个开源模型。与此同时,中国AI初创公司月之暗面发布了万亿参数的Kimi K2模型,在多项基准测试中超越了GPT-4.1。

将生成式AI引入数据库彻底改变应用开发模式

将生成式AI引入数据库彻底改变应用开发模式

文档数据库正进入智能化新时代。通过将生成式AI直接嵌入数据层,这不仅是技术升级,更是战略性变革。RavenDB首席执行官表示,将大语言模型完整集成到数据库内部,能够实现令人惊叹的功能。这种集成让用户可以直接在数据库中生成、丰富、分类和自动化内容及决策,无需专门的AI团队。对于缺乏大型AI团队的组织来说,这种方法显著降低了复杂性,使从想法到实施变得前所未有的快速和无缝。

数据中心与服务器集群:两者区别究竟在哪里?

数据中心与服务器集群:两者区别究竟在哪里?

数据中心和服务器农场这两个术语经常被互换使用,但实际上存在细微差别。数据中心是指提供IT设备托管的建筑物,包括电力基础设施、冷却系统和网络连接等。服务器农场则是指以某种方式连接的服务器集合,通常支持共享工作负载。主要区别在于:数据中心强调物理设施和基础设施,而服务器农场专注于服务器本身的配置和管理。

Oracle推进印尼云服务计划,与DayOne合作建设首个数据中心

Oracle推进印尼云服务计划,与DayOne合作建设首个数据中心

甲骨文将与新加坡第一数据中心公司合作,在印尼巴淡岛建立首个云服务中心。甲骨文将租用位于农萨数字园区的数据中心设施,成为支持至少120兆瓦电力容量地块的唯一租户。该规模数据中心通常需要至少12亿美元资本投资。第一数据中心是从中国数据中心运营商万国数据分拆而来,字节跳动是其最大客户。此举是甲骨文在亚洲扩张战略的一部分。

IDC发布AI就绪数据存储基础设施研究报告

IDC发布AI就绪数据存储基础设施研究报告

IDC发布了关于AI就绪数据存储基础设施的研究报告,该报告是四部分系列的第一部分。报告指出,不到一半的AI试点项目能够投入生产,组织必须从以数据为中心的角度来处理AI项目。AI就绪数据存储基础设施需要具备五个主要属性:性能、规模、服务水平、数据物流和数据信任。报告强调,许多AI项目失败是因为对存储基础设施关注不足,导致数据孤岛、数据质量差和存储性能不足等问题。

希腊专属大语言模型:Kiefer打造本土智能平台

希腊专属大语言模型:Kiefer打造本土智能平台

希腊公司Kiefer正在开发专门针对希腊的大语言模型应用,旨在建立具有语言和文化优势的本土智能平台。该项目采用包括DeepSeek在内的三种不同模型架构,专注于希腊语言的深度理解和本土文化语境。团队面临数据收集和处理的挑战,需要扫描大量书籍和网络PDF文件。目前服务免费,未来计划推出订阅模式。项目还涉及与Unitree合作开发人形机器人,并计划建设使用液冷技术的AI数据中心。

英特尔RealSense分拆获5000万美元融资,助力AI人形机器人感知世界

英特尔RealSense分拆获5000万美元融资,助力AI人形机器人感知世界

英特尔旗下计算机视觉子公司RealSense宣布完成5000万美元融资并从母公司分拆独立运营。该轮融资由半导体私募股权公司领投,英特尔资本和联发科创新基金参投。RealSense专注于深度感知和追踪技术,其深度相机产品广泛应用于机器人、无人机等设备,帮助它们感知和理解三维环境。公司深度相机已嵌入全球约60%的自主移动机器人和人形机器人中,拥有超过3000个全球客户。

AWS强化基础设施战略,全面升级SageMaker应对AI竞争

AWS强化基础设施战略,全面升级SageMaker应对AI竞争

AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。

BigQuery如何融合数据与AI实现业务转型

BigQuery如何融合数据与AI实现业务转型

AI虽具备变革企业洞察力的潜力,但成功依赖于数据质量。大多数AI项目失败源于数据混乱分散而非算法局限。谷歌BigQuery云数据AI平台打破数据孤岛,简化治理,加速企业AI应用。通过AI自动化数据处理,实现实时分析,并与Vertex AI深度集成,使企业能够高效处理结构化和非结构化数据,将智能商业转型从愿景变为现实。