最新文章
斯坦福大学突破:AI能否像人类一样判断创意写作的好坏?

斯坦福大学突破:AI能否像人类一样判断创意写作的好坏?

斯坦福大学研究团队创建了全球首个创意写作评估基准LitBench,通过分析Reddit写作社区的4万多对故事比较数据,训练AI模型判断创意写作质量。研究发现专门训练的小型奖励模型(78%准确率)能超越大型语言模型评委(73%),但添加推理链反而降低了表现,揭示了创意评判需要直觉性判断的特点。

清华大学团队突破AI学习限制:让机器在零数据环境下自己跟自己下棋变聪明

清华大学团队突破AI学习限制:让机器在零数据环境下自己跟自己下棋变聪明

清华大学团队提出"绝对零度"AI训练新方法,让AI系统完全不依赖人类数据,仅通过自己出题解题的方式实现自主学习。该方法在编程和数学推理任务上超越了使用大量人工数据训练的传统模型,展现了AI超出预期的自主学习潜力,为未来AI发展开辟了新方向。

复旦和腾讯联手开发出能"深度思考"的AI评委——彻底改变视觉内容评分游戏规则

复旦和腾讯联手开发出能"深度思考"的AI评委——彻底改变视觉内容评分游戏规则

复旦和腾讯联合开发的UnifiedReward-Think是全球首个具备链式思维推理能力的统一多模态奖励模型。该系统能像专业评委一样进行多维度深度分析,在图像和视频评估任务中全面超越现有方法,准确率提升5-25%。更重要的是,即使不展示推理过程,其内化的推理能力也能显著提升直接判断的准确性,为AI评估领域带来革命性突破。

TUM团队突破性发现:AI模型竟能用"错误"数据学会完美推理!

TUM团队突破性发现:AI模型竟能用"错误"数据学会完美推理!

慕尼黑工业大学研究团队首次将"grokking"现象成功应用于真实世界的复杂推理任务,通过巧妙的数据增强策略,让仅有1.24亿参数的小型AI模型在多步推理任务上达到95-100%准确率,超越了GPT-4o等大型模型。更令人惊讶的是,即使训练数据中包含错误信息,也能增强而非削弱模型的推理能力。

AI语音助手终于能像《她》里一样自然聊天了!加州圣地亚哥大学等团队推出Voila模型

AI语音助手终于能像《她》里一样自然聊天了!加州圣地亚哥大学等团队推出Voila模型

加州大学圣地亚哥分校等机构联合开发的Voila语音AI系统实现了真正的实时双向语音交互,响应速度仅195毫秒,支持情感表达和主动对话。该系统采用端到端架构,拥有百万预制声音库,仅需10秒音频即可定制新声音。Voila在新建立的综合评测基准上表现优异,并已完全开源。

Citrix重返主流虚拟化市场,但承认产品尚未就绪

Citrix重返主流虚拟化市场,但承认产品尚未就绪

Citrix宣布通过XenServer产品重返主流虚拟化市场,尽管该公司承认产品尚未完全就绪。云软件集团表示XenServer正扩大支持范围以涵盖各类工作负载。Citrix早在2010年代初就基本放弃了XenServer作为主流虚拟化产品的定位。产品管理高级总监认为当前虚拟化市场正经历前所未有的变化,特别是主要厂商的激进许可变更给IT预算带来压力,为Citrix提供了重返市场的机会。

Docker推出新功能支持AI智能体开发

Docker推出新功能支持AI智能体开发

Docker公司发布重大新功能,旨在简化智能体AI应用的构建、运行和部署。公司扩展了Docker Compose工具以支持AI智能体和模型的大规模部署,并推出Docker Offload服务,允许开发者将AI工作负载转移到云端。新功能还支持模型上下文协议网关的安全连接,并与谷歌云、微软Azure等合作伙伴集成。

欧盟AI新规让科技巨头深恶痛绝的条款

欧盟AI新规让科技巨头深恶痛绝的条款

欧盟发布AI法案实施细则,要求谷歌、Meta、OpenAI等公司承诺不使用盗版材料训练AI,详细披露训练数据来源和模型设计理念。新规还要求公司尊重付费墙和网站爬虫限制,公开训练和推理的总能耗,并在5-10天内向欧盟AI办公室报告安全事件。违规企业可能面临年销售额7%或3%的罚款。

AI流利度的4C框架:为未来职场做好准备

AI流利度的4C框架:为未来职场做好准备

随着ChatGPT等AI技术的普及,入门级岗位预计将减少32%。仅掌握AI素养已不足以在职场保持竞争力。本文提出从AI素养向AI流利度的转变,通过概念、情境、能力、创造力四个维度深入阐述。AI素养是基础能力,而AI流利度则需要在特定领域具备更深层次的理解和应用技能。专业人士需要了解AI在其领域的具体应用、算法选择和最新研究方向,才能在快速变化的AI时代保持竞争优势。

Monday.com推出AI工具助力用户构建、自动化和执行工作

Monday.com推出AI工具助力用户构建、自动化和执行工作

云端项目管理服务商Monday.com发布三项AI功能更新:monday sidekick智能助手可根据用户角色和工作风格提供个性化帮助;monday magic让用户通过简单描述即可自动构建完整工作流程;monday vibe支持用户用自然语言构建定制化商业应用。这些工具旨在降低技术门槛,让非技术用户也能轻松创建高级工作解决方案,实现从工作管理向工作执行的转变。

AI绿色推理模型有望借助风力发电变革数据中心

AI绿色推理模型有望借助风力发电变革数据中心

微软研究团队提出"AI绿色推理"新模式,将AI计算集群直接部署在风电场等可再生能源站点,绕过电网瓶颈直接利用绿色能源。该方案通过Heron软件路由器动态管理工作负载,根据实时电力供应情况智能分配计算任务。研究显示,目前可在风电场部署超过600万个高端GPU。这种模块化数据中心架构不仅缓解传统电网压力,还能有效利用未充分使用的可再生能源,为云计算提供商提供可持续发展的新路径。

AI基础设施重塑IPO市场的12个迹象:RAISE峰会洞察

AI基础设施重塑IPO市场的12个迹象:RAISE峰会洞察

人工智能正在重塑资本市场,AI基础设施已成为企业扩张、竞争和上市的关键支柱。投资者不再只关注表面增长,而是深入审视企业如何将AI融入商业模式,确保运营韧性和长期盈利能力。在RAISE峰会上,来自纽交所、谷歌云、Nutanix等公司的专家分享了AI基础设施如何改变IPO准备标准、投资者优先级和企业增长策略。

Komprise:元数据是实现更智能AI和数据治理的关键

Komprise:元数据是实现更智能AI和数据治理的关键

非结构化数据管理专家Komprise通过使用和丰富文件及对象的元数据来实现数据管理。该公司认为向量嵌入与元数据互补但不同,元数据提供文件的有价值信息而非仅仅内容表示。Komprise可自动分析文件内容生成语义标签,通过全局文件索引提取系统元数据和扩展元数据。该平台支持策略驱动的工作流程,帮助客户将AI存储和计算成本削减85%以上,同时提供敏感数据检测、数据血缘追踪和合规性保障功能。

2025 Inclusion·外滩大会科技智能创新赛“AI安全”赛事启动选手招募
2025-07-10

2025 Inclusion·外滩大会科技智能创新赛“AI安全”赛事启动选手招募

2025·全球AI攻防挑战赛启动选手招募:图、视、音三赛道逐鹿,推动AI安全技术进化。

Flow-GRPO:让AI图像生成"听话"的全新训练法——中科大团队率先将在线强化学习引入流匹配模型

Flow-GRPO:让AI图像生成"听话"的全新训练法——中科大团队率先将在线强化学习引入流匹配模型

这项研究首次将在线强化学习成功应用于流匹配模型,通过巧妙的ODE到SDE转换和去噪减少策略,显著提升了AI图像生成的精确度和可控性。在复合场景生成、文字渲染等任务上取得突破性进展,为AI生成领域开辟了新的技术路径。

统一多模态模型:AI既能看懂图片又能画出图片的全新突破

统一多模态模型:AI既能看懂图片又能画出图片的全新突破

这篇由阿里巴巴集团联合多所知名高校发表的综述论文,系统梳理了统一多模态理解与生成模型的最新发展。研究将现有模型分为扩散、自回归和混合三大类型,详细分析了不同图像编码策略的特点,整理了相关数据集和评估基准,并深入探讨了当前面临的技术挑战。

伊利诺伊大学厢巴纳-香槟分校重大突破:AI评委也要学会"深度思考"——奖励模型的推理革命

伊利诺伊大学厢巴纳-香槟分校重大突破:AI评委也要学会"深度思考"——奖励模型的推理革命

伊利诺伊大学研究团队开发出RM-R1奖励模型,首次让AI评委具备深度推理能力。通过"链式评分标准"机制,模型会先分析问题、制定标准、详细推理再给出评判,就像人类评委的思考过程。在三大基准测试中达到业界最高水平,14B模型超越70B传统模型,数学任务准确率达91.8%。该技术已完全开源,将推动AI系统向更透明、可解释方向发展,为各领域提供更可靠的智能评判服务。

阿里巴巴团队发布ZEROSEARCH:让AI搜索能力训练不再烧钱的神奇方法

阿里巴巴团队发布ZEROSEARCH:让AI搜索能力训练不再烧钱的神奇方法

这是阿里巴巴通义实验室推出的创新AI训练框架ZEROSEARCH,通过虚拟搜索环境替代真实搜索引擎进行训练,成本降低80%以上,效果反而更好。该方法采用渐进式学习策略,从简单到复杂逐步提升训练难度,让AI掌握稳定的搜索技能,为AI搜索能力发展开辟了经济高效的新路径。

小神器大威力:沙特团队让1.5B参数模型在阿拉伯语标音上击败了ChatGPT

小神器大威力:沙特团队让1.5B参数模型在阿拉伯语标音上击败了ChatGPT

沙特阿拉伯Misraj AI公司开发出名为Sadeed的阿拉伯语标音模型,仅用15亿参数就在标音任务上超越了GPT-4等大型模型。研究团队创建了严格的数据清洗流程和全新的SadeedDiac-25评测基准,解决了现有基准数据污染问题。该模型证明了专业化小模型在特定任务上可以击败通用大模型,为阿拉伯语AI发展提供了新思路。

中国人民大学突破性研究:WebThinker让AI变身超强网络研究助手,一秒变身深度调研专家!

中国人民大学突破性研究:WebThinker让AI变身超强网络研究助手,一秒变身深度调研专家!

中国人民大学联合北京智源人工智能研究院推出WebThinker框架,首次实现AI在推理过程中自主搜索网络、深度探索网页并撰写研究报告。该系统突破传统AI知识局限,具备类似人类研究员的主动信息获取能力,在多项复杂推理和报告生成任务中显著超越现有方法,为AI应用开辟新方向。