德国美因茨约翰内斯·古腾堡大学研究团队发现,在AI大语言模型的多选题评测中,"Answer:"后空格的处理方式竟能导致11%的准确率差异和模型排名颠倒。通过对15个主流模型的详尽测试,研究证实采用"空格+字母"的答案格式比单纯字母格式表现更优,还能显著改善模型校准度。这一发现揭示了AI评测中被忽视的技术细节可能产生巨大影响,呼吁建立更标准化透明的评测协议。
这项研究分析了82,845个真实开发者与AI助手的编程对话,发现AI回复比开发者提问长14倍,68%为多轮对话。Web开发和机器学习是最热门话题。AI代码质量存在问题:Python代码83.4%命名不规范,JavaScript代码75.3%有未定义变量。研究为改进AI编程助手提供了重要参考。
OpenAI发布了音视频生成模型Sora 2,同时推出配套社交应用Sora,用户可生成包含自己的视频并在类似TikTok的信息流中分享。Sora 2在物理定律遵循方面有显著改进,视频更加真实。应用提供"客串"功能,允许用户将自己植入生成场景中,并可与朋友分享形象使用权限。该iOS应用目前在美加地区采用邀请制,ChatGPT Pro用户可直接体验。
大语言模型和生成式AI自诞生以来问题频发,从推理模型表现不佳到AI幻觉现象,再到版权诉讼,这些都表明当前技术路径可能并非通往真正智能的正确道路。专家认为,仅靠增加数据和算力的扩展模式已显现边际效应递减,无法实现通用人工智能。研究者提出智能应包含统计、结构、推理和目标四个层次的协调,并强调时间因果性的重要性。面对LLM技术局限,业界开始探索神经符号AI等替代方案。
微软发布Microsoft 365新功能,知识工作者可通过文本提示生成复杂的Word文档或Excel电子表格。该功能包含两个产品:基于GPT-5的代理模式和基于Anthropic模型的Office代理。代理模式能进行多步骤工作规划和验证循环,目前仅支持Web版本。微软将此称为"氛围办公",类似于氛围编程概念。不过在电子表格应用中存在风险,代理模式准确率为57.2%,而人类为71.3%,需要谨慎使用。
DeepSeek发布实验版本DeepSeek-V3.2-Exp,引入"稀疏注意力"技术来解决长对话处理中的计算瓶颈。该技术通过选择性处理词汇关系而非全量计算,将API成本降低50%。稀疏注意力并非新概念,OpenAI早在2019年就使用过类似技术,但DeepSeek声称实现了"细粒度稀疏注意力"的突破。基准测试显示该模型性能与前代相当,且开源发布。
Infinidat发布新款Infinibox SSA G4 F24全闪存阵列,存储容量从17PB提升至33PB,同时机架空间从14U缩减至11U。该产品采用8个78盘位的24TB驱动器替代原有的60盘位20TB配置。年内还将推出QLC驱动器选项,预计容量密度再增33%。新版本在InfuzeOS中原生集成对象存储功能,支持块、文件和对象存储混合部署,并可按5%增量扩容。
技术创新尤其是AI发展速度超越以往,CIO面临数字化转型压力,学会避免盲目追逐最新技术模型。同时他们正应对前所未有的技术堆栈复杂性挑战,持续产生大量技术债务。德勤数据显示70%技术领导者认为技术债务是最大生产力消耗。专家建议CIO应在创新前先盘点现状,确保IT与业务目标对齐,采用模块化增量方式,避免过度关注新工具。
ServiceNow发布AI Experience多模态用户界面,主张界面而非模型将决定企业AI竞争胜负。该平台将AI代理、数据结构和工作流程整合到单一环境中,支持语音、图像和文本交互。公司已实现超3.5亿美元节省,AI代理可自动化89%支持工作流程。ServiceNow直接挑战微软和Salesforce,通过开放性集成和AI控制塔提供治理优势,力图成为企业AI的前门入口。
AI技术发展推动数据中心基础设施重构,新一代AI加速器使机架密度超过100千瓦,部分高达600千瓦,传统冷却系统面临极限。液体冷却市场年复合增长率达20%,成为增长最快的数据中心冷却细分领域。这不仅是冷却升级,更是架构演进。支持高密度AI工作负载需要从设施设计、散热、管道到配电和机架集成的全面重新思考,热管理已成为跨学科挑战。
高通发布新款骁龙X2 Elite Extreme笔记本处理器,经测试其性能已与苹果M4芯片基本持平。然而这种平衡可能无法持久,因为苹果预计将在明年上半年推出M5芯片,届时将重新拉开性能差距。尽管高通成功实现了英特尔未能做到的追赶,但当搭载骁龙新芯片的PC笔记本上市时,苹果可能已经再次领先。
为应对AI基础设施连接缺乏标准的问题,通信基础设施提供商Zayo与数字基础设施公司Equinix联合发布业界首个AI基础设施蓝图。该框架明确定义了高容量网络、互连枢纽、训练和推理数据中心的角色及连接模式。随着AI驱动的带宽需求预计到2030年增长六倍,该蓝图为新云服务商和AI提供商提供可扩展的私有连接指导。
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。
上海交大等院校研究团队提出ALIGN3方法,通过三步思考法解决AI在不同场景下的规范遵守问题。研究开发了SPECBENCH测试平台,涵盖五个典型应用场景和103项规范。实验显示ALIGN3将AI规范对齐率提升11.89%,在几乎零额外成本下实现安全性和有用性的最佳平衡,为AI安全研究提供新范式。
香港城市大学研究团队开发了一种全新的AI视频理解技术,让通用AI模型无需专门训练就能准确定位视频中的特定对象和动作。该方法通过分解复杂描述、优化注意力机制,在多个权威数据集上显著超越现有方法,为AI视频分析领域带来重要突破。
中国农业大学研究团队开发了名为FSG-Net的遥感图像变化检测系统,通过频域-空域协同处理技术,能够精准识别卫星图像中的真实地面变化,同时有效过滤光照、季节等因素造成的虚假变化。该系统在三个权威数据集上达到90%以上的检测准确率,为城市规划、环境监测、灾害评估等领域提供了更可靠的技术支持。