最新文章
穿越AI“巴别塔”  25岁的F5交出一张平台化“答卷”
2025-09-05

穿越AI“巴别塔” 25岁的F5交出一张平台化“答卷”

深耕中国市场25年的F5选择主动“重构”。通过ADSP帮助企业构建面向AI原生架构的底层“数字操作系统”平台。

ByteDance推出TiKMiX:让AI训练像调味师一样动态调配数据配方

ByteDance推出TiKMiX:让AI训练像调味师一样动态调配数据配方

ByteDance研究团队提出TiKMiX方法,通过引入"组影响力"概念动态调整AI训练数据配比,解决传统静态配方导致的训练效率低下问题。该方法能根据模型不同训练阶段的数据偏好实时调整,仅用传统方法20%的计算资源就实现更优性能,在多项测试中平均提升2%效果,为大模型训练提供了更智能高效的解决方案。

AI“卷”成了“牛马”,我们“卷”什么?
2025-09-05

AI“卷”成了“牛马”,我们“卷”什么?

新工作时代:AI 工作流由谁主导?

美团研究院打造超级GUI助手:让电脑和手机像人类一样"看懂"屏幕并自动操作

美团研究院打造超级GUI助手:让电脑和手机像人类一样"看懂"屏幕并自动操作

美团研究团队推出突破性GUI操作AI系统UItron,能够像人类一样理解屏幕内容并自动执行复杂操作任务。该系统采用三段式训练方法,在多项标准测试中表现卓越,特别是在中文应用场景下达到54.1%的任务成功率,显著超越其他同类系统。研究团队收集了超过一百万步中文应用操作数据,为GUI代理在中文环境的实际应用奠定了基础。

当AI学会"察言观色":卡内基梅隆等高校如何让盲人用户重新掌控自动化选择权

当AI学会"察言观色":卡内基梅隆等高校如何让盲人用户重新掌控自动化选择权

卡内基梅隆大学等机构研究团队开发了名为Morae的智能界面助手,专门解决盲人用户在使用AI自动化工具时失去选择权的问题。通过"动态模糊选择验证"机制,Morae能在关键决策点主动暂停询问用户偏好,而非自动替用户选择。用户研究显示,相比传统AI助手,Morae帮助用户做出了更多符合个人偏好的选择,显著提升了用户满意度和控制感。

斯坦福大学突破性音频AI评估:全面揭示音频语言模型真实能力与潜在风险

斯坦福大学突破性音频AI评估:全面揭示音频语言模型真实能力与潜在风险

斯坦福大学研究团队构建了AHELM评估系统,首次对14个主流音频语言模型进行标准化全面测试。研究发现Gemini 2.5 Pro综合表现最佳但存在性别偏见,传统语音识别方法在多项任务中击败先进AI模型,揭示了当前音频AI技术的真实能力边界和潜在风险。

机器人也能学会"七十二变"?清华大学团队让机器人从视频中学会灵巧操作

机器人也能学会"七十二变"?清华大学团队让机器人从视频中学会灵巧操作

清华大学研究团队开发了HERMES系统,让机器人能通过观看人类操作视频学会复杂双手协作任务。该系统融合多源数据,采用通用奖励机制和虚实结合训练方法,配备精确导航定位能力。实验显示平均成功率达67.8%,在医疗、制造、家庭服务等领域展现广阔应用前景,代表了机器人从数据驱动向理解式学习的重要进展。

腾讯混元团队的新突破:AI模型也能学会"看情况办事"了!

腾讯混元团队的新突破:AI模型也能学会"看情况办事"了!

腾讯混元团队开发出R-4B多模态大语言模型,实现了AI的"自动思考"能力。该模型能根据问题复杂程度智能选择回答模式:简单问题快速直答,复杂问题深度推理。通过双模式退火训练和强化学习优化,R-4B在25个基准测试中取得领先性能,4B参数量下达到16B模型的推理效果,同时大幅降低计算成本,为高效AI应用开辟新路径。

上海AI实验室发布EO-1机器人:全球首个真正会推理的机器人大脑诞生

上海AI实验室发布EO-1机器人:全球首个真正会推理的机器人大脑诞生

上海AI实验室联合复旦大学等机构发布EO-1机器人智能系统,首次实现真正的机器人推理能力。该系统通过创新的"交错式视觉-文本-动作预训练"技术,让机器人具备了像人类一样"边看边想边做"的综合智能。EO-1在多个测试中超越现有系统,能够处理复杂的长期任务、进行战略推理,并适应不同硬件平台,标志着机器人技术迈入智能化新阶段。

让AI既能看人脸又能听声音:比利时和美国科学家的多感官"读心术"突破

让AI既能看人脸又能听声音:比利时和美国科学家的多感官"读心术"突破

比利时蒙斯大学和美国南加州大学联合开发了Social-MAE,这是一个能够同时理解人脸表情和声音情感的AI系统。该系统通过分析8个连续视频帧和音频特征,在VoxCeleb2大型社交数据集上进行自监督学习,在情感识别、笑声检测和性格分析三项任务中均达到了业界最佳水平,为智能教育、医疗诊断、人机交互等领域开辟了新的应用前景。

KAUST研究团队推出"魔法疫苗":让AI永远拒绝有害请求的神奇方法

KAUST研究团队推出"魔法疫苗":让AI永远拒绝有害请求的神奇方法

KAUST研究团队开发的ROSI技术通过识别并放大AI模型内部的"安全方向",实现了轻量级的安全增强。该技术不仅能提升已有模型的安全性和抗攻击能力,还能恢复无审查模型的安全功能,且对模型性能影响微乎其微。这种基于可解释性的内在改造方法为AI安全领域开辟了新道路,具有成本低、效果好、易部署等优势。

新加坡研究团队揭秘AI聊天机器人的"双面性格":既太好骗又太固执的数字助手

新加坡研究团队揭秘AI聊天机器人的"双面性格":既太好骗又太固执的数字助手

新加坡科技设计大学研究团队开发DuET-PD框架,首次系统揭示AI聊天机器人在多轮对话中的"说服脆弱性"。研究发现即使GPT-4o等先进模型也容易被误导信息迷惑,同时可能固执拒绝正确纠正。团队提出"全面DPO训练"解决方案,显著提升AI抗干扰能力。

ByteDance推出OneReward:让AI图像编辑模型学会"人类品味"的统一训练框架

ByteDance推出OneReward:让AI图像编辑模型学会"人类品味"的统一训练框架

ByteDance研究团队提出OneReward统一奖励框架,通过单一视觉语言模型指导多任务图像编辑模型训练。该方法在图像填充、扩展、物体移除和文字渲染任务上均超越商业竞品,开发的Seedream 3.0 Fill在多维评估中表现卓越,为AI图像编辑领域提供了统一的人类偏好学习解决方案。

电子眼也能追踪3D世界:苏黎世联邦理工学院让多摄像头系统拥有了立体追踪超能力

电子眼也能追踪3D世界:苏黎世联邦理工学院让多摄像头系统拥有了立体追踪超能力

苏黎世联邦理工学院研究团队开发出首个多摄像头3D点追踪系统MVTracker,只需4个摄像头即可在三维空间中精确追踪任意点的运动轨迹,追踪精度达2-3厘米。该系统通过创新的点云融合技术和变换器架构,能处理复杂遮挡场景并适应不同质量的深度信息,实现了7.2帧每秒的准实时处理速度,为机器人技术、增强现实等领域带来重要突破。

瑞士政府发布自研大语言模型SwiGPT

瑞士政府发布自研大语言模型SwiGPT

瑞士政府正式发布了自主研发的人工智能模型,该模型完全基于公共数据进行训练。这一举措标志着瑞士在AI技术自主化方面迈出重要一步,旨在减少对外国AI技术的依赖,同时确保数据安全和隐私保护。该模型的推出体现了瑞士对发展本土AI能力的战略重视。

安客智能体监控摄像头实现360度全方位实时监控

安客智能体监控摄像头实现360度全方位实时监控

安克旗下智能家居品牌Eufy发布了最新款安防摄像头产品,该设备采用先进的全景监控技术,能够实现360度无死角覆盖,同时监控多个区域。这款摄像头配备了高清成像系统和智能识别功能,可为用户提供更全面的家庭或办公场所安全保护,标志着智能安防设备在监控范围和效率方面的重要技术突破。

Remedy Meds以5亿美元收购远程医疗竞争对手Thirty Madison

Remedy Meds以5亿美元收购远程医疗竞争对手Thirty Madison

远程医疗初创公司Remedy Meds通过全股票交易以约5亿美元收购Thirty Madison,一举扩大其在美国市场的地位。成立仅一年多的Remedy Meds主要提供减肥用GLP-1激动剂复合药物服务。通过此次收购,公司将业务扩展至男性健康、偏头痛、胃肠疾病、过敏和女性健康等多个远程医疗领域。合并后的公司将服务近百万患者,预计年收入超过6.75亿美元并实现盈利。

SwitchBot发布三款AI智能家居新品,机器人加持智能生活

SwitchBot发布三款AI智能家居新品,机器人加持智能生活

SwitchBot推出了三款全新的AI驱动智能家居设备,其中包括两款机器人产品。这些产品集成了人工智能技术,旨在提升家庭自动化体验和用户便利性。新产品线展现了SwitchBot在智能家居领域的技术创新能力,为用户提供更智能化的家居解决方案。

Google Photos免费开放Veo 3动画功能

Google Photos免费开放Veo 3动画功能

Google Photos现已集成Veo 3人工智能技术,用户可以免费将相册中的静态照片转换为动画效果。这项新功能利用先进的AI算法,能够自动识别照片内容并生成流畅的动画效果,为用户的回忆增添生动的视觉体验。该功能完全免费提供,用户只需在Google Photos应用中选择相应照片即可一键生成动画。

Atlassian以6.1亿美元收购AI浏览器开发商The Browser Company

Atlassian以6.1亿美元收购AI浏览器开发商The Browser Company

Atlassian宣布以6.1亿美元收购专注AI浏览器开发的The Browser Company,预计12月完成交易。该公司开发的Arc浏览器内置AI功能Arc Max,可预览标签内容并集成ChatGPT。其第二款浏览器Dia配备更强AI聊天机器人,能生成文档、翻译网页、总结商品评论等。Atlassian计划将Arc功能整合到Dia中,并增加网络安全和合规功能以适应企业用户需求。