最新文章
MegaMath:MBZUAI研究团队打造出史上最大开源数学训练数据集,3700亿Token让AI数学能力飞跃

MegaMath:MBZUAI研究团队打造出史上最大开源数学训练数据集,3700亿Token让AI数学能力飞跃

MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。

推理竟然有"隐形"版本?斯坦福&清华联合揭示大模型思维的神秘面纱

推理竟然有"隐形"版本?斯坦福&清华联合揭示大模型思维的神秘面纱

这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。

人工智能学会自己分解组装3D物体:香港大学团队让计算机具备"零件思维"

人工智能学会自己分解组装3D物体:香港大学团队让计算机具备"零件思维"

香港大学团队开发的OmniPart系统实现了AI领域的重要突破,让计算机首次具备了像人类一样的"零件思维"。该系统能从单张2D图片生成具有清晰零件结构的3D模型,用户可通过简单的颜色遮罩控制分解过程。系统采用两阶段设计:先进行结构规划预测零件位置,再同步生成所有零件。实验显示其性能显著优于现有方法,生成效率提升20倍,为3D内容创作、游戏开发、虚拟现实等领域开辟了新的可能性。

让AI学会真正理解人类情感:腾讯研究团队首次用真情实感训练出会安慰人的AI助手

让AI学会真正理解人类情感:腾讯研究团队首次用真情实感训练出会安慰人的AI助手

腾讯研究团队首次开发出RLVER框架,通过可验证的情感反馈训练AI理解人类情感。该方法让70亿参数的小型AI模型在情感智能测试中从13.3分跃升至79.2分,达到大型商业模型水平。研究创新性地使用虚拟用户的真实情感变化作为训练信号,并发现"先思考再回应"模式显著提升AI的共情能力。这项突破为AI情感智能发展开辟新路径,有望在心理健康支持、教育和客户服务等领域产生广泛应用。

北卡罗来纳大学团队突破关系抽取难题:让小模型像人类专家一样推理

北卡罗来纳大学团队突破关系抽取难题:让小模型像人类专家一样推理

北卡罗来纳大学团队提出R1-RE框架,通过强化学习训练小模型模拟人类专家推理过程,在关系抽取任务中实现跨领域突破。该方法使7B参数模型达到GPT-4o级别性能,跨领域准确率提升30%,为AI推理训练提供新范式。

电脑视觉模型的"排序超能力":图宾根大学团队发现AI能像人类一样给图片排序

电脑视觉模型的"排序超能力":图宾根大学团队发现AI能像人类一样给图片排序

德国图宾根大学研究团队发现现代AI视觉模型具备强大的图像排序能力,能够理解年龄、美观程度等连续属性并进行准确排序。研究测试了7种AI模型在9个数据集上的表现,发现CLIP模型表现最佳,且仅需极少样本就能学会排序。这一突破为照片管理、电商展示、社交媒体等领域提供了新的技术方案。

KAUST团队突破性成果:用"光谱DNA"让机器像人类一样识别材料

KAUST团队突破性成果:用"光谱DNA"让机器像人类一样识别材料

KAUST团队开发UnMix-NeRF技术,首次实现3D场景重建与材料识别的同步。该系统利用光谱成像技术,能够识别物体的材料特性,不仅重建逼真3D场景,还可自动分离不同材料区域。技术在多个数据集上表现优异,为机器人、增强现实、工业检测等领域带来新突破。

医疗AI革命:在你的浏览器里就能生成病历,隐私安全还不用花钱——美国密苏里州默西医院团队的突破性研究

医疗AI革命:在你的浏览器里就能生成病历,隐私安全还不用花钱——美国密苏里州默西医院团队的突破性研究

美国密苏里州默西医院团队开发了一个能在浏览器中运行的医疗AI模型,专门用于将医患对话转录生成标准化病历。该模型基于Llama 3.2 1B,通过1500个内分泌科病例训练,在保证隐私安全的前提下,显著提升了病历生成的准确性和完整性,严重医疗幻觉减少58.8%,为医疗AI的本地化部署提供了可行方案。

InternVL3:上海AI实验室联合多所顶尖院校打造的多模态AI大模型新突破

InternVL3:上海AI实验室联合多所顶尖院校打造的多模态AI大模型新突破

上海AI实验室联合清华大学等顶尖院校发布的InternVL3,通过原生多模态预训练突破了传统AI模型"先语言后视觉"的局限。该模型在MMMU基准测试中获得72.2分,超越所有开源模型,并引入变长视觉位置编码和混合偏好优化等创新技术,全面开源为AI社区贡献宝贵资源。

只要256MB就能秒杀80B大模型?Hugging Face推出史上最小却最强的视觉AI助手

只要256MB就能秒杀80B大模型?Hugging Face推出史上最小却最强的视觉AI助手

Hugging Face联合斯坦福大学推出革命性小型视觉AI模型SmolVLM,最小版本仅256MB却能超越300倍大小的传统模型。该系列包含三个版本,运行显存需求0.8-4.9GB,可在手机端部署。通过创新架构设计、高效tokenization和精心数据策略,在图像理解、视频分析、文档处理等任务上表现卓越,真正实现"人人可用的AI助手"。

机器也能理解电影镜头语言?卡耐基梅隆大学等机构突破视频中的摄像头运动理解

机器也能理解电影镜头语言?卡耐基梅隆大学等机构突破视频中的摄像头运动理解

卡耐基梅隆大学等机构联合发布CameraBench,这是首个专门评测AI理解视频摄像头运动的大规模数据集。研究团队与专业电影摄影师合作,标注了约3000个多样化视频,建立了精确的摄像头运动分类体系。测试发现现有AI模型在理解推拉镜头、跟踪拍摄等运动类型方面准确率仅约50%,但通过专门训练可提升1-2倍,为视频理解和AI电影制作技术发展奠定重要基础。

构建基于偏好和技术转换的变革

构建基于偏好和技术转换的变革

科技专家Sungjoo Yoon在TED演讲中提出"偏好原理",认为了解用户喜好信息越多,就能创造更强大的技术。他将市场变化比作"地壳运动",从1969年命令行界面到80年代GUI,再到90年代网络界面,技术发展都遵循这一规律。自然语言处理能建立信任,而AI智能体时代的到来意味着非人类参与者将在人类主导的世界中发挥作用。

微软Copilot Vision AI可全屏扫描识别内容

微软Copilot Vision AI可全屏扫描识别内容

微软推出了Copilot Vision AI新功能,该技术能够扫描和分析用户屏幕上的所有内容。这项AI视觉技术可以实时理解用户正在查看的信息,包括文本、图像和应用程序界面,为用户提供更加智能化的交互体验和个性化建议。此功能的推出标志着AI助手向更深层次的用户体验集成迈进。

马斯克的xAI与沙特Humain就数据中心交易进行洽谈

马斯克的xAI与沙特Humain就数据中心交易进行洽谈

马斯克旗下AI初创公司xAI正与沙特方面就租赁数据中心容量进行谈判,寻求在能源成本低廉地区扩展基础设施。谈判涉及两个潜在合作伙伴:沙特支持的AI公司Humain提供数千兆瓦容量方案,以及另一家正建设200兆瓦设施的公司。后者更具短期可行性。这些数据中心将为xAI的计算密集型AI模型提供算力支持。

谷歌将AI技术引入核反应堆业务

谷歌将AI技术引入核反应堆业务

谷歌与西屋电气公司合作,将生成式AI模型应用于核反应堆建设和运营优化。双方计划结合西屋的HiVE GenAI系统和bertha大语言模型与谷歌云技术,简化新核电站建设并提升现有反应堆性能。西屋声称其核能AI技术基于75年专有数据训练。此举旨在满足美国电网日益增长的能源需求,特别是AI数据中心快速增长带来的电力消耗。

Google为Discover功能新增AI生成摘要

Google为Discover功能新增AI生成摘要

谷歌正在其个性化内容流Discover中引入AI生成摘要功能,该功能已在美国的Android和iOS用户中开始推广。摘要卡片会显示新闻网站标志和AI生成的内容片段,用户可点击查看更多相关文章。谷歌声称此举能帮助用户更好地选择想要访问的页面,但出版商担心这会进一步减少点击流量。据估计,包含AI概览的搜索结果中有64%最终没有产生点击。该功能首先专注于体育和娱乐等热门生活方式话题。

Meta开发会说话的AI虚拟角色:从语音到电影级视频,一句话就能"变出"会对话的人物

Meta开发会说话的AI虚拟角色:从语音到电影级视频,一句话就能"变出"会对话的人物

Meta联合滑铁卢大学开发的MoCha系统实现重大突破,仅需语音和文字描述就能生成电影级会说话的虚拟角色视频。该技术突破传统局限,无需参考图片等辅助条件,还能实现多角色对话场景,在唇音同步、表情自然度等方面显著超越现有方法,为内容创作、教育、娱乐等领域带来革命性变化。

把家里老设备组装成超级计算机:阿联酋研究团队让70B大模型在普通家庭设备上飞速运行

把家里老设备组装成超级计算机:阿联酋研究团队让70B大模型在普通家庭设备上飞速运行

阿联酋和中国研究团队联合开发prima.cpp系统,成功实现70B大模型在普通家庭设备集群上运行。该系统通过创新的管道环形并行技术和Halda调度算法,将响应速度提升15倍至600毫秒,内存压力控制在6%以下,为AI技术民主化提供了新路径。

Moonshot AI发布Kimi-VL:仅用3B参数就能媲美大型AI的超级视觉模型

Moonshot AI发布Kimi-VL:仅用3B参数就能媲美大型AI的超级视觉模型

Moonshot AI发布了新一代视觉语言模型Kimi-VL,该模型采用混合专家架构,仅用2.8B激活参数就能媲美大型模型性能。其创新包括原生分辨率视觉编码器、128K长上下文处理能力和长链思考推理机制。在多项基准测试中,Kimi-VL在数学推理、文档理解、智能体任务等方面表现出色,证明了小参数高效能的设计理念,为AI技术的普及和可持续发展提供了新思路。

清华大学最新发现:AI强化学习训练可能是个"伪命题"?

清华大学最新发现:AI强化学习训练可能是个"伪命题"?

清华大学研究团队通过大规模实验发现,当前备受推崇的强化学习训练方法(如训练GPT-o1的技术)并未真正提升AI的推理能力,而是让模型更善于从已掌握的推理方法中选择正确答案。研究涵盖多个模型和任务,揭示了AI能力提升背后的真实机制与普遍认知的差异。