Zoom发布全新智能代理AI功能,旨在帮助用户在工作中节省时间。新的自定义AI助手插件可连接16多个第三方应用,无需离开Zoom界面。该AI助手现已支持在线购买并可集成到微软Teams和谷歌Meet等第三方会议平台。智能代理AI能够独立运行,自动执行任务、收集数据并达成目标。新功能包括日程管理、会议录制剪辑生成、文档创作辅助等,月费12美元。
YouTube准备更新政策,打击创作者从"非真实"内容中获利的能力,包括批量生产视频和其他重复性内容。7月15日,公司将更新YouTube合作伙伴计划货币化政策,提供更详细的指导原则。随着AI技术的兴起,YouTube充斥着AI生成的低质量内容,包括AI语音配音、虚假新闻视频等。尽管YouTube将此称为"小幅更新",但实际上是为了应对AI内容泛滥对平台声誉和价值的潜在损害。
微软宣布未来五年将向学校和非营利组织捐赠40亿美元现金和技术,推出Microsoft Elevate项目,旨在为AI驱动的经济环境提供技能和工具。资金主要用于为K-12学校和社区大学提供AI和云服务积分,预计2000万人将获得AI技能认证。微软还与Anthropic、OpenAI合作成立国家AI教学学院,培训40万名教师。
AI搜索公司Perplexity发布了自主研发的Comet浏览器,以其AI搜索引擎为默认搜索服务,直接挑战谷歌。该浏览器基于谷歌Chromium平台开发,为付费用户提供个性化搜索、自动化功能和自然语言交互。Comet集成了广告拦截功能,可通过语音或文字命令管理标签页、总结视频、处理邮件等。目前仅向每月200美元的Max订阅用户开放,未来将扩展到更多用户群体。
今天“数据”的概念已远超过去的范畴,“数据库”的概念也已经不同往日。AI让数据的多模融合变得更为重要,这正是甲骨文持续强调融合数据库在AI时代至关重要的原因。
加州大学伯克利分校研究团队开发出革命性的R2R2R系统,仅需智能手机拍摄和一段演示视频,就能自动生成大量机器人训练数据。该系统绕过了传统昂贵的远程操作和复杂物理仿真,通过3D重建和智能轨迹生成技术,让机器人训练效率提升27倍,成本大幅降低,有望让高质量机器人技能变得像安装手机应用一样普及。
腾讯优图实验室提出AnoGen方法,仅用3张异常图片就能训练出高精度工业检测AI。该方法通过扩散模型学习异常特征并生成大量逼真样本,在MVTec数据集上将检测精度提升5.8%,为解决工业异常检测中样本稀缺问题提供了突破性方案。
腾讯与西门子联合研究团队开发出AdaptCLIP通用异常检测方法,突破传统方法只能处理特定领域的局限。该系统采用交替学习和对比学习策略,在12个工业医疗数据集上表现卓越,仅需少量样本即可跨域检测异常。相比现有方法,AdaptCLIP参数量减少9倍以上,性能提升10个百分点,为工业质检和医疗诊断提供了更实用的AI解决方案。
腾讯优图实验室提出MetaUAS系统,首次实现仅用一张正常图片就能检测任何类型异常的突破。该技术将异常检测转化为变化检测问题,通过元学习训练通用模型,无需语言描述即可精确识别工业产品瑕疵,参数量仅为传统方法的1/10,推理速度快65倍,为工业质检智能化提供了全新解决方案。
腾讯YouTu实验室推出OneNIP技术,仅需一张正常图片就能检测多种工业产品缺陷。该技术通过双向交叉注意力机制和正常图像提示,解决了传统方法需要为每种产品单独训练模型的问题。在MVTec等权威数据集上,OneNIP在像素级异常分割任务中取得显著提升,为智能制造中的质量控制提供了新思路。
这项由浙江大学和阿里巴巴合作的研究首次为语音对话AI开发了专业评估系统WavReward,能够同时评估对话内容和语音情感等多维度信息。研究团队还构建了包含30000个样本的ChatReward-30K数据集,涵盖九种声学属性和隐含对话场景,为语音助手质量评估提供了重要工具。
这项由13家国际研究机构联合开发的研究介绍了Maya——一个突破性的多语言视觉AI模型。Maya能够用8种语言理解和描述图片内容,包括理解不同文化背景的视觉概念。研究团队通过创新的数据构建方法,将55万个英文样本扩展为440万个高质量多语言样本,并采用两阶段训练策略。Maya在多语言基准测试中表现优异,特别是在阿拉伯语等复杂语言上超越了同类模型,为教育、医疗、旅游等领域的全球化应用开辟了新路径。
这项研究首次系统性地检测和清理了视觉语言模型训练数据中的有害内容,从LLaVA数据集的558,000对图片-文字数据中识别并移除了7,531个有毒样本。研究团队开发了结合图像和文本检测的多模态毒性过滤系统,为AI安全建立了新标准,并开源了清理后的数据集供学术界使用。
德州大学研究团队通过数学优化理论,成功将3D高斯点云渲染技术的点数量减少50%,在保持渲染质量的同时大幅降低内存占用。该技术通过"分裂矩阵"精确识别需要优化的区域,有望让高质量3D渲染在手机等移动设备上普及,为VR/AR应用带来突破。
延世大学研究团队开发的UniSkill系统实现了机器人跨身体形态学习的重大突破。该系统让机器人能够通过观看人类演示视频学习技能,无需配对训练数据,在真实环境测试中达到87%的成功率。系统采用逆向和前向技能动力学模型,通过图像编辑框架提取动作本质,展现出强大的泛化能力和跨平台适用性,为机器人技能获取开辟了新路径。
伊利诺伊大学香槟分校团队推出SWERANK软件问题定位框架,通过"先筛选再精排"的两阶段策略,以极低成本实现了超越昂贵AI助手的问题定位准确性。团队构建的SWELOC数据集为训练提供了高质量的真实案例,实验证明该方法在成本效益比上比现有方案高出57倍,为软件开发行业提供了实用且经济的调试解决方案。
爱丁堡大学联合英伟达开发的VISTAR系统首次让AI能够像人类一样展示视觉问答的完整推理过程。该系统通过创新的"子任务思维链"方法,将复杂问题分解为多个简单步骤,不仅提供准确答案,还能在图片上精确标注相关物体位置,让AI推理过程变得透明可解释,为构建更可信的AI系统奠定重要基础。
这项由哈尔滨工业大学等机构联合开展的研究提出了DeCLIP方法,通过"解耦"策略解决了CLIP模型在精细视觉任务上的局限性。该方法将模型的注意力机制分为内容和上下文两个分支,分别优化物体识别和空间理解能力,在多个开放词汇视觉任务上取得显著性能提升,为AI视觉理解带来重要突破。
检索增强生成(RAG)正成为AI领域的关键技术,通过结合外部信息检索与大语言模型的生成能力,解决传统模型仅依赖训练数据的局限性。RAG允许模型实时访问外部数据库或文档,提供更准确、更新的信息。该技术可应用于企业文档查询、个人化AI助手等场景,通过向模型提供特定领域知识来获得精准结果。微软专家指出,RAG有助于结合知识与推理、提高模型使用效率,并支持多模态应用。
AI数据平台iMerit认为企业级AI工具集成的下一步不是更多数据,而是更好的数据。该公司正式推出学者计划,旨在建立专家团队来微调生成式AI模型。与Scale AI的高吞吐量方法不同,iMerit专注于专家主导的高质量数据标注,需要深度人工判断和领域专业监督。公司目前与超过4000名学者合作,客户包括三家大型生成式AI公司、八家顶级自动驾驶公司等。