作者:思杰大中华区总经理于放
金融服务从最初诞生开始就致力于推动人类社会的进步。古代时期,第一批金币和银币的出现便使得买卖双方的贸易往来更加轻松,人们不再需要依靠以物换物的方式进行交易。今天,金融服务正经历着自钱币发明以来最大的变革时期——数字化时代。面对从金融科技初创公司到加密货币的新挑战,金融机构正面临着重塑业务和运营的巨大压力。然而,这种变化带来的远不仅仅是对创新金融产品和自助服务平台的需求。
正如商业世界每一次的颠覆一样,目前金融服务业正在快速发生着巨变,人们常常足不出户就可以享受高效便捷的金融服务。如果人们为了在这一过程中看得更加清晰而按下“慢动作”按钮,那么他们会发现——推进这场演变的关键力量是人、流程以及科技。然而,人们的关注点往往只集中在科技层面。比如,为现代自助银行服务提供了基础的移动应用程序和云服务;又如,在投资和交易平台领域受到数字原生代欢迎的RobinHood或Revolut;亦或是提供交易跟踪机制、为每个加密货币提供核心支持的区块链技术。然而,疫情背景之下,流程和人这两个因素对金融服务业的未来发展同样重要。
在疫情严重的时候,世界各地数以百万的人们改变了习惯,越来越多地转向网上购物。2020年,中国电商交易额达到37.21万亿元,比上一年增长4.5%,其中,四季度电商交易额为11.29万亿元,同比增长9.8%。 随着电子商务规模持续扩大,越来越多的金融服务(包括支付、贷款等)也转向数字化发展。因此,金融机构不得不处理大量的网上银行业务,同时,为了保证安全,他们只能使员工在家办公。疫情让我们看到了金融服务机构在未来必须面对的挑战。与此同时,中国正在实施大数据战略,建设数字中国,发展数字经济,推动了金融机构的数字化转型。 金融服务机构需要敏捷灵活,以大规模、即时地扩展业务,并迅速对客户需求的变化做出反应。同时,他们需要使员工能够灵活地选择工作地点,弹性办公,以保持甚至提高生产力。
这里提到的灵活性分为两个层面——规模和地域的灵活性。并且,二者都需要在一个有效的安全框架中加以实施。毕竟,即使金融机构利用云技术在短时间内进行大规模扩展,或是部署了数字工作空间以实现灵活办公,金融服务行业严格的安全规则和合规条例仍然适用。这就是人工智能再次发挥作用的地方。人工智能已经被广泛用于金融服务,能够检测欺诈性交易、识别客户行为的趋势、分析风险格局变化等,它将在有关安全的所有领域发挥重要作用。未来银行业的数据量之大和交易速度之快使得安全分析环节无法交由人工干预。这就解释了为什么以人工智能为基础的持续监测将被用来检测任何形式的异常行为,包括从大规模的基于云的在线交易,到个别员工在办公室或居家工作时访问特定的应用程序的过程。
和其他行业一样,金融服务行业的员工也将在未来发挥关键作用。尽管自助网上银行有自动化的趋势,但金融服务工作所有流程的自动化还未能实现。毕竟,总会有这样的情况出现:客户期望的不仅仅是通过点击一个按钮就可以完成的简单交易。有的时候,无论是投资、贷款,还是其他财务事务,他们都希望能有人一起协商,为他们提供建议。在这种背景下,每一个金融服务数字化战略都需要关注自动化和非中介化,以及人这三个因素。对于金融机构来说,关键是要让他们的员工能够在任何地方、使用任何终端设备进行工作,使他们能够灵活地满足客户需求和期望。
但愿随着疫情环境的好转,金融服务业可以从 "恢复模式 "转回 "创新模式"。在努力重塑自己的过程中,金融机构有必要强调其数字化转型中的产品或技术。此外,分布式流程以及员工生产力和身心健康也同样应该得到重视,以提供更好的客户体验感。归根结底,良好的客户体验,包括技术和人文在内,是金融服务行业成功的驱动力。在金属硬币流通的时代是如此,在比特币时代仍是如此。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。