5月16-19日,2019第三届世界智能大会在天津召开。来自全球不同国家和地区的智能科技领域中外知名学者、院士专家、著名企业家齐聚津门,共襄智能科技产业盛会。大会由国家发展和改革委员会、科学技术部、工业和信息化部、中国科学院、天津市人民政府等共同主办。16日,习近平致信祝贺本次大会开幕,向出席会议的国际知名企业家、业界领军人物等各界人士表示诚挚欢迎。天云数据创始人雷涛受邀出席并发表主题演讲。
针对聚焦的数据智能与数据湖生态话题,雷涛表示,现代企业的业务模式正在经历从流程驱动到数据驱动转变的商业重构,从BI向AI升级。数据不再是业务系统的副产品,而成为业务系统的核心资产,成为企业运营决策和业务发展的驱动力。数据中台从诞生至今,经历了数据资产化、数据融合与流动、数据价值化的三部曲。
数据中台的第一步是发现识别和标识度量数据资产,传统方法是通过人工咨询的方式实现数据治理,回答数据在哪里,从而解决新的应用升级和应用的上云容灾等等数据关联等问题。但传统上基于业务咨询执行的主数据治理MDM技术很难满足快速多变的数据治理结构,现在出现的复杂网络(比如天云数据Hilbert)等知识表示的前沿技术应用的ADG(Auto Digital Government),加速和自动化数据治理工作,可以建立统一的关系视图,建立数据自治的数字资产网络。
比如天云数据在某能源公司分局将十几个业务系统数据库、8000多张表、 十几万个字段的元数据和主数据提取出来,建立了统?的关系视图, 代替了20人/年的人工治理的工作。
传统架构中,TP\AP\ML分属不同的应用系统,数据无法融合应用,只能进行数据搬家。而在新的分布式HTAP架构中,可以实现三者的无缝融合:同一个数据计算平台,同时面向联机事务处理,进行密集分析和数据挖掘,TP\AP\ML融合计算场景,对核心Oracle数据库等关键计算组件实现替代,从而不需要每日跑批ETL。
比如天云数据研发的HTAP数据库在某大型股份制银行上线全量数据在线实时交易系统,面向柜面系统提供7*8小时A类实时核心交易,面向手机网银系统可提供7*24小时A类实时核心交易。 成功实现了对公同业,对公活期,对公定期,对私活期,对私定期,贷款,欠息,投资贴现,内部账,表外账等10大业务分户及交易明细的全量线下数据线上化,提供实时服务应用。目前400亿条交易数据, 500ms交易服务响应的A类核心系统支撑要求,每天在线交易量超过200万,占整个银行核心交易量的10%。“ 四双架构”满足金融行业A类核心系统灾备要求 天云HTAP数据库Hubble在生产和灾备两中心采用“双中心 双集群 双活 双服务应用”的四双架构。在系统上线期间,总共已完成10次以上的人工主动模拟切换演练,并成功完成了2次故障自动切换。
通过数据中台可以提升数据价值,并使数据资产变现,催生新的盈利模式。数据中台赋能行业人员快速实现模型孵化训练,实时上线运行,即AI PaaS。天云数据的AI PaaS平台MaximAI提供全面的深度学习、机器学习和自动化机器学习算法,通过MaximAI这一平台,即可完成从原始数据处理到预测模型生产、评估的全流程。
在证券行业,天云数据基于资管数据利用模型算法生产的风险传导模型,服务管理10000亿资产规模的风险传导,最大化体现数据资产价值。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。