5月17日,升级AI战略后的国产数据库企业OceanBase迎来了第三届开发者大会。会上,OceanBase发布面向AI的应用产品PowerRAG,提供开箱即用的RAG(检索增强生成)应用开发能力;全新推出“共享存储”产品,开创性实现对象存储与事务型数据库(TP)的深度集成。
OceanBase AI战略一号位、CTO杨传辉表示,OceanBase正致力于构建Data×AI能力,面向AI时代推动一体化数据库向一体化数据底座的战略演进。此前,CEO杨冰曾通过全员信宣布公司全面进入AI时代。
从一体化数据库
向一体化数据底座演进
AI时代带来了新的数据难题,已成为行业共识。蚂蚁集团CTO何征宇在大会分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有四大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。
面对行业的真实需求,OceanBase正在大胆探索。杨传辉表示,OceanBase致力于从一个一体化数据库向一个一体化数据底座演进,通过一套引擎同时支持TP/AP/AI混合负载,支持向量数据库,实现SQL与AI的混合检索,这背后涉及OceanBase在Data与AI领域的工程与产品能力。
OceanBase提出,致力于从一体化数据库向一体化数据底座演进。(主办方供图)
何征宇在大会现场表示,蚂蚁集团将支持OceanBase在金融、医疗、生活等蚂蚁AI的核心场景的突破,支持OceanBase去实践DataxAI的理念和架构创新。同时继续支持OceanBase开源开放,把在Data×AI上的能力逐渐开放给行业,为AGI的梦想添砖加瓦。
发布PowerRAG
提供开箱即用的RAG服务
在杨传辉描绘的一体化数据底座版图中,OceanBase期望在未来实现从算力、基础设施,到平台层、应用层、交付形态的全方位布局。
杨传辉介绍,传统RAG应用常用开发模式包括组件森林开发模式、RAG平台模式等,但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。此次大会上首次发布的PowerRAG,打造AI驱动的开箱即用的RAG服务,打通应用开发数据层、平台层、接口层与应用层的全流程,提供Document(文档)和 Chat(对话)两个核心API接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。
“致力于成为AI时代的一体化数据底座,PowerRAG是OceanBase在应用层面探索的第一步,未来还将在应用层面、平台层面不断突破。”杨传辉表示。
OceanBase发布面向AI的应用产品PowerRAG,提供开箱即用的RAG应用开发能力。(主办方供图)
据了解,作为蚂蚁集团100%自研的原生分布式数据库,OceanBase自2010年开始投入研发,已连续十余年稳定支撑“双11”。2020年,OceanBase开始独立商业化运作,至今已助力金融、政务、运营商、零售、互联网等多个行业的2000多家客户实现关键业务系统升级。OceanBase还被客户应用于多个AI相关场景的开发,如联通软研院基于OceanBase打造AI助手,in银泰商业则基于OceanBase打造零售业智能问数平台等。
向量性能已达业内领先水平
在支持AI应用落地的核心基础设施——向量性能、混合检索等层面,OceanBase也在持续探索,进一步加强SQL+AI能力。
中国联通软件研究院OceanBase研发负责人邱永刚表示,AI的发展一定会带来向量数据库的快速发展,这既是机遇,也是挑战。随着知识的积累,向量的体量会越来越大,这要求我们一方面要不断优化向量检索算法,另一方面要更充分利用硬件能力,适应海量的向量检索需求,提供更快更准确的向量检索能力。
而在大会现场,基于基准测试工具VectorDBBench,采用Performamce 768D1M测试数据集,OceanBase与业内三款领先的开源向量数据库进行性能跑分测试。结果显示,OceanBase的向量性能已经达到开源向量数据库业内的领先水平。
南都记者了解到,OceanBase已具备面向多种数据模型的混合检索能力。在最新版本中,OceanBase混合检索性能进一步增强,通过丰富的执行策略、自研的向量算法库、内核级多模混合查询等实现更快、更准、更易用的混合检索。
发布业内首个“共享存储”
TP负载下存储成本直降50%
OceanBase还在此次大会上宣布一体化架构再升级,全新推出“共享存储”产品。该产品开创性实现对象存储与事务型数据库(TP)的深度集成,创新构建存算一体与分离的多云原生架构,不仅大幅提升云上数据存储的弹性扩展能力,更使TP负载的存储成本最高降低50%。此次突破也使OceanBase的云数据库OB Cloud成为业界首个在TP场景下支持对象存储的多云原生数据库,为海量数据场景提供兼顾成本优化与性能保障的云原生解决方案。
杨传辉介绍,这背后是OceanBase的多项技术突破:一是构建多级缓存架构,有效解决对象存储的访问延迟问题;二是自研基于对象存储的LSM-Tree引擎并采用深度工程手段,降低对象存储的I/O压力;三是通过独有的持久化缓存弹性伸缩,进一步解决TP场景下热点数据的稳定性问题;此外,优化对象存储的访问全链路,确保TP业务毫秒级响应的稳定性。
据悉,OceanBase的“共享存储”产品在云上可被应用于多种业务场景,包括典型TP、历史库及备份库,时序类业务、HBase兼容类业务、流水型业务系统、OLAP业务等。
会上除“共享存储”产品的发布外,OceanBase还宣布,OB Cloud上线百度云。截至目前,OB Cloud已支持阿里云、华为云、腾讯云、百度云、AWS、Google Cloud 六大主流公有云平台,全球覆盖超过100个可用区。
出品:南都大数据研究院
采写:南都记者 李伟锋