湖仓一体火了,千万企业搭建“数据房子”新思路

如果说目前投资领域正火的赛道,“数据智能”一定能算香饽饽。

2021年8月,超级独角兽Databricks 获得16亿美元H轮融资,估值高达380亿美元,4年估值翻百倍。另一家企业Snowflake,2020年上市首日市值超700亿美元,成为迄今为止规模最大的软件IPO,创造了美股中的投资回报神话。

回看国内市场,数据智能也正在成为资本热衷赛道。譬如,数据智能服务商滴普科技,曾经一年之内融资4次,前不久又获得1.1亿B+轮融资,仅成立四年便已成长为新一代湖仓一体数据智能基础软件领域独角兽。

此类企业主要钻研的是数据智能赛道的核心产品,即以湖仓一体为架构的分析型数据库。数据显示,2021 年中国分析型数据库的市场规模为 249.9 亿元,预计 2024 年,中国分析型数据库市场规模将达到 521.4 亿元。

“如何让数据驱动业务,让数据的价值真正释放,我认为应该从根本上先解决底层基础软件系统问题,再去考虑上层数据应用。”滴普科技联合创始人、FastData产品线总裁杨磊告诉Tech星球,当全球进入数据大爆炸时代,企业比拼的真正内力是大数据带来的最终价值。

市场再升温,“湖仓一体”为何火了?

回顾以往,国内外企业最早采用的数据存储处理方案,基本是Oracle、IBM为企业搭建的 “数据仓库”,它接纳的是报表、SQL等结构化数据,并不适宜半 / 非结构化数据的处理。甚至一些大型企业邀请IBM来做整体商业咨询,搭配整套本地化软件体系,建立规范的数据仓库。在2002年,还诞生了Hadoop技术,满足了企业基本的数据存储分析等需求。

但随着企业业务的发展,对存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的数据基础设施,以及实时性提出更高要求。由此,Databricks于 2016 年推出 Delta Lake,这一派不再为企业搭建“数据仓”,走的是“数据湖”路线,虽然满足了企业结构化和非结构化数据存储的需求,但它们不支持事务处理,不保证数据质量,并且缺乏一致性/隔离性。而Snowflake的迅速窜红,其基于云的数据存储和分析服务,又提供了一种新的方式与思路。

因此,行业就出现一种呼声:有没有一种技术方案,解决数据仓和数据湖的缺点、再融合二者优点?在2020年,行业发展到了一个节点,终于出现了一套更优秀的方案。

这一年Datebricks首提Lakehouse,也就是“湖仓一体”概念。“湖仓一体”并不是简单的湖+仓的技术整合,而是一种融合了数据湖和数据仓库优势、更开放的新型架构。有人把它做了一个比喻,就类似于在湖边搭建了很多小房子,有的负责数据分析,有的运转机器学习,有的来检索音视频等,至于那些数据源流,都可以从数据湖里轻松获取。

因为融合了数据湖和数仓的优势,以及面向AI时代的新型架构等优势,Gartner在2021年度数据管理领域报告中宣布,“湖仓一体”首次进入成熟度模型。至此,“湖仓一体”引发了更大关注度。

在杨磊看来,“湖仓一体”火了的深层次原因,主要是现在数据的体量已经足够大,大规模数据统一实时处理的需求愈加被重视。另一个促成湖仓一体发展的,是 AI 机器学习的大规模普及,各行各业都急需用机器学习算法支撑数据的管理与创新。

百舸争流,创新者竞赛云时代

换而言之,湖仓一体架构的形成,是一场市场供需倒逼而来。 但Databricks等企业没有深入拓展国内市场,国内上千万家企业又面临着数字化升级的挑战,国内数据智能服务的厂商就显得至关重要。 Tech星球经过调研,发现国内主要有两类玩家。 

数据智能市场国内外代表厂商 

第一类是国内诸如滴普科技等创新厂商,他们在技术架构上很多采用了全新一代的设计,包括了湖仓一体、流批一体、云原生等,并且对存储计算引擎做了大量优化,能够以低成本、高性能满足企业的多种分析需求。 

“我们认为湖仓一体的解决方案,不是单纯的底层的技术能力,更多的是在于满足客户的最终业务价值,把整个数据底层,以及数据的中间的调度和处理层,以及上面的一些数据分析服务层,能够提供给客户一条龙的服务,也是比较符合中国市场的一个定位。” 

杨磊提到,为了将湖仓一体这些技术解决方案更好地落地,滴普科技还在数据基础平台之上,与行业专家合作,更好地把为客户建设的数据平台使用起来,体现出客户具体业务的刚需价值,更追求效果服务。 

而国内提供数据升级的第二类玩家,是大厂基于公有云业务推出的“湖仓一体”解决方案,如华为云的FusionInsight、火山引擎的LAS、阿里云的MaxCompute等。 

从IaaS资源层到数据层、应用层提供完整的解决方案,是这类玩家的优势。当然,很多客户并不希望数据服务和公有云服务过渡捆绑,这样会导致过于依赖某一平台。 

杨磊告诉Tech星球,滴普等新锐玩家与公有云平台也是合作关系,他们的产品FastData也可以部署在这些主流公有云平台上,客户可以选择云平台的数据服务,也可以采用独立第三方服务。 

而且滴普的湖仓平台其实包含几部分,比如“流批一体”数据分析处理引擎DLink、数据智能开发平台 DataFacts,用于企业数据科学分析、可视化建模、机器学习等的数据科学分析平台 DataSense。

FastData实时湖仓平台架构

不可否认的是,更敏捷的云化部署,也是当下的市场趋势。 

去年12月,滴普科技董事长兼CEO赵杰辉曾在滴普内部一场关于战略审视的会上表示,“战略的核心不仅在战(做什么),更重要的是略(不做什么)。”在这场会议中,滴普明确了Cloud First战略,并把国际化、生态化视为公司下一步提升的重点。这实际上是让滴普科技等企业,与云平台巨头站在了同一竞争环境中。 

据悉,在滴普科技内部,已经在逐步升级客户服务模式,通过云服务方式为多个行业提供服务。滴普原来的DIC(DataInnovation Center)服务团队,如今已经升级为新DIC(Data Intelligence Cloud)团队,帮助客户快速云化部署服务。

不以数字化“忽悠”,为客户提升商业价值

在大多数企业数字化升级,尤其是大中型企业升级过程中,商业化价值都已经成为核心考核指标。

以往,企业在数字化转型中注重对营销应用端的改造,随着数字化转型的深入,越来越多企业意识到,优化底层技术应用对提升自身经营效率、以及支持业务科学决策起到的重要作用。企业更追求如何搭建“数据房子”,带来真正增长价值。

借助滴普科技的FastData 进行数字升级的百丽国际集团,便是如此。

两年前,百丽国际科技中心开始与滴普科技合作,在原有基础上,持续完善数据字典项目,历时16个多月的时间,梳理了近600个维度、1300+个指标,最终达到了数据逻辑的统一性,完成了数据标准化建设。

杨磊介绍,在与百丽合作过程中,滴普基于实时湖仓平台FastData的核心能力,双方在短短几个月时间里,完成了现有多个数仓的统一,通过湖仓一体实时架构,实现门店级到区域级到集团级实时数据分析能力,把之前T+X的分析时间缩短为T+0实时分析。

比如,现在百丽的门店店长在早晨上班时,就能看到昨天下班后全天的经营数据分析,而在过去,这个周期可能需要两到三天。

并且将原来只针对企业CEO服务的数据分析平台,变为各种数据智能应用,下沉到一线员工的使用场景。双方共建的标签工厂、店长AI助手应用等产品服务,就能提供实时数据反馈基础,更好地支撑和反哺业务管理层的工作开展。

百丽的数字化建设在行业具有标杆性意义,因为百丽不仅自身重视数字化,集团共有上千人的技术团队,是数字化典型企业,同时也是滴普科技深度合作的伙伴。

不止百丽,如今,数字化变革已经深入千行百业,越来越多的企业开始选择与专业的技术创新厂商合作,通过共同搭建数据智能平台,提升企业的生产经营效率,进一步实现体验创新、管理创新和模式创新。

随着数字化转型的深入,意味着数据智能已步入最好的时代。根据中国信息通信研究院发布的《中国数字经济发展报告(2022年)》,2021年中国数字经济规模达到45.5万亿元,同比名义增长16.2%,占GDP比重达到39.8%。

当然,从湖仓一体的趋势,以及滴普科技的发展历程证明,“数据房子”打好地基很重要,更关键的是最终打造出的“房子”能够提升经营效果,最终提升商业价值。


您可能还会对下面的文章感兴趣: