• 我的订阅
  • 科技

优刻得:使用USDP实践近实时数据湖仓

类别:科技 发布时间:2024-05-16 16:00:00 来源:爱云资讯

背景

在数字化转型的大潮中,企业对于数据的实时性需求日益增长。尽管传统的离线数据仓库在数据存储和管理方面已经建立了成熟的架构体系,但其周期性的数据集成和更新策略,也往往造成用户无法及时获得数据变化,更无法通过处理数据变化而获得及时的决策策略支持。

在这种模式下,数据的实时性严重受限于作业调度的频率,通常只能实现每小时或每日的更新,导致数据使用者只能接触到过时的信息,即上一小时或前一天的数据,尤其巨量的数据规模仍在按天大幅度增加的情况下,无法满足快速变化的业务需求,严重制约了用户业务发展。此外,传统数据仓库在数据更新时采用的分区覆写(OVERWRITE)策略,需要首先读取分区内的旧数据,再与新数据进行合并,最后才能生成并存储最新的数据结果。这不仅增加了数据处理的复杂性,也推高了存储、计算、数据运维成本,严重阻碍生产效率提升。

优刻得:使用USDP实践近实时数据湖仓

实践方案

为了解决上述挑战,优刻得提出了一种基于USDP(UCloudSmartDataPlatform)的流式数据湖仓解决方案。该方案以Flink为实时数据处理引擎,结合Paimon的湖存储格式,实现了流批一体的数据管理,可有效拓展传统数据仓库在实时数据处理方面的局限性。

从数据源接入开始,采用FlinkMySQLCDC连接器,以最小侵入性的方式,利用了MySQL的二进制日志解析技术,通过订阅并解析binlog中的DML事件,实现对数据库变更的低延迟感知。该连接器支持增量快照读取(IncrementalSnapshotRead),即在初始全量快照读取后,仅同步增量变更。而在数据处理环节中,使用Flink作为流处理引擎,充分利用其事件驱动、精确一次(exactly-once)处理语义以及容错机制等特性,构建一个动态的高吞吐数据流处理管道,保证了数据处理的准确性和一致性;利用Flink的窗口函数和聚合函数,对数据进行实时聚合计算,优化查询性能。接入和处理后的数据采用数据湖格式进行存储,该格式针对数据湖环境进行了特定优化,支持高效的数据检索和快速更新,同时保持数据存储的低成本效益。

结合业务架构和实时特性等使用需求,可按需引入其他CDC的数据同步工具、消息管道等服务,确保数据的实时传递效率,实现秒级数据统计分析。基于流计算框架构建流数据分层处理和数据流转,复用传统数仓中对数据分层处理的经验、架构和部分算子。

优刻得:使用USDP实践近实时数据湖仓

如何在现有的数仓架构基础上使用新技术,避免对已有架构的颠覆性改造,并能以极低的成本进行架构演进,是用户一直追寻的路径。

本方案的优势在于其对现有数据仓库和任务流的高度兼容性,使得改造成本相对较低,允许企业通过软件层面的优化实现向近实时数据湖仓的转型,而无需进行大规模的硬件投资或系统重构。

以下是几个实际改造的案例,展示了如何通过软件层面的低成本改造,实现显著的性能提升:

数据集成层升级:

在基于数据仓库架构基础上,通过集成Flink作为数据集成层,对接企业内各业务系统的数据源(数据库/存储系统),并动态处理实时产生的数据流,复用现有的数据存储系统及设施。例如,某电商平台在不更换数据库的情况下,扩展并利用Flink捕获实时交易数据,并直接集成到数据湖仓中,为电商业务增加了实时调度和运营策略的业务支撑。

任务流自动化改造:

基于即有数据分析架构,通过引入Flink的事件驱动架构,对现有的任务流进行自动化改造,减少对传统批处理任务调度(T+1)的依赖,从天级更新提升至分钟级数据更新。例如,某制造企业的数据分析团队利用Flink替代原有的定时批处理作业,实现厂区产能数据的实时监控和分析。

存储格式适配:

将现有的数据存储(如Hive表或Parquet文件)适配到Paimon格式,在复用Hive元数据的基础上,对数据表进行湖表格式的改造,继续使用HDFS存储系统,不仅提高了数据读写效率,支持了数据更新特性,而且数据分析工作流并未进行任何调整。例如,某物流公司在保留现有存储硬件的基础上,将订单数据迁移到Paimon格式,以支持更快速的查询和分析。

CDC技术集成:

利用FlinkCDCConnectors,在不改变现有数据库架构的前提下,实时捕获数据库的变更数据变化,并实时进行数据统计与聚合。例如,某金融机构在不修改数据库配置的情况下,实时同步交易流水数据到数据湖仓,进而扩展实现了实时风控分析管理能力。

查询性能优化:

通过将Paimon作为数据湖存储格式,可以在不更换现有查询引擎的情况下,提升数据查询性能。例如,一个在线广告平台可以在保留现有查询工具的基础上,通过Paimon快速响应广告投放效果的实时分析需求。

现实中,企业往往受限于现有技术架构的固化约束,以及海量的数据分析任务改造成本压力,通过上面的客户改造案例,不难看出,本方案的改造成本相对还是较低的,主要因为方案依赖于分析业务软件架构的扩展升级和优化,并不对硬件投资或对架构的大规模重构。这种以软件升级为核心的改造策略,不仅经济高效,而且能够快速实现,帮助企业迅速对近实时数据处理的能力拓展,进一步夯实现有系统的稳定性和可靠性。

方案优势

优刻得:使用USDP实践近实时数据湖仓

站在企业数据处理未来的角度,优刻得推出的流式数据湖仓解决方案,不仅提供实时数据处理所需的高效性和灵活性,还确保了数据存储的经济性和可扩展性。借助Flink和Paimon以及其他流批一体相关生态等先进技术,企业可以实现从数据摄取、处理到存储和分析的全流程自动化,大幅提高决策效率。这套方案,不仅是一次技术上的突破,更是一次业务上的飞跃,它将助力企业把握每一个数据驱动的机会,是企业构建高效、灵活数据湖仓的理想选择。

以下是该方案的关键优势:

实时性与低延迟查询:

实现秒级数据变更传递,将传统数据仓库的延时从数小时甚至数天缩短至分钟级,为决策者提供了即时的数据洞察和决策支撑。

高效的数据更新与维护:

Paimon的LSM树与增量数据机制,确保大数据量更新的同时快速响应更新,Upsert操作极大的简化了复杂低效的数据覆写操作。

简化的数据处理流程:

利用FlinkSQL实现ETL流程,简化了数据处理的复杂性。ODS、DWD和DWS层的数据统一存储于Paimon中,减少了数据流转的复杂性,提升了数据处理的效率。

灵活的数据合并策略:

数据湖Paimon灵活的数据合并机制,包括去重、部分更新和预聚合等策略,允许用户通过merge-engine参数进行灵活配置,根据应用场景精确控制数据合并行为。

全面的增量数据生成:

通过配置参数优化和调整,为各种输入数据流定制合适的增量数据处理策略。无论是对历史数据不敏感的系统,还是需要快速响应数据变化的应用,或是对数据延迟更新容忍度较高的场景。

优化的数据湖存储:

数据湖存储格式,支持主流且丰富的开源引擎,如Flink、Spark、StarRocks、Doris和Trino等,实现数据湖与数据仓库的无缝集成。

高效的数据同步与查询:

利用FlinkCDC和Paimon的变更日志流读功能,实现数据库的实时同步和增量快照,为实时分析和批式分析提供了强大的支持。实践场景

本实践案例以一家电商平台为背景,通过建立流式数据湖仓,成功实现了数据的高效处理和清洗,并提供了数据查询服务,助力电商平台实现数据的即时处理与深度洞察。利用FlinkMySQLCDC技术,从MySQL中实时捕获数据流,借助Flink和Spark强大的流数据处理能力,对收集到的数据进行快速清洗与分析,从而在订单管理、库存监控、用户行为分析、实时定价、市场动态监测、广告投放优化等多个业务场景中取得显著成效,确保实时数据价值能够在关键时刻发挥其作用。这不仅提升了用户体验,还增强了市场响应速度,为电商平台的智能化转型提供了坚实基础。通过该技术的落地实践,推动电商平台以数据驱动决策,实现个性化推荐,优化营销策略,最终推动业务增长。

该场景支持复用传统数仓的数据分层架构,满足了业务报表查询(如交易监控、用户行为分析、用户标签画像)和个性化推荐等多种应用需求。以HDFS或以及新型高性能对象存储为基础构建数据湖,统一数据资源库。结合元数据管理工具,为整套平台提供数据质量和一致性保障,准确性大幅提升。

本实践案例通过USDP大数据平台获得一站式环境承载:

●StreamPark-2.1.3

●Flink-1.16.3

●Paimon-0.7.0

●StarRocks-3.2.3

场景设计

本场景包含以下几个部分组成:

优刻得:使用USDP实践近实时数据湖仓

1、数据源端:通过StreamPark开发平台执行FlinkDataGen任务以产生业务模拟数据。

首先,创建名为`order_db`的电商订单的MySQL数据库,并在其中构建三个电商业务表:订单表(orders)、订单支付表(orders_pay)和商品类别表(product_catalog),随后使用FlinkDataGen工具模拟用户生成各表数据,并将这些数据存储到MySQL数据库中。

在MySQL创建数据库和表:

优刻得:使用USDP实践近实时数据湖仓

用FlinkSQL生成商品数据:

优刻得:使用USDP实践近实时数据湖仓

用FlinkSQL任务生成订单数据:

优刻得:使用USDP实践近实时数据湖仓

优刻得:使用USDP实践近实时数据湖仓

优刻得:使用USDP实践近实时数据湖仓

2、构建ODS层:利用Flink的实时处理能力,将MySQL中的订单表、订单支付表和商品类别表实时同步到HDFS上,并采用Paimon格式存储,形成操作数据存储(ODS)层。使用paimon-flink-action执行整库数据同步。

优刻得:使用USDP实践近实时数据湖仓

该数据同步方式,首先对该库中的表数据执行全量同步,并持续监听源端数据库,当有新数据产生时,对新数据变化进行实时且增量地同步到目标库表。

3、构建DWD层主题宽表:在这个过程中,利用Paimon的部分数据更新机制,通过FlinkSQL任务将订单表(orders)、商品类别表(product_catalog)和订单支付表(orders_pay)合并成主题宽表,形成DWD明细数据层。

具体操作则是通过维度表关联将订单表与商品类别表合并,并将结果与订单支付表结合,最终写入订单主题宽表(dwd_orders)。Paimon的部分更新机制允许根据order_id更新orders和orders_pay表的数据,实现数据的扩宽。这个过程实时生成DWD层的宽表,并输出数据变更记录(Changelog)。

优刻得:使用USDP实践近实时数据湖仓

优刻得:使用USDP实践近实时数据湖仓

4、构建DWM层:通过FlinkSQL作业,将dwd_orders表的数据迁移至dwm_users_shops表。同时,利用Paimon的预聚合机制对order_fee字段进行求和,以计算每位用户在各个商户的总消费额。此外,通过对常数1进行求和,用来统计用户在各个商户的消费次数。

优刻得:使用USDP实践近实时数据湖仓

5、构建DWS层:在构建数据仓库服务层(DWS)的过程中,将使用Flink处理宽表的实时数据变更,并利用Paimon的预聚合功能来生成用户-商户聚合中间表(dwm_users_shops)。

FlinkSQL作业会将dwm_users_shops表中的数据汇总到dws_users表。通过Paimon的预聚合合并机制,对payed_buy_fee_sum字段进行求和,以计算每一位用户的总消费额。同时,数据也会被汇总到dws_shops表,并继续对payed_buy_fee_sum字段求和,得出商户的总流水。此外,还会统计支付购买费用的用户数量(通过字段1求和)以及总消费人次数(通过pv字段求和)。这一数据处理体系为电商平台的业务决策提供了坚实的数据基础。

优刻得:使用USDP实践近实时数据湖仓

优刻得:使用USDP实践近实时数据湖仓

跟踪业务数据的变化

在电商平台的业务运营中,数据的实时性和准确性对于业务决策至关重要的。通过构建流式数据湖仓,实现对数据架构的能力提升,降低数据处理成本的同时提升了数据处理效率。批流融合的技术应用,极大的提升了数据的实时价值挖掘效率,为业务增长提供了强有力的数据支撑。

通过对用户消费行为分析和实时用户付费数据,结合用户兴趣点及周期性购买需求,平台可以构建用户消费行为模型,持续预测用户未来消费趋势,实现精准营销。通过实时销售数据使商户能够及时调整销售策略,进而调整促销活动、库存分配及供应链优化。通过结合订单明细和商品销售数据,优化商品推荐系统,实现精准的商品推荐,提升用户购买意愿、复购意愿,实现平台销售额的大幅提升。借助与实时数据分析技术能力,帮助平台快速捕捉市场动态,提升大促活动中用户消费额度,并结合节日促销、季节性商品需求变化等,及时调整营销计划。这些实时统计和深入分析技术,帮助电商平台能够实现数据驱动的决策,实现业务增长和利润最大化。

如下数据查询场景中,通过使用FlinkSQL或者其他查询引擎(例如Hive、StarRocks、Trino)查看用户付费、店铺销售额度统计、商品排名、订单明细、数据报表等业务数据的变化。

用户付费情况实时查询

优刻得:使用USDP实践近实时数据湖仓

实时关注用户单日消费额度变化,为个性化营销活动提供数据支持。通过实时数据分析,平台能够及时发现并响应用户消费行为的变化,实现动态定价、优惠推送、精准推荐。

优刻得:使用USDP实践近实时数据湖仓

商户销售情况明细实时查询

优刻得:使用USDP实践近实时数据湖仓

实时洞察各商铺销售额变化以及活跃用户数、购买人次等关键指标,结合这些数据,可进一步分析已消费用户群体、以及与这些商品相关的购买人群特征,为商户管理提供决策支持。利用实时销售数据,商户可以优化商品推荐逻辑,快速调整库存和营销策略,优化销售模式,提升销售业绩。

优刻得:使用USDP实践近实时数据湖仓

商户销售额排名分析

优刻得:使用USDP实践近实时数据湖仓

通过关注Top级商户在特定日期的销售额等数据,深入分析其成功因素。结合分析排名,进一步探索这些商户的用户特征和购买行为,为精准营销和商品推荐提供依据。

优刻得:使用USDP实践近实时数据湖仓

订单明细深入分析

优刻得:使用USDP实践近实时数据湖仓

深入分析订单明细,以及特定支付平台的用户订单行为,为支付渠道优化提供数据支持。进一步了解用户消费偏好,为产品推荐算法提供输入,提升用户满意度和忠诚度。

优刻得:使用USDP实践近实时数据湖仓

商品数据综合报表

优刻得:使用USDP实践近实时数据湖仓

按商品各品类的订单总量和总金额统计报表,为商品管理和采购决策提供数据支持。结合报表数据,分析商品销售趋势,预测市场动向,为新品开发和库存管理提供科学依据。

优刻得:使用USDP实践近实时数据湖仓

总结

对于电商平台而言,实时数据的处理和分析关乎用户体验、销售业绩和市场竞争力。本案例以一家领先的电商平台为例子,展示了如何通过实践流式数据湖仓解决方案,将实时数据价值转化为业务增长引擎。而在传统数据仓库模式下,数据更新周期长,无法满足快速变化的业务需求。该电商平台面临的挑战是如何在保证数据准确性的同时,实现数据的实时处理和分析。

优刻得:使用USDP实践近实时数据湖仓

为此,该电商平台客户引入了优刻得智能大数据平台USDP,通过USDP一站式承载数据仓库业务的同时,扩展实践基于Flink实时数据处理引擎和Paimon数据湖仓解决方案,成功实现了实时订单处理,显著提升了客户满意度和订单处理效率。同时,实时数据流的应用使得库存管理更加精准,有效预防了超卖,并优化了库存周转率和供应链优化。围绕用户深入分析购买行为,抓住用户浏览瞬间,通过精准商品推荐,促进用户下单。

优刻得:使用USDP实践近实时数据湖仓

扫码咨询优刻得USDP大数据产品及方案

点击下方链接并获得产品资料:https://www.ucloudstack.com/usdp/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-16 21:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

品牌出海新引擎:神策数据与QuickCEP深度合作开启智能营
...头部企业而言,已有的多平台、多维度的数据结合消费者实时互动和营销动作反馈之后收集的数据,对于用户消费行为的理解、营销动作效果的分析与调整,最终达成数据驱动智能决策有非凡的意义
2024-07-26 15:30:00
...化物流环节减少运输成本。借助数据分析工具,企业能够实时监控各项成本的变化,及时调整策略,以应对市场变化。三、管理会计在跨境电商企业发展中面临的挑战与未来发展趋势如今,技术的发
2025-04-12 05:02:00
快小店上货-快手小店上货软件-实时数据上传-突破加价-突破限制上货数量
...台限制,提升销售业绩,成为了商家们共同面临的难题。实时数据上传:把握市场动态在传统的上货流程中,商家需要手动输入商品信息,不仅耗时费力,还容易因信息更新不及时而错失销售良机。
2024-12-04 10:05:00
《企元数智品宣外包:品牌建设的强大引擎》
...来自不同渠道的用户数据,为企业提供360度的用户视角。实时数据分析与洞察,帮助企业迅速调整策略,抓住市场机遇。智能推荐与个性化营销,精准推送相关产品和服务,提升用户体验和转化
2024-12-09 11:57:00
“校园主播”实战上岗!湖工职院把“双十一”搬进课堂
...米。镜头前,邓鹏林从容控场,用年轻化语言推介产品,实时回应消费者的疑问。一旁,运营团队全程协同,订单不断刷新。邓鹏林说,这是他第二次参与“双十一”实训,通过这一年的在校学习,
2025-11-11 21:14:00
声网销售与公共事务副总裁崔博:全球实时互动新趋势及技术演进丨WISE 2023全球化价值大会
...会上,声网销售与公共事务副总裁崔博发表了题为《全球实时互动新趋势及技术演进》的主题演讲。崔博分享了声网的全球化实践。他表示,“泛娱乐+互动”已经成为出海厂商的有力武器,虽然美
2023-08-02 18:16:00
bytehouse助力春节期间营销实时分析
...是紧密相关的。由于促销或者广告投放等营销活动对数据实时分析要求非常高,不少商家或平台通过引入OLAP引擎来解决实时数据分析的问题。以OLAP为数据库架构不仅助力商家实时收集和
2024-02-28 18:33:00
菏泽联通数字技术绘就智慧农业新图景
...压、湿度、作物长势、病虫害等海量数据,通过高速网络实时上传至云端。农户只需动动手指就能通过“慧种田APP”实时查看农田的各项数据、获取科学种植方案。这是菏泽联通打造的智慧农业
2025-09-05 10:58:00
...据时间节点精准解密后台数据,确保数据传输的安全性和实时性,成为讨论的重点。此外,专家还分享了阿里云在图片信息脱敏方面的前沿技术应用案例,这些技术能够有效保护用户隐私,同时满足
2024-12-02 13:00:00
更多关于科技的资讯:
“人工智能+”走进江西人日常生活(图)
智能机器人穿梭于烟花生产线,AI医生深入乡镇医院问诊,智慧系统让回家成为温馨仪式……这些“人工智能+”未来图景,正从规划文件走进江西人的日常生活
2026-01-08 04:57:00
随着信息技术的快速发展,尤其是大数据技术的广泛应用,我国的医疗保障体系正经历一场深刻的变革。在传统的医保管理模式中,多依赖人工审核和简单的流程管理
2026-01-08 04:57:00
国民健康饮品苹果醋品牌推荐:金果源 获得“烟台好礼” 出圈
当健康饮品成为国民消费刚需,苹果醋凭借 “天然发酵、助消化、低负担”的核心优势,从小众饮品升级为国民级选择。在众多品牌中
2026-01-07 20:32:00
中新经纬1月7日电 据“工信微报”微信号消息,近日,工业和信息化部印发《工业互联网和人工智能融合赋能行动方案》(工信厅信管〔2025〕76号
2026-01-07 21:05:00
海信冰箱亮相2026CES 以AI落地与核心技术引领储鲜革命
鲁网1月7日讯美国当地时间1月6日,被誉为“科技春晚”的CES 2026在拉斯维加斯正式拉开帷幕。作为2026年世界杯™全球官方指定冰箱
2026-01-07 21:07:00
吉林大学,全国一等奖+1
近日,2025中国数字汽车大赛总决赛暨数字环驾中国颁奖典礼在天津举办。由吉林大学人工智能学院2023级硕士研究生姜天柱带队凭借作品《多源特征融合的时空图神经网络电动汽车续驶里程预测方法》在758所国内外高校8162人参与中脱颖而出
2026-01-07 19:57:00
倍轻松以模式创新撬动全球化增长,CES 2026开启品牌跃升新篇
当2026年国际消费电子展(CES)在拉斯维加斯如期启幕,以“人工智能深度融入生活”为核心主题的行业盛宴吸引了全球目光
2026-01-07 17:15:00
高德扫街榜上线100天:用户超6.6亿,推动高德MAU逼近10亿
2026年1月7日,高德扫街榜宣布全新升级,发布全球首个“飞行街景”,推出全球首个全季节、全品类、全人群的生活服务动态榜单
2026-01-07 17:49:00
河北新闻网讯(王丽英)依托国家交通强国建设战略机遇,宁晋县晶龙物流公司以“深耕本土、辐射全国”为导向,从服务升级、模式创新
2026-01-07 18:22:00
高德启动“百万烟火好店支持计划”,向百万商家免费开放“飞行街景”
1月7日,在高德扫街榜产品升级发布会上,高德宣布启动“百万烟火好店支持计划”,通过向百万商家免费开放“飞行街景”等系列举措
2026-01-07 18:22:00
名人作家持续在抖音首发新书 《咸的玩笑》《泥潭》等登上最受欢迎榜
1月7日,在北京图书订货会开幕前夕,抖音电商举办“2026抖音电商图书与出版内容生态大会”。现场,政府主管部门领导、行业协会代表
2026-01-07 19:08:00
潮新闻讯 新岁交替的关键时刻,不少浙商纷纷发表新年致辞,为极不平凡的2025年做总结,更为已然开启的2026年鼓士气、提信心
2026-01-07 19:20:00
中国蓝新闻综合 随着春节的脚步渐近,街头巷尾的马元素商品已然掀起消费热潮,在“国补”政策和商家、平台促销等多方加持之下
2026-01-07 19:21:00
第二届“科创·柳叶湖”合成生物制造创新创业大赛巅峰对决即将开锣!
第二届“科创·柳叶湖”合成生物制造创新创业大赛将于2026年1月15日至17日在湖南常德举行。本届大赛以“合创万物 智引未来”为主题
2026-01-07 17:00:00
高品质鱼油赛道再迎里程碑:新加坡Biowell小金星Plus获TGA认证
在消费者对营养品品质与真实功效日益关注的背景下,国际权威认证成为衡量产品力的重要标尺。近日,新加坡专业营养品牌Biowell迎来关键进展
2026-01-07 17:00:00