• 我的订阅
  • 科技

redshift数据分析的历程

类别:科技 发布时间:2022-12-27 13:59:00 来源:浅语科技

从大数据概念首次提出,到全球经济迈入数智化时代,AmazonRedshift云数仓支撑企业应用走向现代化数据架构,已有十年历史。回顾过去,Redshift围绕数据分析、高可靠、高可用等方向,经历了哪些重要迭代?2022re:Invent最新推出的Zero-ETL“简化数据管道”理念,背后包含哪些技术逻辑?

接下来,让我们站在新十年的起点,一起去感受以Redshift为核心的数据技术带来的变革!

十年跃迁

redshift数据分析的历程

“这10年,我们一直从客户需求出发,不断完善产品功能,提升应用性能。比如:客户希望融合湖仓的能力,在仓中能够直接查询S3数据湖中的数据。”亚马逊云科技数据分析专家潘超,具体介绍了Redshift的演进历程。

早在2017年,Redshift就推出了RedshiftSpect,提供了湖仓融合能力。2019年,Redshift推出RA3类型的节点,存储和计算完全分离各自独立扩展,帮助客户节省成本的同时;也给Redshift的架构带来极大的扩展性和灵活性。之后,RedshiftDataSharing应运而生,用户可以实现数据的生产和消费分离,可以在不移动数据的情况下实现跨集群、跨账号、跨Region数据的共享。

2021年,RedshiftServerless的发布,带来了云原生数仓的极致体验,客户不用再关注底层计算资源的扩展,可按需付费,简单易用。RedshiftServerless将计算资源抽象为RPU,会根据集群负载弹性伸缩,只在有查询的时候,按照RPU的使用时长计费,不查询不收费。使用起来非常方便,给到用户的就是一个Endpoint,直接链接使用即可。可适用于负载有高有底有波峰、波谷的应用场景等。

2022年的re:invent,Redshift再次成为焦点。AmazonRedshiftMulti-AZ(高可用性与高可靠性)、AmazonGlueDataQuality(更好地管理数据湖质量)、CentralizedAccessControlsforRedshiftDataSharing(简易且安全的数据访问权限管理)、AmazonRedshiftauto-copyfromS3(简化数据分析与移动)等,与AmazonRedshift相关的新功能,多到数不过来。

那么,这些新功能将为用户带来哪些实际价值呢?

以DataSharing举例,通过DataSharing客户能够做到跨账号跨Region的数据共享,做到读写分离,比如客户想要把RDS数据实时同步到Redshift,做完加工处理后对外提供高并发的实时数据查询,我们可以将RDS数据实时摄入到Redshift的ProvisionCluster,之后将元数据Share给RedshiftServerless集群提供BI查询,整个过程只需要在控制台上点击几个按钮就可以实现。

同样,Auto-copy对于客户来说,也是一个令人兴奋的新功能。Auto-Copy简化了从S3数据湖中加载到Redshift的过程,它可以自动监控S3的数据目录的变化,将新增的数据文件自动加载到Redshift中,无需依赖任何组件,只需要一个SQL语句就可以完成。

Redshift所有功能创新,均源于用户的业务场景。Redshift的应用场景包括四大块:1.常规业务运营与BI分析;2.实时数仓分析;3.查询、报表与数据分析,就是OLAP的一些应用查询;4.机器学习与分析预测。目前,全球有数万用户在使用Redshift进行数据分析,这些用户来自游戏、金融、医疗、互联网等各个行业。

ETL自由

2022年re:invent大会上,Redshift能够C位出道,还有一个重要原因,那就是首次推出了Zero-ETL独特的技术方法。

“通过Zero-ETL,直接实现了从Aurora存储层到Redshift存储层的数据转换,并且无需依赖任何组件,性能和实时性都有更好的保证,这是两个云原生产品的融合。”潘超进一步解释了Zero-ETL诞生初衷。

对于大多数企业而言,要想让关系数据库的数据实时进入数仓中做AP查询,通常会使用CDC工具实时解析数据,再用计算引擎将数据写入到仓中,同时要更新对数据进行Merge操作,整个过程比较复杂,还要依赖多个组件才能完成,给开发和运维带来了极大挑战。采用云原生产品融合的方式,则可以各自完成自己专业的事情,让数据在分析服务之间无缝流转。

Zero-ETL其实秉承的是亚马逊云科技一直以来的产品理念,那就是化繁为简,实现从0到1的技术突破后,再努力消除从1到0的琐碎。而从云原生数仓层面看,Zero-ETL的本质是,让数据在仓、湖、数据库之间无缝流转,而无需关注复杂的数据管道建设问题,让客户全心投入到业务中去。

深度集成

当数据进入到Redshift,数据分析与交互工作才正式开始,对于有着复杂业务数据逻辑的企业来说,更希望通过Redshift去简化业务流程,同时可以无缝构建和运行ApacheSpark应用程序。

“在2022re:Invent大会上,Adam宣布AmazonRedshift与ApacheSpark深度集成,以帮助数据工程师构建和运行Spark应用程序,这些应用程序可以从AmazonRedShift集群消费和写入数据。”潘超强调,聚焦数据战略,亚马逊云科技的产品虽自成一体,但也会拥抱开放,与开源生态深度集成。

首先,Redshift会和自己的托管服务无缝集成,比如:GlueCatalog做统一的元数据管理;LakeFormation做统一的权限管控;Zero-ETL做TP到AP的实时分析。

同时,Redshift也会跟开源、第三方合作伙伴的工具无缝集成。比如:加强了Redshift和Spark的融合,Glue和EMR都集成了最新研发的高性能SparkRedshiftConnector,更有效地提供谓词下推、临时文件列存等特性,相比开源Connector有10倍以上的性能提升。

过去,如果你在EMR工作,可以使用Spark对数据进行分析,但如果你想对Redshift中的数据运行Spark查询,你必须将数据迁移到S3,或者配置使用开源的SparkRedshift连接器,整个过程比较繁琐。最好的方法是,只在Redshift上就能对数据运行Spark查询。

AmazonRedshift和ApacheSpark的集成后,能最大限度地减少设Spark和Redshift开源连接器的繁琐过程(且通常是手动过程),并减少了执行分析和ML任务所需的准备时间。比如:你正在使用亚马逊云科技的分析和机器学习(ML)服务(AmazonEMR、AmazonGlue和AmazonSagemaker),那么现在可以构建ApacheSpark应用程序,从AmazonRedshift数据仓库中读写数据,而不会影响应用程序的性能或数据的事务一致性。

而在流式数据接入与处理方面,Redshift是通过AmazonManagedStreamingforApacheKafka(AmazonMSK)Serverless支持快速扩展资源,简化实时数据摄取和流式传输。问题是,这种方式的优势是什么?和Flink技术路线是怎样一种关系?

答案是,二者并不矛盾!很多客户需要更加实时的数据摄入,比如:风险监控及风控指标管理、游戏用户行为分析等等,StreamingIngestion解决的是通过在Redshift执行一个SQL,即可完成MSK和KDS的数据实时摄入到Redshift,将数据摄入延迟降低到秒级别,减少额外组件维护,减低成本。如果客户需要实时计算,依然可以选择Flink或者无服务器的托管Flink(AmazonKinesisDataAnalytics)。但如果客户是要做实时分析,那么StreamingIngestion是一个很好的选择。

借助Redshift提供的StreamingIngestion,用户可以非常方便地可以将消息中心的数据接入到Redshift,中间无需依赖任何组件,执行Redshift标准SQL即可,整个过程自动摄取,降低数据入仓摄入延迟和维护成本。

对于实时查询能力,Redshift有AutoTuning的功能,比如排序键,分布键,每列的压缩算法,自动物化视图等。Redshift依靠自己内部的机器学习算法,会自动去做一系列的动作,用户不再需要特别关注数仓性能的调优,只关注业务逻辑即可。

Redshift也提供了联邦查询能力,用户可以直接通过Redshift直接查询RDS和Aurora中的数据,获取实时数据,而不需要数据加载过程。

换言之,Redshift具备了实时数仓所需要的数据的实时摄入和实时查询能力,这种简化数据管道以及深度集成的方式,可有效支撑各个业务场景需求,让企业在特定的实时场景下不再需要移动数据,也不再需要构建和管理任何连接器。

总之,在亚马逊云科技整体的数据战略部署中,Redshift占有重要地位。在简单、易用、高性价比优势背后,其实体现的是Redshift一路创新与持续迭代带来的成果。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2022-12-27 15:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

oceanbase的一体化数据库发展历程
...储成本。可以说,一体化的理念贯穿于OceanBase的整个发展历程。通过分布式架构底座将多个关键能力融合到一个引擎和一套数据库,从最初的工程一体化、多租户、多兼容模式,演进到
2023-12-24 11:10:00
「谷云科技」RestCloug新一代(智能)全域数据集成平台发布
...集成技术的发展和应用带来了新的机遇和挑战。GPT不仅对数据分析领域产生了重大影响,对数据集成领域同样有着重要的影响。GPT的出现与RestCloud一直强调的业务用户能够自主
2023-05-19 12:15:00
仰望数据科学的星空
本文转自:文汇报《数据分析简史∶从概率到大数据》 项亦子 著 上海科技教育出版社出版 ■项亦子“数据是21世纪的石油,而分析则是内燃机。”这是Gartner研究院高
2023-07-30 05:56:00
首届贵州科技节|张胜林:贵州每一座桥梁都是一段攻坚克难的历程
“每一座桥梁都是一段攻坚克难的历程。”8月6日,由贵州省科学技术协会主办的“山海智”高端对话活动在贵阳举行。活动中,贵州省公路工程集团有限公司副总经理、总工程师张胜林作了题为“B
2023-08-07 19:15:00
奇点云发布数据云七大典型场景,携手客户共同进化
...。StartDT CEO、奇点云创始人行在在StartDT服务千余家客户的历程中,上述路径亦清晰可见。行在表示:“伴随数字化深入,企业需要建立一套完善的数据系统。向上,应有开
2023-05-29 19:00:00
bytehouse助力春节期间营销实时分析
...求非常高,不少商家或平台通过引入OLAP引擎来解决实时数据分析的问题。以OLAP为数据库架构不仅助力商家实时收集和分析数据,结合数据洞察产品,还能让商家了解营销策略有效性,判
2024-02-28 18:33:00
分布式时序数据库TimeLyre 9.1发布:海量存储、高效压缩、实时分析
...内置多种索引结构,检索性能达到毫秒级的低延迟响应。数据分析方面,TimeLyre支持通过标准SQL进行数据分析,降低用户使用门槛。并且支持主流的SQL模块化扩展,兼容通用开发
2023-08-04 11:00:00
ui自动化测试技术发展历程
...有效降低脚本的开发和维护成本。UI自动化测试技术发展历程1.UI自动化测试介绍。UI自动化测试(UserInterfaceAutomationTesting)是对被测软件用户界面(UI)进行自动执行测试的一种方法
2024-04-04 02:40:00
GrowingIO分析云产品全系迭代,分析更深入、实时性更强
迈入企业级元年后,GrowingIO分析云会以季度为单位进行商业化发版。本季度,分析云发布了全新升级的V4.1版本,全系产品均有不同程度进化:·应用市场新增「渠道价值分析」;·增
2023-06-05 19:00:00
更多关于科技的资讯: