• 我的订阅
  • 科技

redshift数据分析的历程

类别:科技 发布时间:2022-12-27 13:59:00 来源:浅语科技

从大数据概念首次提出,到全球经济迈入数智化时代,AmazonRedshift云数仓支撑企业应用走向现代化数据架构,已有十年历史。回顾过去,Redshift围绕数据分析、高可靠、高可用等方向,经历了哪些重要迭代?2022re:Invent最新推出的Zero-ETL“简化数据管道”理念,背后包含哪些技术逻辑?

接下来,让我们站在新十年的起点,一起去感受以Redshift为核心的数据技术带来的变革!

十年跃迁

redshift数据分析的历程

“这10年,我们一直从客户需求出发,不断完善产品功能,提升应用性能。比如:客户希望融合湖仓的能力,在仓中能够直接查询S3数据湖中的数据。”亚马逊云科技数据分析专家潘超,具体介绍了Redshift的演进历程。

早在2017年,Redshift就推出了RedshiftSpect,提供了湖仓融合能力。2019年,Redshift推出RA3类型的节点,存储和计算完全分离各自独立扩展,帮助客户节省成本的同时;也给Redshift的架构带来极大的扩展性和灵活性。之后,RedshiftDataSharing应运而生,用户可以实现数据的生产和消费分离,可以在不移动数据的情况下实现跨集群、跨账号、跨Region数据的共享。

2021年,RedshiftServerless的发布,带来了云原生数仓的极致体验,客户不用再关注底层计算资源的扩展,可按需付费,简单易用。RedshiftServerless将计算资源抽象为RPU,会根据集群负载弹性伸缩,只在有查询的时候,按照RPU的使用时长计费,不查询不收费。使用起来非常方便,给到用户的就是一个Endpoint,直接链接使用即可。可适用于负载有高有底有波峰、波谷的应用场景等。

2022年的re:invent,Redshift再次成为焦点。AmazonRedshiftMulti-AZ(高可用性与高可靠性)、AmazonGlueDataQuality(更好地管理数据湖质量)、CentralizedAccessControlsforRedshiftDataSharing(简易且安全的数据访问权限管理)、AmazonRedshiftauto-copyfromS3(简化数据分析与移动)等,与AmazonRedshift相关的新功能,多到数不过来。

那么,这些新功能将为用户带来哪些实际价值呢?

以DataSharing举例,通过DataSharing客户能够做到跨账号跨Region的数据共享,做到读写分离,比如客户想要把RDS数据实时同步到Redshift,做完加工处理后对外提供高并发的实时数据查询,我们可以将RDS数据实时摄入到Redshift的ProvisionCluster,之后将元数据Share给RedshiftServerless集群提供BI查询,整个过程只需要在控制台上点击几个按钮就可以实现。

同样,Auto-copy对于客户来说,也是一个令人兴奋的新功能。Auto-Copy简化了从S3数据湖中加载到Redshift的过程,它可以自动监控S3的数据目录的变化,将新增的数据文件自动加载到Redshift中,无需依赖任何组件,只需要一个SQL语句就可以完成。

Redshift所有功能创新,均源于用户的业务场景。Redshift的应用场景包括四大块:1.常规业务运营与BI分析;2.实时数仓分析;3.查询、报表与数据分析,就是OLAP的一些应用查询;4.机器学习与分析预测。目前,全球有数万用户在使用Redshift进行数据分析,这些用户来自游戏、金融、医疗、互联网等各个行业。

ETL自由

2022年re:invent大会上,Redshift能够C位出道,还有一个重要原因,那就是首次推出了Zero-ETL独特的技术方法。

“通过Zero-ETL,直接实现了从Aurora存储层到Redshift存储层的数据转换,并且无需依赖任何组件,性能和实时性都有更好的保证,这是两个云原生产品的融合。”潘超进一步解释了Zero-ETL诞生初衷。

对于大多数企业而言,要想让关系数据库的数据实时进入数仓中做AP查询,通常会使用CDC工具实时解析数据,再用计算引擎将数据写入到仓中,同时要更新对数据进行Merge操作,整个过程比较复杂,还要依赖多个组件才能完成,给开发和运维带来了极大挑战。采用云原生产品融合的方式,则可以各自完成自己专业的事情,让数据在分析服务之间无缝流转。

Zero-ETL其实秉承的是亚马逊云科技一直以来的产品理念,那就是化繁为简,实现从0到1的技术突破后,再努力消除从1到0的琐碎。而从云原生数仓层面看,Zero-ETL的本质是,让数据在仓、湖、数据库之间无缝流转,而无需关注复杂的数据管道建设问题,让客户全心投入到业务中去。

深度集成

当数据进入到Redshift,数据分析与交互工作才正式开始,对于有着复杂业务数据逻辑的企业来说,更希望通过Redshift去简化业务流程,同时可以无缝构建和运行ApacheSpark应用程序。

“在2022re:Invent大会上,Adam宣布AmazonRedshift与ApacheSpark深度集成,以帮助数据工程师构建和运行Spark应用程序,这些应用程序可以从AmazonRedShift集群消费和写入数据。”潘超强调,聚焦数据战略,亚马逊云科技的产品虽自成一体,但也会拥抱开放,与开源生态深度集成。

首先,Redshift会和自己的托管服务无缝集成,比如:GlueCatalog做统一的元数据管理;LakeFormation做统一的权限管控;Zero-ETL做TP到AP的实时分析。

同时,Redshift也会跟开源、第三方合作伙伴的工具无缝集成。比如:加强了Redshift和Spark的融合,Glue和EMR都集成了最新研发的高性能SparkRedshiftConnector,更有效地提供谓词下推、临时文件列存等特性,相比开源Connector有10倍以上的性能提升。

过去,如果你在EMR工作,可以使用Spark对数据进行分析,但如果你想对Redshift中的数据运行Spark查询,你必须将数据迁移到S3,或者配置使用开源的SparkRedshift连接器,整个过程比较繁琐。最好的方法是,只在Redshift上就能对数据运行Spark查询。

AmazonRedshift和ApacheSpark的集成后,能最大限度地减少设Spark和Redshift开源连接器的繁琐过程(且通常是手动过程),并减少了执行分析和ML任务所需的准备时间。比如:你正在使用亚马逊云科技的分析和机器学习(ML)服务(AmazonEMR、AmazonGlue和AmazonSagemaker),那么现在可以构建ApacheSpark应用程序,从AmazonRedshift数据仓库中读写数据,而不会影响应用程序的性能或数据的事务一致性。

而在流式数据接入与处理方面,Redshift是通过AmazonManagedStreamingforApacheKafka(AmazonMSK)Serverless支持快速扩展资源,简化实时数据摄取和流式传输。问题是,这种方式的优势是什么?和Flink技术路线是怎样一种关系?

答案是,二者并不矛盾!很多客户需要更加实时的数据摄入,比如:风险监控及风控指标管理、游戏用户行为分析等等,StreamingIngestion解决的是通过在Redshift执行一个SQL,即可完成MSK和KDS的数据实时摄入到Redshift,将数据摄入延迟降低到秒级别,减少额外组件维护,减低成本。如果客户需要实时计算,依然可以选择Flink或者无服务器的托管Flink(AmazonKinesisDataAnalytics)。但如果客户是要做实时分析,那么StreamingIngestion是一个很好的选择。

借助Redshift提供的StreamingIngestion,用户可以非常方便地可以将消息中心的数据接入到Redshift,中间无需依赖任何组件,执行Redshift标准SQL即可,整个过程自动摄取,降低数据入仓摄入延迟和维护成本。

对于实时查询能力,Redshift有AutoTuning的功能,比如排序键,分布键,每列的压缩算法,自动物化视图等。Redshift依靠自己内部的机器学习算法,会自动去做一系列的动作,用户不再需要特别关注数仓性能的调优,只关注业务逻辑即可。

Redshift也提供了联邦查询能力,用户可以直接通过Redshift直接查询RDS和Aurora中的数据,获取实时数据,而不需要数据加载过程。

换言之,Redshift具备了实时数仓所需要的数据的实时摄入和实时查询能力,这种简化数据管道以及深度集成的方式,可有效支撑各个业务场景需求,让企业在特定的实时场景下不再需要移动数据,也不再需要构建和管理任何连接器。

总之,在亚马逊云科技整体的数据战略部署中,Redshift占有重要地位。在简单、易用、高性价比优势背后,其实体现的是Redshift一路创新与持续迭代带来的成果。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2022-12-27 15:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...中的应用,深入探讨了具体的数据处理和分析办法以及大数据分析在体育行业的具体应用,并对新形势下大数据在体育统计发展中面临的挑战及应对策略。通过对大数据分析在体育领域的应用讨论,
2024-12-31 10:22:00
oceanbase的一体化数据库发展历程
...储成本。可以说,一体化的理念贯穿于OceanBase的整个发展历程。通过分布式架构底座将多个关键能力融合到一个引擎和一套数据库,从最初的工程一体化、多租户、多兼容模式,演进到
2023-12-24 11:10:00
「谷云科技」RestCloug新一代(智能)全域数据集成平台发布
...集成技术的发展和应用带来了新的机遇和挑战。GPT不仅对数据分析领域产生了重大影响,对数据集成领域同样有着重要的影响。GPT的出现与RestCloud一直强调的业务用户能够自主
2023-05-19 12:15:00
墨迹天气的发展历程
...天气预报;墨迹天气特有的穿衣助手也更人性化,通过大数据分析个人的需求,提供“专属于你”的穿衣小助手。其次,6.0版本更加贴心,比如预警信息更实用,呈现的方式更加直观,同时还智
2024-05-07 01:19:00
仰望数据科学的星空
本文转自:文汇报《数据分析简史∶从概率到大数据》 项亦子 著 上海科技教育出版社出版 ■项亦子“数据是21世纪的石油,而分析则是内燃机。”这是Gartner研究院高
2023-07-30 05:56:00
智邦国际×艺术家刘欢跨界合作,开启企业智能化管理新纪元
...泛应用正在改变着传统管理模式。自互联网兴起以来,从数据分析、人工智能到云计算等各种数智化工具的出现,为企业提供了更高效、更精确的管理手段。智能化管理不仅能够提升生产效率、降低
2024-10-29 15:44:00
首届贵州科技节|张胜林:贵州每一座桥梁都是一段攻坚克难的历程
“每一座桥梁都是一段攻坚克难的历程。”8月6日,由贵州省科学技术协会主办的“山海智”高端对话活动在贵阳举行。活动中,贵州省公路工程集团有限公司副总经理、总工程师张胜林作了题为“B
2023-08-07 19:15:00
精益生产在中国服装行业的发展历程以及未来展望
...需求。某知名服装品牌通过建立市场需求预测模型和销售数据分析系统,准确预测市场需求和销售趋势。同时,企业优化生产计划和采购计划,确保生产与销售之间的紧密衔接。此外,企业还引入先
2025-02-14 07:36:00
奇点云发布数据云七大典型场景,携手客户共同进化
...。StartDT CEO、奇点云创始人行在在StartDT服务千余家客户的历程中,上述路径亦清晰可见。行在表示:“伴随数字化深入,企业需要建立一套完善的数据系统。向上,应有开
2023-05-29 19:00:00
更多关于科技的资讯:
科学探秘 巧手求真 观湖社区伯努利实验点亮青少年科学梦
“原来流动的空气真的有力量!”“乒乓球居然能悬浮在空中不掉下来!”近日,苏州工业园区唯亭街道观湖社区阿里博士实验室内欢呼声此起彼伏
2026-01-29 11:28:00
大皖新闻讯 1月28日晚间,星巴克发布2026财年第一季度业绩报告,中国市场延续强劲增长势头,营收实现双位数增长,同店销售额连续三个季度正增长
2026-01-29 12:51:00
京东携机器人亮相乡村舞台 光明村首届“村晚”科技感拉满
当智能机器人遇上“村晚”,科技与年味会碰撞出怎样的精彩?1月28日,江苏宿迁来龙镇光明村热闹非凡,由京东打造的首届“村晚”正式上演
2026-01-29 13:13:00
“溪山模式+溪有物种实践”赋能科创:从商业航天到核聚变
2026年1月22日,NSE2026第四届新物种进化大会暨2026溪山天使年会在北京大北农凤凰国际创新园隆重举行。这场由溪山天使汇
2026-01-29 13:14:00
爱喏与宅智造达成战略合作:融合产品体系与服务网络,打造高效家装新平台
近日,融合产品设计与实用美学的健康水生态品牌“爱喏”与国内领先的一站式建材服务商“宅智造”建材超市正式签署战略合作协议
2026-01-29 13:16:00
第五届青山科技奖出炉:聚焦“数字+绿色”,鼓励基础科研“更落地”
1月29日,第五届青山科技奖获奖名单正式揭晓,10位绿色低碳领域的青年科学家入选。获奖名单中首次出现两名“95后”科学家
2026-01-29 13:33:00
海外网1月29日电 据美国广播公司报道,亚马逊公司高级副总裁贝丝·加莱蒂(Beth Galetti)在给员工的电子邮件中表示
2026-01-29 13:33:00
从人力巡防到智能巡护:云深处科技机器狗重新定义园区安全
如今,具身智能技术加速渗透千行百业,凭借与环境的实时交互能力,高效完成各类复杂任务,成为推动各领域智能化转型的关键驱动力
2026-01-29 13:14:00
鲁网1月28日讯走进泰安斯耐特自动化设备有限公司的研发中心与生产车间,科研人员正专注调试高压电气设备智能监测系统,生产线上智能组装设备高效运转
2026-01-29 09:05:00
中国科大构建全球首个核自旋量子传感网络 为搜寻宇宙“隐形邻居”提供工具
大皖新闻讯 近日,中国科大自旋磁共振实验室彭新华教授和江敏教授团队在《自然》杂志发表突破性研究成果:团队革新核自旋量子精密测量技术
2026-01-29 09:26:00
■ 胡蓉摘要:在数字经济快速发展的背景下,营销活动的数字化、智能化和平台化已成为企业提升市场竞争力的重要途径。相较于民营企业和互联网企业
2026-01-29 04:48:00
探店1天|“两个月投入8000元”,年轻人迷上花滑,啥情况?
中新经纬1月28日电 (李自曼)“重心往下,感觉你的刀刃!起身,张开双臂保持平衡……”在冰场中央,花滑教练王子誊一边说着
2026-01-28 23:33:00
江南时报讯 2025年,泰州农商银行秉持“以客户为中心”的理念,深入开展“运营服务满意年”专项活动,以创新驱动、网点提质
2026-01-28 21:53:00
山东移动日照分公司圆满完成2025年银行金融跨年结算通信保障工作
鲁网1月28日讯近日,日照移动公司全力组织人员保障网络工作,顺利完成市县银行系统52家网点的网络保驾护航工作,圆满完成网络通信保障
2026-01-28 22:01:00
科技赋能传统酿造 引领产业数智变革——中科恒信人工智能上甑机器人及发酵食品高端装备项目投产
鲁网1月28日讯近日,记者走进中科恒信智能科技(泰安)有限公司人工智能上甑机器人及发酵食品高端装备项目的智能装备车间,大族激光切割机精准作业
2026-01-28 17:21:00