• 我的订阅
  • 科技

前沿开源技术领域解读——开源大数据

类别:科技 发布时间:2023-02-12 04:00:00 来源:OSC开源社区

近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》 。

其中 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。

本篇为开源大数据领域的解读。

近几年,数据技术快速发展,技术栈逐渐成熟,从新一代数据源体系到数据处理体系,再到数据分析、AI 算法体系,数据技术逐步相互融合、相互支持形成有机整体。OLAP、数据湖、数据集成、DataOps、MLOps 等领域变得更加火热。未来,大数据技术会沿着异构计算、批流融合、云化、兼容AI、内存计算等方向持续更迭。

新一代数据栈将逐步替代国内单一“数据中台”

2021 年,美国硅谷最火爆的词汇就是现代数据栈(Modern Data Stack,简称 MDS),它们是以云原生、开源为背景的一系列全新数据技术引擎。相对于传统的闭源、私有化的数据技术来讲,现代数据栈凭借其开放性及公有云的 SaaS 服务快速得到了大量企业用户的认可。

现代数据栈分为若干层次,每个层次相互支持,相互协助,形成一个有机的整体。企业使用的时候,很容易就能利用 SaaS 模式将其整合到一起解决企业数据问题。而开源模式,又给 MDS 生态加入了新的活力,快速发展社区的同时让上下游快速出现新的合作。

前沿开源技术领域解读——开源大数据

近几年,国内出现了大量的开源数据技术。2022 年,这些技术形成了具有上下游的有机集合体,从新一代数据源体系到数据处理体系,再到数据分析、AI 算法体系,逐步相互融合、相互支持形成有机整体。可以看到,国内新一代的数据栈在支持云原生技术基础上,还支持私有云/公有云部署,用新一代的计算引擎、算法、调度、同步机制来支持新一代的数据基础建设。

前沿开源技术领域解读——开源大数据

这些新一代技术栈的流行和商业工具生态的整合,将逐步替代国内单一“数据中台”服务四五个领域的局面。这变得跟美国类似——若干家各自领域的专业企业相互集成,最终给用户提供高效且灵活的专业解决方案。

同时,我也高兴看到,这些开源现代数据栈中很多的商业公司,正在美国、欧洲快速建立社区、SaaS 和相关的商业服务,也有一些公司已经和全球的开源现代技术栈公司进行竞争。整体上,来自国内的新一代的开源现代数据栈(Open-source MDS)现在刚刚兴起。我相信,国内具有大量优秀的开发者、丰富的场景和大量的数据基础,一定会有若干家卓越的开源商业公司出现,最终在全球开源现代数据栈中有一席之地!

前沿开源技术领域解读——开源大数据

郭炜

Apache 基金会成员,Apache 孵化器导师,ClickHouse 华人社区创始人, Apache Dolphin Scheduler PMC,Apache SeaTunnel(incubating) 导师。郭炜先生毕业于北京大学,曾任易观 CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata 任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto、 Alluxio、Hbase 等,是国内开源社区领军人物。

数据湖与 LakeHouse 依然炙手可热

2022 年,数据湖与 LakeHouse 依然是炙手可热的话题。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名开源项目的带动下,国内的一些基础软件公司也开始在数据湖开源领域积极布局,代表有网易数帆开源的湖仓管理系统 Arctic,阿里云开源的流式数仓 Flink Tablestore;另一方面,一些传统架构的开源数仓软件,以及闭源的数据分析引擎,也开始积极拥抱开放的数据湖格式,标志性事件如 Snowfake 可以对接 Delta 和 Iceberg,Doris 系的开源数仓可以查询 Iceberg 数据。

在众多开源项目与头部企业的带动下,行业和市场相比去年对 LakeHouse 的价值认知有了长足进步。

目前,用户切入 LakeHouse 主要有两点:一是数据湖上云,公有云的对象存储与私有化的 Hadoop 在一些功能上有较大不同,比如 list 和 rename 接口的性能缺陷,导致用户在把围绕 Hadoop 构建的数仓体系迁往云端时需要应对各种问题,而以 Iceberg 为代表的新型表格式在使用上天然不依赖这些接口,并且提供了 ACID、模式演进等高阶特性,为用户提供了更好的上云方案;二是数据处理的流批一体,新型数据湖格式的快照机制对流更加友好,可以将数据湖拓展到更多流计算场景,甚至演进到流式湖仓的场景,实现实时数仓和离线数仓在湖仓上的统一。

但需要承认的是,LakeHouse 这项技术还没有瓜熟蒂落,尤其在流批一体方面,依然有很多想象空间。在 Gartner 技术成熟度曲线中,LakeHouse 处于期望膨胀期的临界点,距离主流市场采纳还需要 2-5 年的时间。得益于数据湖天然的体量和成本优势,可以预见当 LakeHouse 成为标准技术方案时,它将给企业的数字化转型带来极具意义的变革。

前沿开源技术领域解读——开源大数据

马进

网易数帆大数据实时计算技术专家、湖仓一体项目负责人,负责网易集团分布式数据库、数据传输平台、实时计算平台、实时数据湖等项目,长期从事中间件、大数据基础设施方面的研究和实践,目前带领团队聚焦于流批一体、湖仓一体的平台方案和技术演进,及流式湖仓服务 Arctic 项目开源。

数据技术快速更迭, DataOps 应运而生

今年的大数据发展如火如荼,OLAP、数据湖、数据集成、DataOps、MLOps 等领域非常火热,企业数字化、数智化发展十分蓬勃,开源原生公司发展迅速,数据湖三剑客 Apache Iceberg、Apache Hudi 加上 DataBricks 主导的 Delta Lake 都已经有商业化公司的助力。数据领域的估值愈发突起,比如 DBT Labs 估值已经达到 40 多亿美金,Airbyte 估值已经 15 亿美金。国内以天谋科技、思斐、SelectDB、白鲸开源为代表的大数据开源原生公司开始展露头角。

数据技术正在快速迭代,且迭代速度比以往任何时候都更快,每年新诞生的技术多达几十种,在此的背景下,DataOps 应运而生。DataOps 围绕云原生、敏捷智能化、多云能力等方向重构现代数据技术栈,涵盖了现代数据处理的整个生命周期,包括数据采集、数据加工(ELT/ETL)、数据集成、数据安全、数据治理等多个方面,利用 DataOps 可以高效打造现代数据智能高速公路。

根据 Gartner 的总结,我们来看一下 DataOps 在数据运营体系关键要素中的作用:

(1)流程控制:在 DataOps 中,自动化测试和统计流程控制在数据管道的每一步运行,过滤和消除数据错误,这些数据错误会破坏分析,并产生大量计划外工作影响生产效率。

(2)变更管理:DataOps 关注的是跟踪、更新、同步、集成和维护驱动数据分析管道的代码、文件和功能组件。

(3)并行开发:DataOps 组织并划分数据开发各个阶段,以便团队成员可以高效地协同工作,而不会发生资源冲突。

(4)虚拟化技术环境:DataOps 会虚拟化技术环境,以便将开发与生产隔离。虚拟化可以让业务创新更轻松地通过开发流程,并快速流向生产环境。当需要时,数据分析师可以快速启动一个开发环境,其中包括所需的工具、安全访问、数据、代码。

(5)复用:DataOps 支持复用模型,标准化被广泛使用的功能和分析组件,并简化虚拟环境之间的迁移。

(6)响应能力和灵活性:DataOps 设计数据分析管道以适应不同的运行时情况。这种灵活性使分析能够更好地响应组织的需求和不断变化的优先级。

(7)快速变化:DataOps 将构建技术环境,以实现尽可能短的开发周期时间,同时满足数据使用者的要求。DataOps 的设计理念就是基于变革,DataOps 体系结构将动态数据处理能力视为 “核心思想”,而不是 “亡羊补牢”,做事后的更改。

(8)团队协同:DataOps 协调任务、角色和工作流,以打破不同数据团队和业务团队之间的障碍,以便更好地协同工作。

可以说,DataOps 是快速实践数字化转型的理论指导,贯穿于现代数据技术栈的始末,DataOps 也是降本提效的最佳路径,实践 DataOps 路径的收益立竿见影。

前沿开源技术领域解读——开源大数据

代立冬

白鲸开源联合创始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金会正式成员,Apache 孵化器导师,ApacheCon Asia 大数据论坛主席。

更多内容请查看《2022 中国开源开发者报告》

https://gitee.com/report/china-open-source-2022/

查看《2022 中国开源开发者报告》 返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-02-12 05:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

中国光存储领域重大突破,网友却说:谁还用光盘?
前言:中国科学家在光存储领域取得了重大突破,推出了一款“超级光盘”,这个创新将改变数据存储的方式和效率。虽然在科技领域取得了巨大成就,但在网友们看来,这似乎已经过时了。文章将会从
2024-03-18 10:47:00
...摘要:随着大数据时代的到来,计算机科学与技术在各个领域中扮演着越来越重要的角色。本论文旨在探讨大数据背景下计算机科学与技术的应用,并分析其对社会、经济和科技发展的影响。首先,
2024-01-27 03:05:00
市场监管总局印发《关于加强计量数据管理和应用的指导意见》
...供应链结合更加紧密,计量数据潜能进一步释放。在重点领域、战略性新兴产业培育30家国家计量数据建设应用基地,挖掘和推广100个计量数据应用优秀案例,探索建立国家标准参考数据库,
2023-06-13 14:50:00
华为设立奥林帕斯奖,激发存储领域技术创新
...立了总额为200万人民币的奥林帕斯难题悬红,以激发存储领域的技术创新。此次悬红包括两个方向的难题:每比特极致性价比的存储技术和面向AI时代的新型数据底座。这一举措旨在引领全球
2024-05-26 14:27:00
lr-wifi无线数据采集模块在工业领域的应用
...成为推动社会进步的重要力量。特别是在安防监控和工业领域,高效、稳定的数据传输成为了实现智能化、自动化的关键。飞睿智能LR-WiFi无线数据采集模块不仅具备可靠的传输性能,还能
2024-06-19 13:49:00
大健康领域迸发强劲势能 联仁健康亮相2023世界人工智能大会
...有限公司(以下简称“联仁健康”)作为健康医疗大数据领域的独角兽企业,深度参与了本次大会。在大会的高端论坛中,联仁健康展示了其在数据多元应用场景的强大实力和前沿技术,同时也见证
2023-07-07 23:00:00
...社区……近年来,越来越多的数据库厂商入局开源数据库领域。开源数据库正在成为基础软件赛道的重要领域。艾媒咨询调查数据显示,2022年中国数据库行业市场规模达320亿元,预计20
2023-06-16 16:12:00
...面临的重大挑战与机遇。本文旨在深入探讨大数据在金融领域采集的优势及其应用,不仅关注如何通过传统和非传统数据源结合提高金融服务的质量和效率,还着眼于大数据技术如何帮助金融机构作
2024-04-13 05:53:00
发布数字经济领域标准47项!国家技术标准创新基地(贵州大数据)2024年成果丰硕
...会获悉,2024年,基地成员单位牵头或参与发布数字经济领域标准47项,包括多项IEEE国际先进标准。会议现场。2024年,基地充分发挥平台优势,不断整合标准创新资源,推动科技
2025-08-01 23:23:00
更多关于科技的资讯:
■ 胡蓉摘要:在数字经济快速发展的背景下,营销活动的数字化、智能化和平台化已成为企业提升市场竞争力的重要途径。相较于民营企业和互联网企业
2026-01-29 04:48:00
探店1天|“两个月投入8000元”,年轻人迷上花滑,啥情况?
中新经纬1月28日电 (李自曼)“重心往下,感觉你的刀刃!起身,张开双臂保持平衡……”在冰场中央,花滑教练王子誊一边说着
2026-01-28 23:33:00
江南时报讯 2025年,泰州农商银行秉持“以客户为中心”的理念,深入开展“运营服务满意年”专项活动,以创新驱动、网点提质
2026-01-28 21:53:00
山东移动日照分公司圆满完成2025年银行金融跨年结算通信保障工作
鲁网1月28日讯近日,日照移动公司全力组织人员保障网络工作,顺利完成市县银行系统52家网点的网络保驾护航工作,圆满完成网络通信保障
2026-01-28 22:01:00
科技赋能传统酿造 引领产业数智变革——中科恒信人工智能上甑机器人及发酵食品高端装备项目投产
鲁网1月28日讯近日,记者走进中科恒信智能科技(泰安)有限公司人工智能上甑机器人及发酵食品高端装备项目的智能装备车间,大族激光切割机精准作业
2026-01-28 17:21:00
第四届MUST Awards顺利举办,科技行业年终盛典收官
1月22日,第四届MUST Awards麻瓜青年选择奖在杭州成功举办。作为国内首个由科技内容创作者与大众消费者共同投票评选的消费科技奖项
2026-01-28 17:46:00
宇树科技官方:关于2025年销量数据的澄清
1月22日晚,宇树科技官方微信公众号发布了一份关于2025年销量数据的澄清。宇树强调,过去一个月,网上流传着很多关于宇树2025年出货数量的不实信息
2026-01-28 17:52:00
潮新闻与传播大脑发布“178”方案 打造主流媒体系统性变革的“浙江样本”
大皖新闻讯 1月28日,“三生万物 AI如潮涌”潮新闻&传播大脑三周年联合发布会在浙江杭州体育场路178号浙江日报报业集团举行
2026-01-28 17:54:00
遵义人的年味天花板来了!2026新春年货全网剧透,逛吃玩拿一站齐!
来源:遵义晚报一审:余旭二审:王信 姚腾三审:唐全寿
2026-01-28 18:05:00
中国消费者报北京讯(记者王小月)1月27日,中国连锁经营协会发布2025年度中国购物中心行业景气度报告。当前,购物中心经营仍面临诸多挑战
2026-01-28 18:10:00
2026中关村早期投资论坛暨AI新场景产业创新大会在京举行
1月28日,由中关村天使投资联盟、海创汇、北京前沿国际人工智能研究院、铅笔道、AC加速器联合主办的“2026中关村早期投资论坛暨AI新场景产业创新大会”在北京市海淀区中关村国家自主创新示范区展示中心成功举办
2026-01-28 18:15:00
中国蓝新闻讯 在宁波余姚,一批企业敏锐抓住全球冰雪运动热潮,通过科技创新与产品升级,积极开拓海外市场,让“中国智造”的体育用品走向世界
2026-01-28 18:23:00
中国蓝新闻综合 近日,宇树科技正式官宣成为中央广播电视总台2026年春晚机器人合作伙伴,这是其继2021年牛年春晚、2025年蛇年春晚后第三次登上这一国民级舞台
2026-01-28 18:23:00
河北新闻网讯(张纳军)近日,开滦股份吕家坨矿洗煤厂重介车间内,技术副厂长李小刚正忙于新系统的调试。该矿新引进的重介智能分选系统已进入关键安装调试阶段
2026-01-28 14:13:00
河北新闻网讯(张纳军)近年来,开滦股份吕家坨矿将信息基础建设作为矿井智能化发展的重要支点,系统推进大数据中心、一体化云平台
2026-01-28 14:14:00