• 我的订阅
  • 科技

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

类别:科技 发布时间:2023-09-12 11:31:00 来源:IT168企业级

近日,业界领先的国产企业级云数仓厂商酷克数据发布了下一代In-Database高级分析和数据科学工具箱HashML,在业内率先实现为企业提供随数仓部署一步到位、开箱即用的AI能力。

在数字经济时代,描述性分析已经非常成熟并被企业广泛采纳。然而,受限于人才缺口和技术门槛,更高价值的预测性分析和决策性分析,目前普及度仍然相对较低。为了应对日益激烈的市场竞争,企业IT部门迫切需要简单易用的高级分析工具产品来实现对业务可持续健康发展的有效支撑。

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

图1: 数据分析的不同层级

数据仓库作为企业数据存储、加工和分析的核心场所,蕴藏着规模庞大的数据资产。然而,通用的模型和算法的效果往往只能达到差强人意的“及格线”。只有通过AI算法与应用场景及企业自有数据紧密协同,才能充分释放数据潜力,达到驱动业务健康发展的“优秀线”。以HashData为代表的现代企业数据仓库,为AI模型的训练、部署和推理提供了最佳的数据支撑平台。

为了降低高级分析和AI技术的应用门槛,酷克数据基于HashData打造了下一代In-Database高级分析和数据科学工具箱HashML。

HashML提供了从数据查询处理、高级分析到机器学习、深度学习的一站式多层次数据分析和AI能力。针对近期市场高度关注的大语言模型,HashML也提供了从高质量数据挖掘、模型微调到模型部署和推理的全流程支持。同时,基于HashData内置的分布式并行向量数据存储、索引及检索功能,HashML提供了向量知识库的构建和检索能力,使得知识增强的大语言模型应用开发变得更加简单。

HashML继承了HashData的云原生优势,从模型训练到模型部署都可以做到按需弹性伸缩。同时,HashML也提供了Python和SQL两种语言支持,无论是数据科学社区的Python用户,还是数据库社区的SQL用户,都可以低门槛地上手使用。

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

图2:HashML主要功能概览

HashML拥有以下三大产品特色:

○ 简单易用:可随HashData数据仓库一起安装部署,做到开箱即用,同时所有模块API的设计,都力求标准化,与数据科学社区流行的第三方库保持一致,最大程度保障易用性。

○ 性能卓越:根据任务的复杂度确定并行处理的并发度,尤其对于较为复杂的深度模型或大语言模型,可以利用多机多卡实现高效的训练和微调,保障作业时效性。

○ 算法丰富:从传统的统计机器学习算法到常见的深度神经网络,和最新的预训练大模型,都能提供良好的支持,同时也针对知识增强的大语言模型应用,提供了向量知识库,能够高效支持海量语义向量数据的存储和检索。

简单易用——标准化接口,低代码开发

简单易用是我们设计HashML时的首要目标,力求帮助企业无门槛使用各种经典和最前沿的AI算法和模型能力,低成本解决实际业务问题。为了实现这个目标,HashML对编程接口做了高度抽象和标准化。客户只需编写少量代码就可以完成从数据加载到数据处理、模型训练、模型部署和推理预测的全流程工作。例如,针对模型的训练和微调,HashML抽象了统一的fit接口。不论是机器学习模型、深度学习模型还是大语言模型,都可以调用该接口完成模型训练或微调。

代码示例1: XGBoost模型训练

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

代码示例2: LLaMA2模型微调

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

为了方便SQL开发者使用AI能力,HashML还提供了SQL编程语言接口。下图显示了如何通过执行SQL语句完成XGBoost模型的训练。

代码示例3:HashML SQL接口

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

性能卓越——多机多卡,弹性伸缩

基于HashData强大的集群资源管理能力,HashML可以根据算法复杂度、数据量大小、访问负载等因素按需分配所需计算资源,为模型训练、部署和推理提供灵活的计算环境。

分布式并行数据处理

HashML定义了数据模块,可以帮助开发者高效地完成数据读写、数据分析、数据处理等各种功能。这些功能对于开发机器学习、深度学习模型至关重要,可以高效快捷地完成数据清洗、特征提取、特征变换、样本生成等一系列任务。基于封装良好的编程接口,用户只需要关注数据处理逻辑的实现,仅需少量的代码开发,计算过程就可以由HashData计算引擎以分布式并行处理的方式高效完成。

分布式并行模型训练

HashML提供了分布式并行模型训练能力,可以按需将模型训练任务分配给多个Worker执行,同时可以为每个Worker指定所需计算资源(包括CPU核数和GPU卡数)。对于大多数常见的训练任务,数据并行就足以高效完成模型训练。对于参数规模庞大的大语言模型,我们在数据并行的基础上,利用DeepSpeed和Accelerate实现模型并行。另外,得益于HashData对计算资源的统一管理,用户无需费心训练作业具体是在哪些机器上执行,运维工作大幅简化。

弹性可伸缩服务部署

HashML提供了弹性可伸缩的模型部署和在线推理功能,旨在简化模型的部署并根据服务负载动态调整模型实例的数量。除了支持单个模型的弹性部署,HashML还支持多个模型的组合部署,这对于需要调用多个模型完成一个业务请求的场景非常有用。用户可以在服务端完成复杂业务逻辑的开发,客户端只需要与服务端进行一次交互就能获得最终的结果,不仅大幅简化了业务开发,同时提高了端到端服务的时效性。

算法丰富——机器学习深度学习全覆盖,前沿算法快速追踪

HashML的另一特色就是算法种类丰富,从经典的统计机器学习算法,到知名的深度学习算法,都提供了很好的支持。同时,通过密切追踪技术发展动态并根据市场需求,HashML也会及时引入前沿算法。例如,针对当前非常热门的大语言模型,HashML通过融合业界主流的开源大语言模型,提供了一套完整的大语言模型应用开发框架,可以低成本、快速地完成从高质量数据挖掘、模型微调到智能应用开发的全流程工作。

机器学习与深度学习

为了满足各种应用场景,HashML内置了对经典机器学习算法的支持,如Logistic Regression、Random Forest、SVM、XGBoost、LightGBM等,还通过支持主流的深度学习框架(如PyTorch),能够支持各种深度学习算法。另外,HashML也允许用户根据需要定制开发新算法。通过对算法开发框架精心封装,使得用户在充分理解算法原理的基础上,只需关注网络结构的定义和实现,用少量代码就能完成新算法的开发和引入。新算法开发完成后,可以自动具备HashML所提供的分布式并行训练和推理能力。

代码示例4:自定义神经网络

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

大语言模型

ChatGPT的问世使得大语言模型成为了当前最受关注的研究热点。大语言模型技术的产生与发展不仅重塑了人工智能发展的技术路线,还在很大程度上改变了AI技术在企业的应用范式。HashML顺应技术趋势,提供了对大语言模型的支持,包括模型微调以及知识增强的大语言模型应用开发。HashML对当前业界主流的开源大语言模型都提供了支持,包括ChatGLM、Baichuan、LLaMA-2、Qwen等。基于HashML,可以非常方便地实现百亿级参数大语言模型的私有化部署,并在客户私有环境实现模型微调和智能应用开发。

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

图3: 日益繁荣的开源大语言模型生态

应用案例:HashML助力大语言模型在企业落地应用

ReQA: 检索增强的智能问答

大语言模型使用了大量的文本进行训练从而使人机对话更加智能,但对于特定领域的知识,大语言模型却显得捉襟见肘。基于HashML和大语言模型,可以快速搭建基于向量知识库的检索增强的智能问答系统(ReQA)。在ReQA中,企业通过调用本地部署的Embedding服务将自有的知识库(包括管理制度、产品手册、技术手册、运维手册、工作规范、流程记录、FAQ等)进行向量化,并存放到HashData形成向量知识库。当回答用户提问时,通过检索向量知识库获得相关信息,作为上下文和问题一起提交给大语言模型,这样大语言模型就能够生成精准的回答,从而有效解决困扰大语言模型的生成“幻觉”问题。ReQA在企业有着非常广泛的应用场景,包括智能客服、销售助手、文档阅读助手等。

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

图4:检索增强的智能问答实现方案

示范应用1:检索增强的智能问答系统

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

ChatData:基于自然语言的交互式数据查询分析

虽然SQL是一种普遍使用的数据库查询语言,但对许多企业员工来说却是一道难以逾越的门槛,这无疑限制了业务部门直接处理数据。针对这个问题,我们基于HashML和大语言模型开发了ChatData,使得企业每个员工可以无门槛地使用自然语言与权限范围内的数据库进行交互。ChatData大大降低了数据分析和应用的门槛,有利于充分地释放企业数据价值。在ChatData中,首先利用大量高质量的

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

图5:基于自然语言的交互式数据查询分析实现方案

示范应用2:基于自然语言的交互式数据查询分析系统

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

Data+AI 助力企业数智化升级

新一代人工智能技术正在加速企业数字化、智能化进程,长远来看,将对企业的研发、生产、经营带来深远影响。企业需要逐场景深入打磨,让AI计算贴近应用场景、贴近企业数据资产,才能实现更好的AI落地。酷克数据打造的下一代高级分析和数据科学工具箱HashML,致力于大幅降低AI技术的应用门槛,为数据科学家、数据工程师、AI应用开发者使用先进的AI技术提供便利。我们希望以企业数据仓库为依托,结合前沿的AI技术,帮助用户以低成本快速试错,迭代发掘高价值应用场景,推动AI技术在企业规模化落地,产生真正的业务价值。未来,我们将持续迭代完善产品,将HashData打造成强大的企业级数据和AI基础设施,助力千行百业通过分析与智能实现业务价值!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-12 15:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

李彦宏:开源模型将会越来越落后 | 最前线
...大AI开发工具,对应不同的开发场景。“它们组成了一个工具箱,支持开发者打包带走,随取随用。”李彦宏表示。他表示,自然语言将成为新的通用编程语言,未来,只需要会说话,人人都能成
2024-04-17 11:51:00
一文详解AIGC:忘记概念,只聊落地
...nsformers:面向自然语言处理任务的一系列数据集、模型和工具箱,包括对话生成、摘要、自动问答、翻译等。IBM Watson Assistant
2023-06-10 15:00:00
初创公司发布新一代AI Agent工具Laplace AI Lab
...引擎(Laplace Decision Engine)作为平台的核心,集成了智能工具箱、大型知识模型(LKHM)和AIPI接口
2024-05-16 15:11:00
聚焦三大社会议题 第四届Light•技术公益创造营开幕
...务等多个角度出发,设计提供技术解决方案;其次是技术工具箱更全,本届创造营加码开放腾讯云端领先技术能力,为公益开发者提供了七大数字化工具,包括AI、安全、音视频、智能客服、数智
2024-02-27 20:30:00
中国联通重磅发布“联通元景大模型MaaS平台 ”全力助推新型工业化
...中国联通此次发布的元景大模型MaaS平台,提供模型库、工具箱、原生应用商店三大服务:模型库中内置了超150个模型,涵盖通用大模型、工业领域大模型、工业场景模型、基础小模型等;
2024-05-27 08:48:00
如果MaaS是个伪命题 大模型时代的“云”应该怎么建?
...过,无论是成为覆盖最广的大模型货架,还是提供最全的工具箱,都不是亚马逊云科技野心的全部。它的目标是成为整个时代的基础设施。 亚马逊云如何布局生成式 AI 的三大关键层次比单
2024-07-13 09:54:00
科学家研发酶约束模型工具箱,将大幅推进酶约束模型的普及
...禹研究员和合作者,开发了酶约束模型构建和使用的最新工具箱 GECKO 3.0。图 | 陈禹(来源:陈禹)研究期间,他们整合了深度学习模块以解决数据缺乏的问题,此外他们撰写了详
2024-03-14 10:28:00
解锁私域增长新范式,腾讯企点推出新举措
...与分析一体化产品套件,为企业提供私域增长的必备数智工具箱。针对B2B商机撮合,腾讯企点商通充分整合AI能力和行业业务,实现智能商机识别、链接产业上下游,提高了中小企业的交易效
2024-01-22 13:54:00
...场景创新,成为推动包括人工智能产业在内高水平发展的工具箱。在河北省科技厅党组书记、厅长龙奋杰看来,打造和开放创新应用场景,就是要在短时间内验证待成熟的科技成果,找到可行的商业
2023-11-28 02:47:00
更多关于科技的资讯: