• 我的订阅
  • 科技

星环科技分布式向量数据库Transwarp Hippo正式发布

类别:科技 发布时间:2023-06-16 16:00:00 来源:天极网

【每日科技网】

星环科技分布式向量数据库Transwarp Hippo正式发布

随着企业、机构中非结构化数据应用的日益增多以及AI的爆发式增长所带来的大量生成式数据,所涉及的数据呈现了体量大、格式和存储方式多样、处理速度要求高、潜在价值大等特点。但传统数据平台对这些数据的处理能力较为有限,如使用文件系统、多类不同数据库存储上述数据,在数据存储管理、查询分析效率、数据价值挖掘等方面都存在一定的瓶颈,例如传统数据库查询是点查和范围查的一种查询,无法满足大模型下如智能问答、智能推荐等场景。

因此,企业急需一款或数款管理好非结构化数据的数据管理平台。业内常用的做法,是利用人工智能中的表示学习,将这些非结构化数据抽象、转换为高维度的多维向量,由此可以结构化地在向量数据库中进行管理,实现快速、高效的数据存储和检索过程,结合相似性检索特性,进而更高效地支撑更广泛的应用场景,比如智能推荐场景等。同时,随着大语言模型应用中对长文本处理和领域知识表示使用的深入,对向量数据库的需求也日益迫切。

近日,在向星力•未来数据技术峰 会上,星环科技正式发布了分布式向量数据库Transwarp Hippo。作为一款企业级云原生分布式向量数据库,星环分布式向量数据库Hippo支持存储、索引以及管理海量的向量式数据集,提供向量相似度检索、高密度向量聚类等能力,有效地解决了大模型在知识时效性低、输入能力有限、准确度低等问题,让大模型更高效率地存储和读取知识库,降低训练和推理成本,激发更多的AI应用场景。在赋予大模型拥有“长期记忆”的同时,还可以协助企业解决目前最担忧的大模型数据隐私泄露问题。

大模型的快速应用,推动向量数据库向高扩展、高性能、实时性方向发展

大模型正在与企业应用迅速结合,重塑企业应用中人与数据的交互方式。然而,不管是通用模型,还是微调出来的行业模型,都存在着一定的局限性:

* 实时性难题:模型训练需要很长的时间,可能需要半年或一年,实时资讯、新闻、市场行情等快速变化的信息,无法及时地内置到模型当中。

* 长Token难题:大模型的输入Token(文本中的最小单位)能力受到算力和工程化程度的限制。在这种限制下,例如无法将一家上市公司的全部年报数据输入进大模型,导致不能进行全面的分析。

* 精度校正难题:大模型虽然经过大量数据的长期训练,但很多场景下精准度还是不够,需要补充知识库进行校正,让其能够给出更准确的结果和更实时的信息。

目前,大模型训练所使用的数据包含了如文档、图片、音视频等各种类型的非结构化数据。用户可以通过表示学习的预处理方式将这些数据转化为多维向量,并存储在向量数据库中,从而可以很好地解决上述三个问题。比如,在应用端与大模型进行交互时,将输入的文字、图片等问题信息进行向量化,先进行语义搜索,找到相关的信息,将其拼接成提示词传递给大模型,大模型通过计算分析后反馈结果。

星环科技创始人、CEO孙元浩表示,“向量数据库承担了中间存储的角色,我们认为向量数据库就是大语言模型的海马体,是一个记忆体。其基本功能是能够存储多维向量,并提供进一步的检索。”

向量数据库早先被用于文本搜索或者语义搜索,过去不少公司用来做个性化推荐、构建知识图谱等。随着大模型的兴起,向量数据库可以让大模型更高效率地存储和读取知识库,并以更低的成本进行模型微调,进一步地激发AI应用场景。此外,几千、上万种应用带来海量的数据,需要一个高扩展的向量数据库来存放更多的数据信息。而向量数据复杂度的提升,模型推理速度的加快等也要求能够提供高性能的检索能力。实时动态变化的数据,对向量数据库的实时写入、实时更新、实现召回能力的要求变高,通过将实时资讯、实时新闻、市场行情等快速变化的信息及时地内置到模型中,使其能够提供更实时、更精准的结果。

星环科技分布式向量数据库Transwarp Hippo

星环分布式向量数据库Hippo作为一款企业级云原生分布式向量数据库,基于分布式特性,可以对文档、图片、音视频等多源、海量数据转化后的多维向量进行统一存储和管理。通过多进程架构与GPU加速技术,充分发挥并行检索能力,实现毫秒级高性能数据检索,结合相似度检索等技术,帮助用户快速挖掘数据价值。

与开源的向量数据库不同,星环分布式向量数据库Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,很好地满足了企业针对海量向量数据的高实时性检索等场景。

* 云原生技术,支持弹性扩缩容

星环分布式向量数据库Hippo采用全面容器化部署,支持服务的弹性扩缩容,同时具备多租户和强大的资源管控能力。

* 高扩展性,海量向量数据存储

与直接利用各类算法lib不同,星环Hippo存储和计算都可以充分利用分布式特性,按需灵活扩展,满足大规模集群部署需求;通过Raft算法确保数据的强一致性;并提供故障迁移,数据修复等数据保障能力。

* 深度优化,高性能数据检索

星环分布式向量数据库Hippo支持多进程架构与GPU加速,充分发挥并行检索能力;支持基于检索速度和内存使用的特定优化,以及寄存器级算法优化;同时提供多类索引支持,满足不同需求不同体量的业务场景。

* 动态更新,实时检索

星环分布式向量数据库Hippo提供数据动态更新的能力,对于实时插入/更新的数据,可以快速完成数据的加载和索引的构建,解决向量数据T+1的传统处理逻辑,满足实时动态变化数据的向量检索分析。

* 多样化接口,丰富场景支持

星环分布式向量数据库Hippo供标准的Python、Restful、CPP、Java API等接口,可轻松对接各类应用和模型,提高应用开发和调用的效率。同时,提供类SQL接口,满足入库等特定场景,大幅降低使用和操作的难度。

* 多模型联合

基于TDH多模型统一技术架构,向量数据与关系型数据、图数据、时序数据等多种模型数据可进行统一存储管理,并通过统一接口实现数据跨模型联合分析。

具备高可用、高性能、易拓展等特点的星环分布式向量数据库Hippo,可以很好地满足企业针对海量向量数据的高实时性等场景。

* 文本检索

传统搜索引擎更偏向于词/句的查询,星环分布式向量数据库Hippo通过向量引擎提供自然语言处理能力,可以更好地支持基于语义的查询分析,让查询更满足人性化的需求。

* 语音/视频/图像检索

星环分布式向量数据库Hippo将多维向量特征构建成高效的向量索引,实现数据的相似性检索,可覆盖人脸识别、语音识别、视频指纹等多类AI场景。

* 个性化推荐

星环分布式向量数据库Hippo可与各类深度学习平台搭建的模型进行耦合,通过向量相似度检索,可以对用户行为与喜好等多方面进行分析、挖掘,做到千人千面的推荐效果。

* 智能搜索,智能问答

知识图谱的目的在于将结构化数据、非结构化数据以及这些数据、实体之间的关联关系进行存储和表达。通过星环分布式向量数据库Hippo可以将这些信息更好地进行表达和处理,给出符合需求的一系列近似答案和推荐查询。

向量数据库与图数据库联合,低成本、高效构建特定领域大模型应用

基于星环分布式向量数据库Hippo,可以有效地解决大模型在知识时效性低、输入能力有限、准确度低等问题。通过将资料、专业知识、个人习惯等海量信息向量存储在星环分布式向量数据库Hippo中,可以极大地拓展大模型的应用边界,让大模型保持信息实时性,并能够动态调整,使大模型拥有“长期记忆”。

通过建立垂直领域的知识库,对大模型输出结果进行校正,可以提高结果的精准度,在一定程度上解决“AI幻觉”问题。

此外,通过星环分布式向量数据库Hippo对向量数据进行存储,有效解除大模型对输入的限制,并且大模型在安全机制下访问向量数据库中的隐私数据,可以充分保证数据安全,杜绝隐私泄露风险。

然而,大模型只有向量数据库还不够。在召回的基础上通过提示工程确保数据更,更贴近实际场景,同样也是重要的一环。星环科技将分布式向量数据库Hippo和分布式图数据库StellarDB结合,并以此作为微调的数据凭依,可以更低成本、更高效地构建特定领域的大模型应用。

图数据库StellarDB和知识图谱联合,与大模型可视化端到端构建工具一起,提供了知识抽取融合、知识建模、知识图谱生成存储、基于大模型的知识问答等闭环功能。客户以知识图谱作为大语言模型提示即可发起模型微调,以较低代价就可获得行业的专属大语言模型问答应用。

将向量数据库、图数据库与大语言模型结合,可以构建业务域知识图谱和业务系统的应用服务,进一步提高人机交互的效率,提供更灵活的组合业务服务,激发出更多更深入的业务场景AI应用。

例如,在询问某开源通用大模型关于某集团玉米收储价格、某集团主要合作上下游企业等问题,通用大模型没有行业知识,无法给出准确答案。而把农业知识图谱和向量数据库结合后,可以从知识图谱中去获取或者补充大模型的答案,使其可以地回答新收猪价以及价格影响等。

通过这样的组合可以解决大模型目前存在的三大问题。一是能够把实时的知识、变化的信息放到大模型中,二是能够校正结果的准确性,极大地提升精准度,三是构建相应的知识图谱,增强大模型的能力。

在星环科技此次推出的金融领域大模型“无涯”中,基于星环科技自身在金融领域积累的上百万金融专业领域的语料,结合图数据库StellarDB、深度图推理算法技术,形成了大规模高质量的金融类事件训练指令集,共同铸就了星环开发金融领域大语言模型的坚实底座。星环“无涯”大模型能够理解金融行业的术语,也能够执行特定的任务,比如分析上市公司的年报、公告,生成新闻摘要,判断特定新闻事件产生的影响等,提升分析师、研究员、投资经理的效率。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-16 18:45:21

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

五项技术代表厂商,星环科技入围Gartner《2023年中国数据、分析及人工智能技术成熟度曲线》
...环科技始终坚持“自主原创,一代”的技术发展路线,在分布式技术、多模型技术、数据库技术等方面有很多的积累,推出了一系列国产化分布式数据库产品,如分布式分析型数据库ArgoDB、
2023-08-02 17:00:00
新质生产力赋能千行百业!星环科技入选两大AI应用图谱
...周期提供基础软件与服务,已形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵。在大模型领域,星环科技也发布了一系列工具产品供用户使用。工具链方面
2024-03-14 13:00:00
...司将聚焦AI大模型的核心技术开发,针对大数据大模型、分布式向量数据库、人工智能基础设施及基础软件系列技术开展研发工作,实现数据治理时间与成本的有效降低、交互形式等技术不断创新
2023-06-19 08:02:00
推对标Snowflake数据库新品,金融客户复购率超八成,南大通用加速转型|最前线
...包括三类:分析型数据库GBase 8a、事务型数据库GBase 8s和分布式事务型数据库GBase 8c。其中,GBase 8a产品是目前收入占比最高的产品类别
2023-12-01 20:06:00
星环科技(688031)新增【数据要素】概念
...掘和流通等数据全生命周期提供基础软件及服务;自研的分布式闪存数据库ArgoDB能够支持高并发的数据写入(数百万记录/秒的写入速度)和高速数据加工。该公司关联的其它概念板块还包
2023-04-17 19:39:00
分布式时序数据库TimeLyre 9.1发布:海量存储、高效压缩、实时分析
...重要问题。Transwarp TimeLyre是星环科技自主研发的企业级分布式时序数据库,其支持分布式水平扩展,同时具有极高的压缩率可以支持海量时序数据的存储,提供高吞吐实时
2023-08-04 11:00:00
高效应对多样性数据挑战:向量数据库全面解析
...扩展性,能够处理大规模数据集并支持高并发访问。采用分布式架构和并行计算技术,实现大规模数据处理和高效查询。三、向量数据库的应用场景向量数据库在各个领域都展现了广泛的应用,其中
2023-12-22 16:40:00
安全可信!星环科技提升数据要素流通安全性、便利性
基于在大数据、分布式数据库、隐私计算、数据安全流通领域的多年积累,星环科技研发了数据要素流通全过程的一系列工具,5月26日“向星力”未来数据技术峰会上,星环科技数据安全、数据要素
2023-05-31 16:00:00
...。(3)自成立以来,公司专注于大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具等基础软件领域研发,坚持“自主研发、领先一代”的技术发展战略。报告期内,为不断寻求
2023-01-20 22:36:00
更多关于科技的资讯:
大皖新闻讯 为什么偏偏是饺子?时光回到14年前,袁记云饺创始人袁亮宏或许不曾想到,这样一个寻常巷口里诞生的“饺子店”
2026-01-14 21:19:00
大热!机器人行业招聘同比增长37%
2026年是“十五五”规划开局之年,发展新质生产力已摆在更加突出的战略位置。回望2025年,新质生产力相关产业已在实践中形成并展示出对高质量发展的推动力和支撑力
2026-01-14 21:40:00
江南时报讯 日前,昆山农商银行联合海联海律师事务所、昆山市交通运输局举办“聚势低空,共创未来”低空经济产业沙龙活动。活动汇聚昆山市低空经济领域企业代表
2026-01-14 21:49:00
江南时报讯 去年以来,泗阳农商银行以华为“广、深、高、速”的客户洞察框架为指引,深入洞察不同客户群体在生产、经营、生活中的“急难愁盼”
2026-01-14 21:49:00
中新经纬1月14日电 据“CHALI官方”公众号消息,14日,广州茶里集团有限公司(简称“茶里公司”)发布关于近期相关舆情的声明
2026-01-14 21:55:00
北京海淀:开展健康小家电质量检查行动
近日,北京市海淀区市场监管局开展了健康小家电质量检查行动。检查聚焦豆浆机、养生壶、煮蛋器等小家电,核查生产许可证、3C认证证书及质量检验报告,确保所售商品符合国家强制性标准。中国
2026-01-14 17:59:00
中国消费者报福州讯(陈梅冰 记者张文章)为助力辖区企业及个体工商户把握新媒体发展机遇,1月13日,福建省厦门市翔安区市场监管局协同翔安区个体私营企业协会举办题为“新媒体时代
2026-01-14 17:59:00
随着健康养生理念的深入,鲜炖燕窝凭借“新鲜炖煮、冷链配送、营养保留完整”的优势,成为越来越多人的滋补首选。但市场上品牌林立
2026-01-14 19:35:00
承包你的厨房 这就是河南“食”力丨UP!豫新潮③
大河网讯 在中国食品产业的版图上,河南以其令人瞩目的“硬核”数据占据着举足轻重的地位,这里生产了全国二分之一的火腿肠、三分之一的方便面
2026-01-14 17:06:00
荆楚网(湖北日报网)讯(记者齐一璇 通讯员袁嘉晨)近日,华中农业大学信息学院科研成果再传捷报,两项重要研究成果分别斩获省级
2026-01-14 14:29:00
CIBF2026:以自律、创新与协同,引领动力储能电池行业高质量发展
当前,中国动力储能电池行业在展现强劲增长活力的同时,也正在经历规模扩张与深度调整并行的关键阶段。一方面,产业数据彰显活力
2026-01-14 15:23:00
摘要:前瞻性、广覆盖、强协同1月8日,北京智谱华章科技股份有限公司(以下简称"智谱")成功登陆港交所,成为"大模型第一股"
2026-01-14 15:23:00
大爱无疆 行者致远 | 大行与爱地雅携手开启绿色出行新篇章
元月初始,万象更新,一场意义非凡的战略合作签约仪式在大行总部隆重举行,大行与爱地雅(东莞)自行车有限公司(下称爱地雅)正式签订战略合作协议
2026-01-14 15:23:00
河北新闻网讯(梁彬)为抢抓2026年首季业务攻坚关键期,提升团队实战营销能力,1月10日至11日,唐山农商银行古冶支行举办了为期两天的实践营销能力提升专题培训
2026-01-14 16:02:00
指尖筑梦 创意飞扬---临沂北园路小学3DOne设计社团阶段性成果展
鲁网1月14日讯近日,临沂北园路小学3DOne设计社团阶段性成果展示顺利开展。自社团成立以来,一群充满好奇心与创造力的小社员们
2026-01-14 11:17:00