• 我的订阅
  • 科技

星环科技分布式向量数据库Transwarp Hippo正式发布

类别:科技 发布时间:2023-06-16 16:00:00 来源:天极网

【每日科技网】

星环科技分布式向量数据库Transwarp Hippo正式发布

随着企业、机构中非结构化数据应用的日益增多以及AI的爆发式增长所带来的大量生成式数据,所涉及的数据呈现了体量大、格式和存储方式多样、处理速度要求高、潜在价值大等特点。但传统数据平台对这些数据的处理能力较为有限,如使用文件系统、多类不同数据库存储上述数据,在数据存储管理、查询分析效率、数据价值挖掘等方面都存在一定的瓶颈,例如传统数据库查询是点查和范围查的一种查询,无法满足大模型下如智能问答、智能推荐等场景。

因此,企业急需一款或数款管理好非结构化数据的数据管理平台。业内常用的做法,是利用人工智能中的表示学习,将这些非结构化数据抽象、转换为高维度的多维向量,由此可以结构化地在向量数据库中进行管理,实现快速、高效的数据存储和检索过程,结合相似性检索特性,进而更高效地支撑更广泛的应用场景,比如智能推荐场景等。同时,随着大语言模型应用中对长文本处理和领域知识表示使用的深入,对向量数据库的需求也日益迫切。

近日,在向星力•未来数据技术峰 会上,星环科技正式发布了分布式向量数据库Transwarp Hippo。作为一款企业级云原生分布式向量数据库,星环分布式向量数据库Hippo支持存储、索引以及管理海量的向量式数据集,提供向量相似度检索、高密度向量聚类等能力,有效地解决了大模型在知识时效性低、输入能力有限、准确度低等问题,让大模型更高效率地存储和读取知识库,降低训练和推理成本,激发更多的AI应用场景。在赋予大模型拥有“长期记忆”的同时,还可以协助企业解决目前最担忧的大模型数据隐私泄露问题。

大模型的快速应用,推动向量数据库向高扩展、高性能、实时性方向发展

大模型正在与企业应用迅速结合,重塑企业应用中人与数据的交互方式。然而,不管是通用模型,还是微调出来的行业模型,都存在着一定的局限性:

* 实时性难题:模型训练需要很长的时间,可能需要半年或一年,实时资讯、新闻、市场行情等快速变化的信息,无法及时地内置到模型当中。

* 长Token难题:大模型的输入Token(文本中的最小单位)能力受到算力和工程化程度的限制。在这种限制下,例如无法将一家上市公司的全部年报数据输入进大模型,导致不能进行全面的分析。

* 精度校正难题:大模型虽然经过大量数据的长期训练,但很多场景下精准度还是不够,需要补充知识库进行校正,让其能够给出更准确的结果和更实时的信息。

目前,大模型训练所使用的数据包含了如文档、图片、音视频等各种类型的非结构化数据。用户可以通过表示学习的预处理方式将这些数据转化为多维向量,并存储在向量数据库中,从而可以很好地解决上述三个问题。比如,在应用端与大模型进行交互时,将输入的文字、图片等问题信息进行向量化,先进行语义搜索,找到相关的信息,将其拼接成提示词传递给大模型,大模型通过计算分析后反馈结果。

星环科技创始人、CEO孙元浩表示,“向量数据库承担了中间存储的角色,我们认为向量数据库就是大语言模型的海马体,是一个记忆体。其基本功能是能够存储多维向量,并提供进一步的检索。”

向量数据库早先被用于文本搜索或者语义搜索,过去不少公司用来做个性化推荐、构建知识图谱等。随着大模型的兴起,向量数据库可以让大模型更高效率地存储和读取知识库,并以更低的成本进行模型微调,进一步地激发AI应用场景。此外,几千、上万种应用带来海量的数据,需要一个高扩展的向量数据库来存放更多的数据信息。而向量数据复杂度的提升,模型推理速度的加快等也要求能够提供高性能的检索能力。实时动态变化的数据,对向量数据库的实时写入、实时更新、实现召回能力的要求变高,通过将实时资讯、实时新闻、市场行情等快速变化的信息及时地内置到模型中,使其能够提供更实时、更精准的结果。

星环科技分布式向量数据库Transwarp Hippo

星环分布式向量数据库Hippo作为一款企业级云原生分布式向量数据库,基于分布式特性,可以对文档、图片、音视频等多源、海量数据转化后的多维向量进行统一存储和管理。通过多进程架构与GPU加速技术,充分发挥并行检索能力,实现毫秒级高性能数据检索,结合相似度检索等技术,帮助用户快速挖掘数据价值。

与开源的向量数据库不同,星环分布式向量数据库Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,很好地满足了企业针对海量向量数据的高实时性检索等场景。

* 云原生技术,支持弹性扩缩容

星环分布式向量数据库Hippo采用全面容器化部署,支持服务的弹性扩缩容,同时具备多租户和强大的资源管控能力。

* 高扩展性,海量向量数据存储

与直接利用各类算法lib不同,星环Hippo存储和计算都可以充分利用分布式特性,按需灵活扩展,满足大规模集群部署需求;通过Raft算法确保数据的强一致性;并提供故障迁移,数据修复等数据保障能力。

* 深度优化,高性能数据检索

星环分布式向量数据库Hippo支持多进程架构与GPU加速,充分发挥并行检索能力;支持基于检索速度和内存使用的特定优化,以及寄存器级算法优化;同时提供多类索引支持,满足不同需求不同体量的业务场景。

* 动态更新,实时检索

星环分布式向量数据库Hippo提供数据动态更新的能力,对于实时插入/更新的数据,可以快速完成数据的加载和索引的构建,解决向量数据T+1的传统处理逻辑,满足实时动态变化数据的向量检索分析。

* 多样化接口,丰富场景支持

星环分布式向量数据库Hippo供标准的Python、Restful、CPP、Java API等接口,可轻松对接各类应用和模型,提高应用开发和调用的效率。同时,提供类SQL接口,满足入库等特定场景,大幅降低使用和操作的难度。

* 多模型联合

基于TDH多模型统一技术架构,向量数据与关系型数据、图数据、时序数据等多种模型数据可进行统一存储管理,并通过统一接口实现数据跨模型联合分析。

具备高可用、高性能、易拓展等特点的星环分布式向量数据库Hippo,可以很好地满足企业针对海量向量数据的高实时性等场景。

* 文本检索

传统搜索引擎更偏向于词/句的查询,星环分布式向量数据库Hippo通过向量引擎提供自然语言处理能力,可以更好地支持基于语义的查询分析,让查询更满足人性化的需求。

* 语音/视频/图像检索

星环分布式向量数据库Hippo将多维向量特征构建成高效的向量索引,实现数据的相似性检索,可覆盖人脸识别、语音识别、视频指纹等多类AI场景。

* 个性化推荐

星环分布式向量数据库Hippo可与各类深度学习平台搭建的模型进行耦合,通过向量相似度检索,可以对用户行为与喜好等多方面进行分析、挖掘,做到千人千面的推荐效果。

* 智能搜索,智能问答

知识图谱的目的在于将结构化数据、非结构化数据以及这些数据、实体之间的关联关系进行存储和表达。通过星环分布式向量数据库Hippo可以将这些信息更好地进行表达和处理,给出符合需求的一系列近似答案和推荐查询。

向量数据库与图数据库联合,低成本、高效构建特定领域大模型应用

基于星环分布式向量数据库Hippo,可以有效地解决大模型在知识时效性低、输入能力有限、准确度低等问题。通过将资料、专业知识、个人习惯等海量信息向量存储在星环分布式向量数据库Hippo中,可以极大地拓展大模型的应用边界,让大模型保持信息实时性,并能够动态调整,使大模型拥有“长期记忆”。

通过建立垂直领域的知识库,对大模型输出结果进行校正,可以提高结果的精准度,在一定程度上解决“AI幻觉”问题。

此外,通过星环分布式向量数据库Hippo对向量数据进行存储,有效解除大模型对输入的限制,并且大模型在安全机制下访问向量数据库中的隐私数据,可以充分保证数据安全,杜绝隐私泄露风险。

然而,大模型只有向量数据库还不够。在召回的基础上通过提示工程确保数据更,更贴近实际场景,同样也是重要的一环。星环科技将分布式向量数据库Hippo和分布式图数据库StellarDB结合,并以此作为微调的数据凭依,可以更低成本、更高效地构建特定领域的大模型应用。

图数据库StellarDB和知识图谱联合,与大模型可视化端到端构建工具一起,提供了知识抽取融合、知识建模、知识图谱生成存储、基于大模型的知识问答等闭环功能。客户以知识图谱作为大语言模型提示即可发起模型微调,以较低代价就可获得行业的专属大语言模型问答应用。

将向量数据库、图数据库与大语言模型结合,可以构建业务域知识图谱和业务系统的应用服务,进一步提高人机交互的效率,提供更灵活的组合业务服务,激发出更多更深入的业务场景AI应用。

例如,在询问某开源通用大模型关于某集团玉米收储价格、某集团主要合作上下游企业等问题,通用大模型没有行业知识,无法给出准确答案。而把农业知识图谱和向量数据库结合后,可以从知识图谱中去获取或者补充大模型的答案,使其可以地回答新收猪价以及价格影响等。

通过这样的组合可以解决大模型目前存在的三大问题。一是能够把实时的知识、变化的信息放到大模型中,二是能够校正结果的准确性,极大地提升精准度,三是构建相应的知识图谱,增强大模型的能力。

在星环科技此次推出的金融领域大模型“无涯”中,基于星环科技自身在金融领域积累的上百万金融专业领域的语料,结合图数据库StellarDB、深度图推理算法技术,形成了大规模高质量的金融类事件训练指令集,共同铸就了星环开发金融领域大语言模型的坚实底座。星环“无涯”大模型能够理解金融行业的术语,也能够执行特定的任务,比如分析上市公司的年报、公告,生成新闻摘要,判断特定新闻事件产生的影响等,提升分析师、研究员、投资经理的效率。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-16 18:45:21

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

五项技术代表厂商,星环科技入围Gartner《2023年中国数据、分析及人工智能技术成熟度曲线》
...环科技始终坚持“自主原创,一代”的技术发展路线,在分布式技术、多模型技术、数据库技术等方面有很多的积累,推出了一系列国产化分布式数据库产品,如分布式分析型数据库ArgoDB、
2023-08-02 17:00:00
新质生产力赋能千行百业!星环科技入选两大AI应用图谱
...周期提供基础软件与服务,已形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵。在大模型领域,星环科技也发布了一系列工具产品供用户使用。工具链方面
2024-03-14 13:00:00
...司将聚焦AI大模型的核心技术开发,针对大数据大模型、分布式向量数据库、人工智能基础设施及基础软件系列技术开展研发工作,实现数据治理时间与成本的有效降低、交互形式等技术不断创新
2023-06-19 08:02:00
推对标Snowflake数据库新品,金融客户复购率超八成,南大通用加速转型|最前线
...包括三类:分析型数据库GBase 8a、事务型数据库GBase 8s和分布式事务型数据库GBase 8c。其中,GBase 8a产品是目前收入占比最高的产品类别
2023-12-01 20:06:00
星环科技(688031)新增【数据要素】概念
...掘和流通等数据全生命周期提供基础软件及服务;自研的分布式闪存数据库ArgoDB能够支持高并发的数据写入(数百万记录/秒的写入速度)和高速数据加工。该公司关联的其它概念板块还包
2023-04-17 19:39:00
分布式时序数据库TimeLyre 9.1发布:海量存储、高效压缩、实时分析
...重要问题。Transwarp TimeLyre是星环科技自主研发的企业级分布式时序数据库,其支持分布式水平扩展,同时具有极高的压缩率可以支持海量时序数据的存储,提供高吞吐实时
2023-08-04 11:00:00
高效应对多样性数据挑战:向量数据库全面解析
...扩展性,能够处理大规模数据集并支持高并发访问。采用分布式架构和并行计算技术,实现大规模数据处理和高效查询。三、向量数据库的应用场景向量数据库在各个领域都展现了广泛的应用,其中
2023-12-22 16:40:00
安全可信!星环科技提升数据要素流通安全性、便利性
基于在大数据、分布式数据库、隐私计算、数据安全流通领域的多年积累,星环科技研发了数据要素流通全过程的一系列工具,5月26日“向星力”未来数据技术峰会上,星环科技数据安全、数据要素
2023-05-31 16:00:00
...。(3)自成立以来,公司专注于大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具等基础软件领域研发,坚持“自主研发、领先一代”的技术发展战略。报告期内,为不断寻求
2023-01-20 22:36:00
更多关于科技的资讯:
信息技术的迅速发展,尤其是大数据的广泛应用,正在推动医保体系发生深刻变革。传统的医保支付方式已经难以适应现代医疗服务的复杂性与多样化需求
2025-12-01 07:04:00
“一上午加了8位境外采购商”
本报讯(全媒体记者陈春伟、实习生罗家骏)“嘀”的一声,江西华昌竹业集团有限公司外贸经理严慧的微信好友列表里,又多了一位国际采购商
2025-12-01 07:05:00
11月16日,一艘装载邢台纳科诺尔精轧科技股份有限公司生产的辊压分切一体机的货轮,从天津港环球滚装码头启航驶往海外。至此
2025-11-30 07:36:00
坚定信心 勇挑大梁·产业新亮点丨“能址星图”如何全省率先把数据“变现”?
10月18日,在2025中国国际数字经济博览会上,秦皇岛市大数据有限公司展示“能址星图”数据产品。 石 勇摄“我们的‘能址星图’产品上架两三个月时间
2025-11-30 07:37:00
重磅!鸣望教育签约英国子午线英语,解锁中英教育合作新范式!
2025年11月20日,鸣望教育行业赋能第27届研讨峰会,达成一项重磅签约。鸣望教育与拥有46 年专业积淀的英国子午线英语学校(Meridian English)正式达成战略合作
2025-11-30 12:05:00
新生态、新平台、新增长|鲸鸿动能数智赋能品牌确定性增长
2025年,中国消费市场的竞争正从流量红利的浅层博弈,迈向以生态力为引擎、深度运营为核心的新阶段。在这一关键转折点,鲸鸿动能于11月28日成功举办“鸿蒙商业增长论坛·品牌营销沙龙”
2025-11-30 12:05:00
全运会宣传中惊现AI MV:谁在用算法谱写湾区之声?
第十五届全国运动会于11月21日圆满落下帷幕。记者从组委会了解到,一首全程由AI生成的原创宣传MV《向着光的方向》已被正式收录进本届赛事的官方宣传素材库
2025-11-30 12:06:00
华为Mate 80等新品发布,华为音乐「音乐助手」一键生成专属歌单
11月25日,华为Mate 80系列 | Mate X7及全场景新品发布会在深圳举行,华为音乐作为鸿蒙6自有应用重磅升级
2025-11-30 12:07:00
胡超 Charles Hu 获2026年《福布斯》“30 Under 30”能源与绿色科技榜单提名
近日,美国领创商业联盟主席、Reverse Energy Solutions Corp.(以下简称“RES”)联合创始人兼首席市场官(CMO)胡超(Charles Hu)近日正式
2025-11-30 12:08:00
11月28日,省工信厅公布首批山西消费名品名单。我市品牌水塔醋业凭借深厚产业积淀成为“时代优品”,优鲜多歌以新零售业态成为“潮流新锐”
2025-11-30 17:55:00
借我一双“星眼” 太空能被“管”好吗?
大皖新闻讯 神舟二十号载人飞船疑似遭空间微小碎片撞击,耽误航天员回家,让空间碎片进入公众视野。而在近地轨道,近年来太空碎片数量激增
2025-11-30 18:40:00
“溯源卢龙 嗨购甜蜜” 卢龙特色好物直播爆单
河北新闻网讯(张丽美、张子亮)11月25日,曾在“数商兴农·寻味卢龙”产地溯源直播活动中创下佳绩的百万粉丝主播“团长mr”
2025-11-30 18:02:00
《疯狂动物城2》爆火!吉林长影电影院线焕新助推观影热潮
时隔九年,迪士尼经典IP续作《疯狂动物城2》重磅归来,与全新升级的吉林长影电影院线强势联动,为吉林省电影市场注入强劲活力
2025-11-30 20:10:00
能源革命与数据革命深度融合,电鸿生态加速电力系统数智化转型
初冬的广州南沙温暖如春、花团锦簇,大涌新春居民贺泽庶开着他心爱的电动车,开进了绿树与鲜花簇拥的广州南沙环市西路超充站,当车头对准充电桩时
2025-11-30 12:06:00
促进民营经济高质量发展·超能量的“中小微”(十九)|乡村小厂造出“搬运神器”
11月12日,智捷智能科技香河有限公司工作人员在室外场地对智能搬运叉车进行调试。 河北日报记者 刘英摄11月12日,天津滨海新区一处海滩上
2025-11-29 07:31:00