• 我的订阅
  • 科技

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

类别:科技 发布时间:2024-09-26 13:36:00 来源:机器之心Pro

在当今大模型技术日新月异的背景下,数据已跃升为构建企业大模型知识库、优化训练与微调,乃至驱动模型创新不可或缺的核心要素。

对于企业来说,积累的宝贵知识广泛散布于形式多样的电子文档之中,这些文档不仅格式多样,其内容质量亦呈现出显著的差异性。对海量数据进行精细化的清洗与预处理工作,已成为提升数据价值、确保模型精准高效的关键一环,如何有效提取并利用这些宝贵的知识资源,成为了摆在所有企业面前的一道难题。

9 月 20 日,老牌数字化转型技术服务提供商浩鲸科技在云栖大会期间,成功举行鲸智大模型技术体系发布会,作为企业内部的 “资产沉淀专家”,鲸智文档大模型重磅首发。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

据了解,本次发布的 “鲸智文档大模型”,专门针对企业文档场景构建了一组垂直领域模型,浩鲸科技大模型创新中心总经理王玉木表示,鲸智文档大模型与同类产品最大的差异在于,它提供了可快速价值落地的整体性方案,不仅包含了文档大模型能力,还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机,基于垂直模型能力和软硬件相互配合,可帮助企业实现文档的知识抽取、知识融合,直至知识推理和问答的全流程覆盖,为企业知识资产的沉淀、高效管理与利用提供了有效通路。

鲸智文档大模型的实践逻辑

浩鲸科技成立于 2003 年,立足于电信行业,智慧触角已触及政务、电力、泛零售等多个领域,迄今已为全球 80 多个国家和地区的电信运营商、700 + 政企客户提供全栈数智化产品技术服务。

“鲸智文档大模型” 始于浩鲸科技 20 余年的数据治理、知识沉淀能力积累,作为垂直领域模型,它从端到端解决场景需求的视角出发,结合了大小模型协作等思路,基于基础大模型构建一套紧密配合的模型组合,主要分三个层面:

底层,精准知识提取:通过标题提取、表格提取、版面分析等多种模型,精准捕捉文档中的关键信息,确保内容的完整提取。同时,知识密度分类与语义压缩模型的加入,进一步提升了知识提取的效率与质量。 知识提取中,“标题提取模型” 是最为优先的。文档标题可用于文档知识块拆分、知识块召回等场景,可解决指代消歧等问题,具有重要作用,但在服务企业过程中,大部分文档格式不规范,直接影响了知识问答成功率。“标题提取模型” 基于基础大模型进行微调训练,强化了标题识别能力,能够用于从正文中识别标题,补全缺失标题等场景,可以解决企业文档标题和目录不规范,甚至标缺失的问题,有效提升了成功率。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

中间层,深度知识融合:在知识块的基础上,进行抽象总结与多模态数据关联,将碎片化知识整合为系统化的知识体系,并映射至高维向量空间,为后续的知识推理奠定坚实基础。

浩鲸科技积累的的主要模型有: 文本总结模型:生成短文本摘要,为知识萃取提供支持; 文本向量模型:提供更加准确的文本特征提取能力,为知识的召回提供保障; 界面识别模型:图片特征提取模型,支持图文向量对齐; 文本重排模型:对多模态,多路径召回的文本内容,进行重排序,进一步提升回答的准确率。

其中,“界面识别模型” 强化了对用户手册中最常见软件界面的支持,主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科技研发云平台,将软件测试报告中的软件界面图片和内容来构建训练集,并使用反转、随机截取、变形、叠加反光等手段扩增图片库,实现了一个支持软件界面匹配的图片识别模型,解决了现有大模型在软件界面识别方面效果一般的问题。该模型的应用显著提升了图片搜索的准确率,文本检索图片召回成功率提升 25%,图片检索图片召回成功率提升 40%。

上层,智能知识推理:构建了知识问答模型和 BPO 优化模型。面向知识问答任务场景,构建了针对场景优化的问答模型,强化根据参考知识信息进行精准回答,减少幻觉。

另外一方面通过优化用户的输入提示(prompt)来提高模型输出与人类偏好的对齐程度,提升问答的准确性。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

DocChain:文档处理的智慧引擎

为深度赋能企业用户,浩鲸科技依托先进的鲸智文档大模型,匠心打造了多模态文档工具链 ——DocChain。该产品不仅实现了企业文档向宝贵知识资产的转化,更构建了一个集文档知识精准提取、高效检索与智能问答对话于一体的大模型知识服务平台。DocChain 以其卓越的多模态处理能力、广泛的文档格式兼容性和极致的性能优化,成为企业文档处理领域的得力助手。

智能提取,精准高效:集成前沿 NLP 算法与模型,实现文档处理速度与精度的双重飞跃。抽取精度高达 98%,问答响应准确率超越 80%,让信息获取更加智能、便捷。 格式兼容,全面广泛:拥抱多样化文档生态,支持超过 30 种文件格式,特别兼容 OFD 等国产信创标准,确保各类文档无缝接入,处理高效且精准,满足企业多样化需求。 多模态处理,深度解析:深度解析文档内容,无论是文本、目录、图片、表格、链接还是页码,均能精准拆分与提取。支持多元模态检索,无论是文找文、文找图,还是图找图,均能游刃有余。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

一体机:解决企业私域场景下低成本上线大模型的诉求

浩鲸科技为解决客户落地大模型过程中算力硬件缺乏、技术人员少、安全要求高等难题,同时推出了文档大模型软硬件一体机。一体机内置了高性能算力,并且预装了大模型以及 DocChain 应用,可为企业快速部署和验证智慧文档处理服务。

从部署上来说,文档大模型一体机具备开箱即用、数据安全可控、性能无忧、快速集成等几个特点,专为轻量级场景设计,私有化部署解决企业隐私保护、数据安全等痛点,低成本实现企业内部大模型快速上线,覆盖通用知识检索、文档问答、服务支撑及品牌宣传等,可帮助企业迅速构建专属大模型问答系统。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

随着基础大模型的发展,以及模型增量训练的知识冲突问题日益凸显,RAG 逐渐成为企业智能知识库的标准解决方案,然而知识召回的准确率和完整性成为了影响问答效果的关键因素。

鲸智文档大模型,借鉴了 “大模型 + 小模型” 的思路,基于基座大模型构建了一套大小模型的组合,形成了一套垂直大模型,可以端到端实现垂直应用场景的需求。当前,鲸智文档大模型在多模态识别、检索和精准召回上做了很多的尝试,也取得了一定的成果。

AI 大模型的迅速发展,让企业沉淀的大量文档的知识理解和处理带来了转机,浩鲸科技正通过持续的技术创新与产品优化,推动大模型技术与企业领域知识深度融合,实现企业文档向有价值的资产转化,为企业创造更多价值。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-26 14:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

引领司法创新!迪博助力深圳法院上线AI辅助审判系统
...化转型提供了持续的创新动力。潜心基础研究,创新智能文档结构化技术,率先突破智能应用 “入口难关”迪博智能文档结构化平台为解决PDF、图片、扫描件等海量文档处理难、处理慢、长期
2024-07-12 10:47:00
福昕软件:数字治理唤醒“沉睡”数据
海量文档如何快速提取信息?怎么自由切换文件格式?人工智能怎么助力政务服务?……这些常见的办公、办事需求,困扰着不少人。在第八届数字中国建设峰会上,福建福昕软件开发股份有限公司立足
2025-05-01 17:52:00
昆仑万维重磅发布天工AI高级搜索功能,做最懂金融投资、科研学术的AI搜索
...息处理解决方案。无论是金融、科技领域的专业搜索还是文档分析,「天工AI高级搜索」将为用户提供前所未有的搜索体验,赋能各领域的数字化转型和智能化升级。本次天工AI高级搜索功能,
2024-11-05 14:56:00
昆山农商银行:搭建智能办公矩阵 提升数字化效能
...刚需场景作为突破口,成功开发并测试了包括知识助手、文档辅助编写、代码研发、文档翻译、内外规检索在内的5个应用场景。二是精准技术选型。引入数个国产开源大模型,构建多模型协同的智
2025-07-06 23:08:00
用工具推动经营,企业增效的「两个关键」
...段密密麻麻的短信,而是一个简洁清晰、内容齐全的腾讯文档。 从大会介绍、日程、展区指引等核心信息,到交通食宿各类细节,《2023腾讯全球数字生态大会参会指南》汇集了会议相关的
2023-09-11 17:03:00
...。多格式支持,实现便捷导入“展业小助手”程序支持“文档管理”“高频问答”两种形式的知识导入。“文档管理”方式,进行非结构化知识导入,支持txt、pdf、doc等多格式、多文件
2024-11-27 21:59:00
...eek大模型的本地化部署测试,旨在将其应用于信息检索、文档处理、行业研究及市场研判等多个场景。国泰君安相关负责人向中新经纬透露,基于对人工智能技术的深度探索,该公司春节前已完
2025-02-08 19:30:00
...)与43类敏感词库;实现跨库语义搜索,支持同时查询本地文档库与互联网公开数据源。通过严格的本地化部署机制,南昌政务数据全程“不出域”,既满足信创标准与保密要求,又显著提升办公
2025-03-07 13:18:00
亮相2024中国图象图形大会,合合信息文档解析技术获行业关注
...广泛应用,满足多行业图像处理需求。大会期间,由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了《大模型技术及其前沿应用》论坛,来自
2024-05-31 18:22:00
更多关于科技的资讯:
有电储能户外电源:国庆出游不断电,畅享自然每一程
国庆长假,是探索远方、寄情山水的绝佳时机。然而,无论是长途自驾中的电子设备续航,还是露营时的照明、烹饪需求,传统的充电宝或小型发电机往往捉襟见肘
2025-09-30 13:45:00
莱西市夏格庄镇:政企同频创新培育新动能
鲁网9月30日讯(记者 葛万彩 通讯员 张磊)引进14个亿元以上高新技术项目,其中8个已开工建设;新投产的青岛新茂林机械装备制造基地
2025-09-30 10:41:00
谨防“二选一”换上新马甲
范仁超据多家媒体报道,在天猫、京东、抖音等多个平台开店的某化妆品品牌负责人日前向媒体反映,之前和某带货达人达成合作意向
2025-09-30 10:48:00
胶东在线9月28日讯(记者 卢伟霞)近日,以“山海有约 烟台有乐”为主题的2025烟台沙滩音乐季在幸福湾活力海岸圆满收官
2025-09-30 06:37:00
京津研发河北转化进行时(三):一个康复机器人的协同样本
从北京研发中心到冀州生产线一个康复机器人的协同样本9月25日,在位于衡水市冀州区的极智医疗器械(河北)有限公司生产车间
2025-09-29 08:26:00
东风与腾讯签署战略合作协议 共建“汽车+互联网”智能新生态
9月28日,东风汽车集团股份有限公司(以下简称“东风汽车”)与深圳市腾讯计算机系统有限公司(以下简称“腾讯”)在武汉举行战略合作签约仪式
2025-09-29 08:33:00
大厂:发放第二期惠民电子消费券 为消费市场注入新活力
河北新闻网讯(张嘉良)消费热潮涌动,市场活力持续攀升。日前,大厂回族自治县发放第二期“乐享大厂·焕新潮”惠民电子消费券
2025-09-29 09:49:00
唐山启动2025“迎国庆、庆中秋”系列促消费活动
河北新闻网讯(张强、王育民)9月27日,2025唐山市“迎国庆、庆中秋”系列促消费活动在路南区京东电器城市旗舰店启动。本次活动由唐山市商务局
2025-09-29 10:28:00
中新经纬9月29日电 29日,中新经纬查询中国执行信息公开网发现,该网站已经没有万达集团董事长王健林“限高”信息。28日
2025-09-29 10:58:00
京东服务商开放季交流会释放11.11商家增长信号
齐鲁晚报·齐鲁壹点 记者 王颖颖2025年9月28日,在年度电商盛宴京东11.11启幕前夕,以“开放共赢 高效合作”为主题的2025京东服务商开放季交流会在京东集团总部成功举行
2025-09-29 11:00:00
官宣!普拉斯与腾讯云深化“云+AI”合作,加速制造业智能转型
近日,四川省宜宾普拉斯包装材料有限公司(下称“普拉斯”)宣布与腾讯云深化战略合作,双方将基于普拉斯在智慧包装行业的丰富经验和腾讯在AI领域的领先技术
2025-09-29 11:05:00
王健林“限高”措施已取消,其所持4.9亿股权仍被冻结
记者9月29日查询,中国执行信息公开网已经没有万达集团董事长王健林“限高”信息。另据企查查9月29日信息,显示王健林限高措施已取消
2025-09-29 11:37:00
象屿集团与钉钉合作,打造统一、智能、全球化的AI办公平台
9月28日,厦门象屿集团有限公司(以下简称“象屿集团”)与钉钉正式达成合作协议,并宣布象屿集团新一代数字化办公平台项目建设正式启动
2025-09-29 11:37:00
春雪食品集团总裁郑钧谈品质建设与战略转型
近日,春雪食品集团股份有限公司(以下简称“春雪食品集团”)宣布,继去年扭亏为盈后,今年上半年实现归母净利润1427.65万元
2025-09-29 11:37:00
聊城智汇 链接全球丨从布艺收纳到宠物用品,泊西集团海外订单供不应求
鲁网9月29日讯在山东聊城茌平区洪官屯镇,阳光洒在错落有致的乡村院落上。走进山东泊西实业集团有限公司生产基地的产品展厅
2025-09-29 12:06:00