• 我的订阅
  • 科技

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

类别:科技 发布时间:2024-09-26 13:36:00 来源:机器之心Pro

在当今大模型技术日新月异的背景下,数据已跃升为构建企业大模型知识库、优化训练与微调,乃至驱动模型创新不可或缺的核心要素。

对于企业来说,积累的宝贵知识广泛散布于形式多样的电子文档之中,这些文档不仅格式多样,其内容质量亦呈现出显著的差异性。对海量数据进行精细化的清洗与预处理工作,已成为提升数据价值、确保模型精准高效的关键一环,如何有效提取并利用这些宝贵的知识资源,成为了摆在所有企业面前的一道难题。

9 月 20 日,老牌数字化转型技术服务提供商浩鲸科技在云栖大会期间,成功举行鲸智大模型技术体系发布会,作为企业内部的 “资产沉淀专家”,鲸智文档大模型重磅首发。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

据了解,本次发布的 “鲸智文档大模型”,专门针对企业文档场景构建了一组垂直领域模型,浩鲸科技大模型创新中心总经理王玉木表示,鲸智文档大模型与同类产品最大的差异在于,它提供了可快速价值落地的整体性方案,不仅包含了文档大模型能力,还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机,基于垂直模型能力和软硬件相互配合,可帮助企业实现文档的知识抽取、知识融合,直至知识推理和问答的全流程覆盖,为企业知识资产的沉淀、高效管理与利用提供了有效通路。

鲸智文档大模型的实践逻辑

浩鲸科技成立于 2003 年,立足于电信行业,智慧触角已触及政务、电力、泛零售等多个领域,迄今已为全球 80 多个国家和地区的电信运营商、700 + 政企客户提供全栈数智化产品技术服务。

“鲸智文档大模型” 始于浩鲸科技 20 余年的数据治理、知识沉淀能力积累,作为垂直领域模型,它从端到端解决场景需求的视角出发,结合了大小模型协作等思路,基于基础大模型构建一套紧密配合的模型组合,主要分三个层面:

底层,精准知识提取:通过标题提取、表格提取、版面分析等多种模型,精准捕捉文档中的关键信息,确保内容的完整提取。同时,知识密度分类与语义压缩模型的加入,进一步提升了知识提取的效率与质量。 知识提取中,“标题提取模型” 是最为优先的。文档标题可用于文档知识块拆分、知识块召回等场景,可解决指代消歧等问题,具有重要作用,但在服务企业过程中,大部分文档格式不规范,直接影响了知识问答成功率。“标题提取模型” 基于基础大模型进行微调训练,强化了标题识别能力,能够用于从正文中识别标题,补全缺失标题等场景,可以解决企业文档标题和目录不规范,甚至标缺失的问题,有效提升了成功率。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

中间层,深度知识融合:在知识块的基础上,进行抽象总结与多模态数据关联,将碎片化知识整合为系统化的知识体系,并映射至高维向量空间,为后续的知识推理奠定坚实基础。

浩鲸科技积累的的主要模型有: 文本总结模型:生成短文本摘要,为知识萃取提供支持; 文本向量模型:提供更加准确的文本特征提取能力,为知识的召回提供保障; 界面识别模型:图片特征提取模型,支持图文向量对齐; 文本重排模型:对多模态,多路径召回的文本内容,进行重排序,进一步提升回答的准确率。

其中,“界面识别模型” 强化了对用户手册中最常见软件界面的支持,主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科技研发云平台,将软件测试报告中的软件界面图片和内容来构建训练集,并使用反转、随机截取、变形、叠加反光等手段扩增图片库,实现了一个支持软件界面匹配的图片识别模型,解决了现有大模型在软件界面识别方面效果一般的问题。该模型的应用显著提升了图片搜索的准确率,文本检索图片召回成功率提升 25%,图片检索图片召回成功率提升 40%。

上层,智能知识推理:构建了知识问答模型和 BPO 优化模型。面向知识问答任务场景,构建了针对场景优化的问答模型,强化根据参考知识信息进行精准回答,减少幻觉。

另外一方面通过优化用户的输入提示(prompt)来提高模型输出与人类偏好的对齐程度,提升问答的准确性。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

DocChain:文档处理的智慧引擎

为深度赋能企业用户,浩鲸科技依托先进的鲸智文档大模型,匠心打造了多模态文档工具链 ——DocChain。该产品不仅实现了企业文档向宝贵知识资产的转化,更构建了一个集文档知识精准提取、高效检索与智能问答对话于一体的大模型知识服务平台。DocChain 以其卓越的多模态处理能力、广泛的文档格式兼容性和极致的性能优化,成为企业文档处理领域的得力助手。

智能提取,精准高效:集成前沿 NLP 算法与模型,实现文档处理速度与精度的双重飞跃。抽取精度高达 98%,问答响应准确率超越 80%,让信息获取更加智能、便捷。 格式兼容,全面广泛:拥抱多样化文档生态,支持超过 30 种文件格式,特别兼容 OFD 等国产信创标准,确保各类文档无缝接入,处理高效且精准,满足企业多样化需求。 多模态处理,深度解析:深度解析文档内容,无论是文本、目录、图片、表格、链接还是页码,均能精准拆分与提取。支持多元模态检索,无论是文找文、文找图,还是图找图,均能游刃有余。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

一体机:解决企业私域场景下低成本上线大模型的诉求

浩鲸科技为解决客户落地大模型过程中算力硬件缺乏、技术人员少、安全要求高等难题,同时推出了文档大模型软硬件一体机。一体机内置了高性能算力,并且预装了大模型以及 DocChain 应用,可为企业快速部署和验证智慧文档处理服务。

从部署上来说,文档大模型一体机具备开箱即用、数据安全可控、性能无忧、快速集成等几个特点,专为轻量级场景设计,私有化部署解决企业隐私保护、数据安全等痛点,低成本实现企业内部大模型快速上线,覆盖通用知识检索、文档问答、服务支撑及品牌宣传等,可帮助企业迅速构建专属大模型问答系统。

文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!

随着基础大模型的发展,以及模型增量训练的知识冲突问题日益凸显,RAG 逐渐成为企业智能知识库的标准解决方案,然而知识召回的准确率和完整性成为了影响问答效果的关键因素。

鲸智文档大模型,借鉴了 “大模型 + 小模型” 的思路,基于基座大模型构建了一套大小模型的组合,形成了一套垂直大模型,可以端到端实现垂直应用场景的需求。当前,鲸智文档大模型在多模态识别、检索和精准召回上做了很多的尝试,也取得了一定的成果。

AI 大模型的迅速发展,让企业沉淀的大量文档的知识理解和处理带来了转机,浩鲸科技正通过持续的技术创新与产品优化,推动大模型技术与企业领域知识深度融合,实现企业文档向有价值的资产转化,为企业创造更多价值。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-26 14:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

引领司法创新!迪博助力深圳法院上线AI辅助审判系统
...化转型提供了持续的创新动力。潜心基础研究,创新智能文档结构化技术,率先突破智能应用 “入口难关”迪博智能文档结构化平台为解决PDF、图片、扫描件等海量文档处理难、处理慢、长期
2024-07-12 10:47:00
福昕软件:数字治理唤醒“沉睡”数据
海量文档如何快速提取信息?怎么自由切换文件格式?人工智能怎么助力政务服务?……这些常见的办公、办事需求,困扰着不少人。在第八届数字中国建设峰会上,福建福昕软件开发股份有限公司立足
2025-05-01 17:52:00
昆仑万维重磅发布天工AI高级搜索功能,做最懂金融投资、科研学术的AI搜索
...息处理解决方案。无论是金融、科技领域的专业搜索还是文档分析,「天工AI高级搜索」将为用户提供前所未有的搜索体验,赋能各领域的数字化转型和智能化升级。本次天工AI高级搜索功能,
2024-11-05 14:56:00
昆山农商银行:搭建智能办公矩阵 提升数字化效能
...刚需场景作为突破口,成功开发并测试了包括知识助手、文档辅助编写、代码研发、文档翻译、内外规检索在内的5个应用场景。二是精准技术选型。引入数个国产开源大模型,构建多模型协同的智
2025-07-06 23:08:00
用工具推动经营,企业增效的「两个关键」
...段密密麻麻的短信,而是一个简洁清晰、内容齐全的腾讯文档。 从大会介绍、日程、展区指引等核心信息,到交通食宿各类细节,《2023腾讯全球数字生态大会参会指南》汇集了会议相关的
2023-09-11 17:03:00
...。多格式支持,实现便捷导入“展业小助手”程序支持“文档管理”“高频问答”两种形式的知识导入。“文档管理”方式,进行非结构化知识导入,支持txt、pdf、doc等多格式、多文件
2024-11-27 21:59:00
...eek大模型的本地化部署测试,旨在将其应用于信息检索、文档处理、行业研究及市场研判等多个场景。国泰君安相关负责人向中新经纬透露,基于对人工智能技术的深度探索,该公司春节前已完
2025-02-08 19:30:00
...)与43类敏感词库;实现跨库语义搜索,支持同时查询本地文档库与互联网公开数据源。通过严格的本地化部署机制,南昌政务数据全程“不出域”,既满足信创标准与保密要求,又显著提升办公
2025-03-07 13:18:00
亮相2024中国图象图形大会,合合信息文档解析技术获行业关注
...广泛应用,满足多行业图像处理需求。大会期间,由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了《大模型技术及其前沿应用》论坛,来自
2024-05-31 18:22:00
更多关于科技的资讯:
300亿年误差不超过一秒!中国科大实现锶原子光晶格钟新突破
大皖新闻讯 3月7日,大皖新闻记者从中国科学技术大学获悉,近期该校潘建伟、戴汉宁、陈宇翱、彭承志等科研人员在光钟研制方面取得里程碑式进展
2026-03-07 17:23:00
3月6日消息,“晋e行”作为山西高速公路出行服务的“数字大脑”,自2022年正式上线以来,以数字赋能为核心,标准化运营为抓手
2026-03-07 18:15:00
2026雄安国际机器人大赛征集机器人领域新技术新产品新场景。
2026-03-07 18:40:00
中新经纬3月7日电 (谢婧雯)你下班了,站在公司楼下,掏出手机。以前打车,要打开打车软件、输入目的地、比价、选车型、确认呼叫
2026-03-07 18:52:00
春晚机器人表演带火租赁市场 厦门景区商超一机难求
东南网3月7日讯(海峡导报记者 孙春燕/文 陆军航/图)马年央视春晚,人形机器人的“赛博表演”惊艳全球,也带火了线下租赁市场
2026-03-07 14:21:00
【读图】回眸十四五,最感人至深的是…… 扫码阅读手机版
2026全国两会(策划 郁建锋、王聪 文案 董琳晶 设计 贾静、杜珊、张晓钰)
2026-03-07 14:56:00
大河网讯 一束微光照亮“智造”星系,璀璨的电子信息产业在郑州航空港拔节生长。在这里,产业星光汇聚成河,超千亿级集群汇聚了从芯片研发到整机组装的产业链
2026-03-07 16:14:00
全国人大代表刘庆峰:未来AI硬件会走进千家万户
大皖新闻讯 2026年是“十五五”开局之年,也是人工智能深度赋能千行百业的关键一年。正在召开的2026年全国两会上,人工智能毫无意外地成为代表委员们热议的高频词
2026-03-07 16:48:00
视频摄制:冯阳 霍艳恩 赵新宇 王思宁
2026-03-07 10:02:00
中国青年医师IP孵化计划在杭州启动
2026年3月5日,以“AI链全球 生态共生”为主题的中国青年医师IP孵化计划在杭州启动。本次活动来自全国多所医院的专家
2026-03-07 10:40:00
租金两块钱一分钟 “共享机器人”即将入驻杭州商场、电影院
星枢智能的“机器人家族” 记者 杨亦淇 摄一台售价20多万元的春晚同款人形机器人,现在花5000元就能租一天;如果是基础款
2026-03-07 08:05:00
摘要:随着信息技术的快速发展,人工智能技术逐渐渗透金融机构的各类业务与管理环节,对传统金融运作模式产生了深刻影响。金融机构在激烈竞争和成本约束的背景下
2026-03-07 05:46:00
近日,省应急管理厅举行“AI+工业企业火情预警(火眼哨兵)”“AI+烟花爆竹监管(烟花卫士)”应用上线发布仪式。浙江拥有30余万家工业企业
2026-03-07 07:34:00
视频摄制:张晶、赵新宇、朱泊宇
2026-03-07 07:47:00
今年的全国两会上,“一人公司”(One Person Company,简称OPC)成为代表委员们热议的话题。全国人大代表
2026-03-07 07:04:00