我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

错误率从10%降至0.01%，领英全面分享LLM应用落地经验

类别：科技发布时间：2024-08-07 09:33:00 来源：机器之心Pro

随着大型语言模型（LLM）技术日渐成熟，各行各业加快了 LLM 应用落地的步伐。为了改进 LLM 的实际应用效果，业界做出了诸多努力。

近期，领英（LinkedIn）团队分享了他们在构建生成式 AI 产品的过程中总结的宝贵经验。领英表示基于生成式人工智能构建产品并非一帆风顺，他们在很多地方都遇到了困难。

以下是领英博客原文。

过去六个月，我们 LinkedIn 团队一直在努力开发一种新的人工智能体验，试图重新构想我们的会员如何进行求职和浏览专业内容。

生成式人工智能的爆发式增长让我们停下来思考，一年前不可能实现的事情现在有了哪些可能。我们尝试了很多想法，但都没有成功，最终发现产品需要如下关键点：

更快地获取信息，例如从帖子中获取要点或了解公司最新动态。

将信息点连接起来，例如评估您是否适合某个职位。

获取建议，例如改善您的个人资料或准备面试。

我们通过一个现实场景来展示新开发的系统是如何工作的。想象一下，您正在滚动浏览 LinkedIn 信息流，偶然发现了一篇关于设计中的可访问性的有趣帖子。除了这篇文章之外，您还会刷到一些入门问题，以便更深入地研究该主题，您很好奇，例如点击「科技公司中可访问性推动商业价值的例子有哪些？」

系统后台会发生如下操作：

选择合适的智能体：系统会接受您的问题并决定哪个 AI 智能体最适合处理它。在这种情况下，它会识别您对科技公司内部可访问性的兴趣，并将您的查询路由到专门执行通用知识搜索的 AI 智能体。

收集信息：AI 智能体调用内部 API 和 Bing 的组合，搜索具体示例和案例研究，突出设计的可访问性如何为技术领域的商业价值做出贡献。

制定回复：有了必要的信息，智能体现在可以撰写回复。它将数据过滤并合成为连贯、信息丰富的答案，为您提供清晰的示例，说明可访问性计划如何为科技公司带来商业价值。为了使体验更具交互性，系统会调用内部 API 来使用文章链接或帖子中提到的人员简介等附件。

你可能会提问「我如何将我的职业生涯转向这个领域」，那么系统会重复上述过程，但现在会将你转给职业和工作（career and job）AI 智能体。只需点击几下，您就可以深入研究任何主题，获得可行的见解或找到下一个工作机会。

大部分新功能是借助 LLM 技术才成为可能。

总体设计

系统 pipeline 遵循检索增强生成（RAG），这是生成式人工智能系统的常见设计模式。令人惊讶的是，建设 pipeline 并没有我们预期的那么令人头疼。在短短几天内，我们就建立并运行了基本框架：

路由：决定查询是否在范围内，以及将其转发给哪个 AI 智能体。

检索：面向 recall 的步骤，AI 智能体决定调用哪些服务以及如何调用（例如 LinkedIn 人物搜索、Bing API 等）。

生成：面向精度的步骤，筛选检索到的噪声数据，对其进行过滤并生成最终响应。

图 1：处理用户查询的简化 pipeline。KSA 代表「知识共享智能体」，是数十种可以处理用户查询的智能体之一。

关键设计包括：

固定三步 pipeline；

用于路由 / 检索的小型模型，用于生成的较大模型；

基于嵌入的检索 (EBR)，由内存数据库提供支持，将响应示例直接注入到提示（prompt）中；

每步特定的评估 pipeline，特别是对于路由 / 检索。

开发速度

我们决定将开发任务拆分为由不同人员开发独立智能体：常识、工作评估、职位要点等。

通过并行化开发任务，我们提高了开发速度，但这是以「碎片」为代价的。当与通过不同的模型、提示或工具进行管理的助手（assistant）进行后续交互时，保持统一的用户体验变得具有挑战性。

为了解决这个问题，我们采用了一个简单的组织结构：

一个小型「水平（horizontal）」工程 pod，处理通用组件并专注于整体体验，其中包括：

托管产品的服务

评估 / 测试工具

所有垂直领域使用的全局提示模板（例如智能体的全局身份（identity）、对话历史、越狱防御等）

为 iOS/Android/Web 客户端共享 UX 组件

服务器驱动的 UI 框架，用于发布新的 UI 更改，而无需更改或发布客户端代码。

关键设计包括：

分而治之，但限制智能体数量；

具有多轮对话的集中式评估 pipeline；

共享提示模板（例如「身份（identity）」定义）、UX 模板、工具和检测

评估

事实证明，评估响应的质量比预期的更加困难。这些挑战可大致分为三个领域：制定指南（guideline）、扩展注释和自动评估。

制定 guideline 是第一个障碍。以工作评估为例：点击「评估我是否适合这份工作」并得到「你非常适合」并没有多大用处。我们希望响应既真实又富有同理心。一些用户可能正在考虑转行到他们目前不太适合的领域，并需要帮助了解差距和后续步骤。确保这些细节一致对注释器非常关键。

扩展注释是第二步。我们需要一致和多样化的注释器。我们内部的语言学家团队构建了工具和流程，以评估多达 500 个日常对话并获取相关指标：整体质量得分、幻觉率、AI 违规、连贯性、风格等。

自动评估工作目前仍在进行中。如果没有自动评估，工程师只能目测结果并在一组有限的示例上进行测试，并且要延迟 1 天以上才能了解指标。我们正在构建基于模型的评估器来评估上述指标，并努力在幻觉检测方面取得一些成功，端到端自动评估 pipeline 将实现更快的迭代。

图 2：评估步骤。

调用内部 API

LinkedIn 拥有大量有关人员、公司、技能、课程等的独特数据，这些数据对于构建提供差异化价值的产品至关重要。然而，LLM 尚未接受过这些信息的训练，因此无法使用它们进行推理和生成响应。解决此问题的标准模式是设置检索增强生成 (RAG) pipeline，通过该 pipeline 调用内部 API，并将其响应注入到后续的 LLM 提示中，以提供额外的上下文来支持响应。

许多此类数据通过各种微服务中的 RPC API 在内部公开。虽然这对于人类以编程方式调用非常方便，但对 LLM 来说并不友好。我们通过围绕这些 API 包装「技能」来解决这个问题。每个技能都有以下组件：

关于 API 的功能以及何时使用的人类友好描述

调用 RPC API 的配置（端点、输入模式、输出模式等）

LLM 友好的输入和输出模式

原始类型（字符串 / 布尔 / 数字）值

JSON 模式的输入和输出模式描述

LLM 友好模式和实际 RPC 模式之间映射的业务逻辑

这些技能旨在让 LLM 能够执行与产品相关的各种操作，例如查看个人资料、搜索文章 / 人员 / 职位 / 公司，甚至查询内部分析系统。同样的技术也用于调用非 LinkedIn API，例如 Bing 搜索。

图 3：使用技能调用内部 API。

我们编写提示，要求 LLM 决定使用什么技能来解决特定的工作（通过规划选择技能），然后输出参数来调用技能（函数调用）。由于调用的参数必须与输入模式匹配，因此我们要求 LLM 以结构化方式输出它们。大多数 LLM 都接受过用于结构化输出的 YAML 和 JSON 训练。我们选择 YAML 是因为它不太冗长，因此比 JSON 消耗更少的 token。

我们遇到的挑战之一是，虽然大约 90% 的情况下，LLM 响应包含正确格式的参数，但大约 10% 的情况下，LLM 会出错，并且经常输出格式无效的数据，或者更糟糕的是甚至不是有效的 YAML。

这些错误对人类来说是微不足道的，但却会导致解析它们的代码崩溃。10% 是一个足够高的数字，我们不能轻易忽视，因此我们着手解决这个问题。

解决此问题的标准方法是检测它，然后重新提示 LLM 要求其纠正错误并提供一些额外的指导。虽然这种方法有效，但它增加了相当大的延迟，并且由于额外的 LLM 调用而消耗了宝贵的 GPU 容量。为了规避这些限制，我们最终编写了一个内部防御性 YAML 解析器。

通过对各种有效负载的分析，我们确定了 LLM 所犯的常见错误，并编写了代码以在解析之前适当地检测和修补（patch）这些错误。我们还修改了提示，针对其中一些常见错误注入提示，以提高修补的准确率。我们最终能够将这些错误的发生率减少到约 0.01%。

我们目前正在构建一个统一的技能注册表，用于在我们的生成式人工智能产品中，动态发现和调用打包为 LLM 友好技能的 API / 智能体。

容量和延迟

容量和延迟始终是首要考虑因素，这里提及一些考量维度：

质量与延迟：思想链 (CoT) 等技术对于提高质量和减少幻觉非常有效，但需要从未见过的 token，因此增加了延迟。

吞吐量与延迟：运行大型生成模型时，通常会出现 TimeToFirstToken (TTFT) 和 TimeBetweenTokens (TBT) 随着利用率的增加而增加的情况。

成本：GPU 集群不易获得且成本高昂。一开始我们甚至必须设定测试产品的时间表，因为会消耗太多 token。

端到端流式处理（streaming）：完整的答案可能需要几分钟才能完成，因此我们流式处理所有请求，以减少感知延迟。更重要的是，我们实际上在 pipeline 中端到端地进行流式处理。例如，决定调用哪些 API 的 LLM 响应是逐步解析的，一旦参数准备好，就会触发 API 调用，而无需等待完整的 LLM 响应。最终的综合响应也会使用实时消息传递基础设施一路传输到客户端，并根据「负责任的 AI」等进行增量处理。

异步非阻塞 pipeline：由于 LLM 调用可能需要很长时间才能处理，因此我们通过构建完全异步非阻塞 pipeline 来优化服务吞吐量，该 pipeline 不会因 I/O 线程阻塞而浪费资源。

感兴趣的读者可以阅读博客原文，了解更多研究内容。

原文链接：https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-07 12:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于错误率,落地,错误,经验,应用,智能的资讯：

有关AI+，不只谈前景

...iniMax创始人闫俊杰：大模型赋能实体经济的核心在于降低错误率我觉得让AI从辅助人类到独立完成工作，最核心的是降低整体错误率，这需要一个综合性的解决方案。2023年（大模型

2024-07-04 23:59:00

智能客服大模型的发展趋势

...，不断优化和改进模型的回答能力。5.智能客服大模型的错误率有多高？智能客服大模型的错误率在不断降低，但由于语义理解等复杂性问题，仍存在一定的错误率。北京中关村科金技术有限公司

2024-06-16 10:24:00

AI赋能企业，慧智开启智慧管理新时代

...，工作效率提升了三倍，现在一个人可以干四个人的活；错误率减少了90%；管理工作减少了85%，原来总经理一天的工作量，现在只需一个半小时就可以完成。第二个例子，杭州慧智为广

2025-02-25 11:45:00

微软称在量子纠错领域取得大进展，量子超级计算机能在2033年

...造出来。相较于单个物理量子比特，这种逻辑量子比特的错误率改善了800倍。Credit: Microsoft 具体来说

2024-04-09 10:29:00

人类和AI在推理任务中的表现相似，Google DeepMi

...无效的论证误判为有效。人类和语言模型在这种任务上的错误率相近，表明语言模型在某些方面的推理能力已经接近人类水平。三段论推理：三段论推理任务要求模型判断由两个前提和一个结论

2024-08-19 13:49:00

数字员工为福建漳州烟草公司业务智慧赋能

...溯性的要求，公司迫切需要一种能够加速业务流程、减少错误率，从而实现降本增效的技术手段。由福建漳州市烟草公司信息中心牵头，业务专家、技术专家和管理人员组成，共同参与决策的制定和

2024-01-12 10:30:00

司法人工智能应有边界限制

...流，毕竟包括人工智能在内的科学技术的发展是以一定的错误率为代价的，而这种错误在司法领域就可能体现为案件的错误裁判、公民人身自由的错误剥夺等，这是作为保障公平正义最后一道防线的

2023-01-04 01:53:00

EMQ 如何用DeepSeek大模型重构可观测性数据分析？

...最大响应时间，以及P95和P99响应时间。·异常情况：显示错误率较高的客户端（错误率超过一定阈值）、响应时间异常的客户端（平均响应时间超过阈值）以及异常追踪（例如耗时特别长的

2025-02-27 14:45:00

云里物里：引领数字化工业仓储管理新时代

...仓储作业活动造成了信息更新时间不及时、作业效率低、错误率高等问题。此外，纸质标签及库存卡需要人工录入物品编码、仓位编码等信息，对使用环境也有较多的限制，还无法与ERP等系统进

2023-11-07 10:14:00

更多关于科技的资讯：

绍兴纺企抱团出海 “柯桥优选”圈粉越南

杭州日报讯近日，在中国纺织信息中心浙江分中心·国际纺织时尚交流中心的组织下，涛搏纺织、凯亨纺织、卓伦纺织、优时进出口等10家绍兴柯桥纺织标杆企业组团亮相越南西贡会展中心

2026-03-12 07:11:00

企业“抢单”忙青山湖畔“开门红”

杭州日报讯 “开年前两个月，订单量同比两位数增长，完成甚至突破预定生产目标，我们信心很足!”“产线满负荷运转，订单排得满满当当

2026-03-12 07:11:00

桐乡“濮院毛衫”焕新出海

数字贸易平台海外版上线杭州日报讯昨日，在2026年中国国际针织（春夏）博览会上，濮院毛衫数字贸易平台海外版正式上线，其专属海外品牌“PlinkX”同步亮相

2026-03-12 07:11:00

“共享大市场·出口中国”活动即将在杭启幕

推动进口贸易与消费升级深度融合杭州日报讯为深入推进高水平对外开放，释放中国超大规模市场红利，推动进口贸易与消费升级深度融合

2026-03-12 07:11:00

不熟悉新手机误开收费业务

82岁老人换了新手机，但不熟悉操作，结果误开通多项收费业务。3月11日，老人收到扣费短信后向网格员求助，顺利取消了扣费服务

2026-03-11 17:36:00

【财眼观两会】专访皇甫宜川：让海外通过文化“新三样”看见真实

中新经纬3月11日电 (董湘依)近年来，中国文化“新三样”(网文、网剧、网游)在海外迅速走红。全国两会期间，全国政协委员

2026-03-11 19:27:00

薛洪言：“养龙虾”火出圈，算力变成稀缺资源

中新经纬3月11日电题：“养龙虾”火出圈，算力变成稀缺资源作者薛洪言星图金融研究院常务副院长、苏商银行特约研究员2026年的早春

2026-03-11 19:28:00

开滦股份范各庄矿：为天车作业装上智慧“防护门”

河北新闻网讯（闫丽颖、唐福刚）近日，开滦股份范各庄矿聚焦“物理隔离+智能管控”核心需求，创新应用一套具备智能闭锁、声光报警

2026-03-11 19:51:00

中国联通eSIM尝鲜季再添新力

3月11日上午，中国联通eSIM尝鲜季——三星国内首款eSIM手机Galaxy S26系列首销仪式在西单北营业厅隆重举行

2026-03-11 14:14:00

3·15维权添利器！安徽“皖美维保”平台上线，家电维修不怕“

大皖新闻讯家里空调、冰箱等家电出故障，找维修却怕遇上“小病大修”“坐地起价”。别愁，专为安徽消费者打造的家电维修“放心平台”来了

2026-03-11 14:55:00

深耕AI应用构筑新质生产力，罗普特（688619.SH）获“

近日，备受瞩目的2025年度“吴文俊人工智能科学技术奖”获奖名单正式揭晓。罗普特（股票代码：688619.SH）作为主要完成单位参与的《面向海上安防的通感算一体化大数据智能处理关键技术及产业化》项目

2026-03-11 15:01:00

新华保险“空中柜面”让保单服务零距离

鲁网3月11日讯“您好，欢迎使用新华保险空中柜面服务！”当客户通过手机视频联系接通后台柜员时，这一句温暖的问候便会准时响起

2026-03-11 16:35:00

“养龙虾”，怎么就火了？

新华社记者曾晋“你‘养龙虾’了吗？”这句略显无厘头的有趣问话，说的可是最近科技圈的一件大事。此“龙虾”并非餐桌上的美味

2026-03-11 16:02:00

好评中国｜中国“铁牛”何以耕耘世界“丰”景？-中国吉林网

长白时评评论员丁铁巴基斯坦独立新闻社日前报道，曾是大型农场专属的现代农业机械化，正因中国农机驶入全球田间地头被改写，手工耕作的辛劳正被高效的机械作业替代

2026-03-11 11:32:00

降噪新科技，轻松听清晰，潜能发展更可期----科利耳Nucl

在移动互联高度发达的当下，听损人士的生活场景愈发多元：孩子们在游乐场嬉戏，笑声与广播声交织；学生们在校园里讨论，声音此起彼伏

2026-03-11 13:01:00

头条订阅服务

错误率从10%降至0.01%，领英全面分享LLM应用落地经验