• 我的订阅
  • 科技

策略产品必知系列之一文详解“特征工程”

类别:科技 发布时间:2023-06-07 16:00:00 来源:人人都是产品经理

本篇文章作者分享策略产品在特征工程上需要了解的原则和工作方法。特征工程在推荐系统中至关重要,需要遵循几个基本原则:包括正确理解问题背景和业务需求、理解数据和特征的含义、保证数据的稳定性和完整性等。希望通过本篇文章能对你有所帮助。

策略产品必知系列之一文详解“特征工程”

从策略产品的角度来审视特征工程,在算法工程师 & 策略产品届有一句话叫做“Garbage in garbage out (垃圾进,垃圾出)”。这句话深刻的解释了特征与数据对于深度学习模型的重要性。机器学习模型的能力边界就在于对数据的拟合和泛化,那么数据及其表达数据的特征就决定了起学习模型效果的上限。

数据与特征工程决定了模型的上限,改进算法只不过是逼近这个上限而已。

今天Arthur就给大家介绍一下关于推荐系统的特征工程,帮助大家从全貌了解策略产品在特征工程需要捻熟于心的关键原则和工作方法。

本文分为上下两篇,上篇主要提纲挈领的介绍特征工程的定义原则、重要特征类型以及常用的特征处理方法;下篇会着重的讲解策略产品实用的特征数据处理的工作内容。

具体分为以下几点讲述:什么是特征工程、特征工程的基本工作原则。有哪些常用的特征类别。常见的特征数据类型与处理办法。特征的选择。一、什么是特征工程、构建特征工程的基本原则是什么

特征工程(feature engineering)定义:特征的本质其实就是对某个行为过程相关信息的抽象表达。

推荐过程某个行为必须转化成某种数字形式才能被机器学习模型学习。所以为了完成这种转化,就必须把这种行为过程的信息以特征形式抽取出来,用多个维度上的特征表达这一行为。

存在的问题:从具体行为转化成抽象的特征,过程必然会造成信息损失。这个过程中具体有两个问题:因为具体的推荐行为和场景包含大量原始的场景、图片和状态信息,保存所有的信息存储空间过大,现实中无法满足。具体的推荐场景也包含大量荣誉无用的信息,都考虑进来会损害模型的泛化能力。

特征工程构建基本原则:基于以上存在的问题,在特征工程构建中的基本原则为:尽可能让特征工程抽取的一组特征能够保留推荐环境以及用户行为过程中的有用信息,尽量摒弃冗余信息。

举个垂直场景推荐系统中具象化的例子便于大家理解,在推荐系统中对于书本推荐有哪些重要的因素呢?

Arthur枚举了一下几种类型:

推荐系统当中对于书本推荐的重要艺术

可以从上图中看出,在抽取特征过程当中,必然存在信息的损失。例如“当时的心情”就从要素中被舍弃了;再比如,用户观看历史推断用户偏好也会存在一定的信息丢失情况。

因此,在已有的、可获取的数据基础上,“尽量”保留有用信息是是实现特征工程的原则。

二、推荐系统常用的特征类别

推荐系统会使用到各个维度的特征信息。而不同的特征信息对于不同的推荐系统所带来的增益效果大不相同,并且不同的业务抽取特征的时候权重也大相径庭。

例如电商系统更加关注用户的属性特征、用户点击、加购商品类型,其中加购相对来说对于最终成交比点击行为权重更大。而新闻推荐更加关注用户关注的新闻类别,所在LBS的地域信息等等。

因此我将推荐系统的常用特征进行枚举,提供大家在构建特征工程时候的选择,该部分与之前介绍的定向类型有点相似。

1. 用户行为数据类型

用户行为数据是推荐系统最常用、也是最为关键的数据,因为用户的潜在兴趣、用户对物品的真实评价都包含在用户的行为历史当中。

一般用户行为特征包含显性反馈行为(explicit feedback)和隐性反馈行为(implicit feedback)。在不同业务场景中,用不同方式体现。

各业务场景中的显性和隐性反馈行为

当前推荐系统的发展中,隐性反馈行为越来越重要,主要原因是显性反馈的收集难度更大,数据量也比较小。在深度学习模型对于数据要求越来越大的背景下,如果只是用线性反馈的数据不足以支持推荐系统训练过程中直到收敛。

所以,能够反映用户行为特点的隐性反馈行为是目前特征挖掘的重点。

2. 用户关系数据类型

互联网本质上是人和人、人和信息之间的链接。“物以类聚,人以群分”其实就是用户关系数据最好的体现,同时也是推荐系统利用的有价值信息。

用户关系类型分为“显性”和“隐性”,又可以称之为“强关系”与“弱关系”。强关系类型:用户可以通过用户之间的“关注”、“好友关系”,以及“通讯录授权”建立“强关系”联系。弱关系类型:通过“相互点赞”、“同处在一个社区”,甚至是“同看一部电影”来建立“弱关系”的联系。3. 属性、标签数据类型

属性、标签数据类型本质上都是直接描述用户或者物品客观特征。标签和属性的主体可以是用户,也可以是物品,他们的来源非常多样化。

大体上分为以下几类:

用户属性、物品属性以及标签数据是属于最重要的描述型数据。

成熟的公司会建立一套用户和物品的标签体系,有专门的团队维护。典型的例子就是电商公司的商品分类体系,同样这一套分类也会用于搜索召回策略中的实体识别当中。

策略产品必知系列之一文详解“特征工程”

阿里云中关于query词的分类

在推荐系统当中使用属性、标签类数据,一般都是通过multi-hot编码方式转化成特征向量。一些重要的属性标签类特征也可以先转化成Embedding,再输入推荐模型。

4. 内容类数据

内容类型的数据可以看做是标签类型的衍生,同样也是描述用户和物品的数据。但是相比较标签数据,内容类型的数据往往都是大段的描述型文字、图片,甚至是视频。

一般来说,内容类数据无法直接转化成推荐系统可以“消化”的特征,需要通过自然语言处理、计算机视觉等手段提取关键的内容特征,再输入到推荐系统。

策略产品必知系列之一文详解“特征工程”

实体识别

例如,在图片类、食品类或者带有图片的信息流场景中,往往会使用计算机视觉模型进行目标检测,抽取图片特征,再把特征转化为标签类数据提供给推荐系统。

5. 上下文Context信息数据

上下文信息表示的是描述推荐行为产生的场景信息。最常用的就是利用“时间”和通过GPS获取到的“地点”信息。

根据推荐场景的不同,上下文信息的范围非常的广,包括地点、季节、时间、是否节假日、天气湿度、社会大事件等等。

引入上下文信息的目的是尽可能保证推荐行为发生推荐场景的实时性。

典型的例子是:在美团外卖APP场景中、临近中午12-2点会推荐用户爱吃的外卖食物,到了下午3-5点,可能用户吃过饭了那么就会更加倾向于甜点、下午茶(奶茶、饮料等)。

如果不引用上下文特征,则推荐系统无法捕捉到这些有价值的实时信息。

6. 组合类特征

组合类特征指代将不同的特征类型进行组合后的得到的新特征。最常见的就是“年龄+性别”组成人口属性分段特征(segment)。

在早期的推荐系统当中,推荐模型(比如说逻辑回归LR)是不具备特征组合的能力。

随着神对学习推荐系统的提出,组合类特征不一定通过人工组合、人工筛选的方法选出,还可以交给模型自行处理。

例如GBDT+LR的形式就是讲特征工程模型化来处理。

三、常见的特征数据类型与特征处理方法

对于推荐系统来说,模型的输入往往是数字组成的特征向量。有“年龄”、“播放时长”、“历史点击率CTR”这些可以由数字表达的特征,可以自然成为特征向量中的维度。

更多的特征来说,像是用户的性别、观看历史也需要转化成为数字特征向量。

因此需要从连续型特征和类别型特征两个角度来介绍特征处理方法。

1. 连续型特征

连续型特征的典型例子就是用户年龄、播放时长以及物品发布时间等统计类型特征。

对于这一类特征的处理,最常见的就是归一化、离散化、加非线性函数等手段。

1)归一化

统一各个特征的量纲,将连续值特征归一到[0,1]之间。也可以做0均值的归一化,即将原始数据归一化为均值为0、方差为1的数据集。解决方案:将所有的数据映射到同一个尺度当中。最值归一化:把所有的数据映射到0-1之间。

策略产品必知系列之一文详解“特征工程”

2)离散化

通过分位数的形式将原来的连续值进行分桶,最终形成离散值的过程。

离散化的主要目的是放置连续纸带来的过拟合现象以及特征值分布不均匀情况。

经过离散化处理的连续型特征和经过One-hot处理的类别型特征一样,都是以特征向量的形式输入特征模型当中的。

策略产品必知系列之一文详解“特征工程”

3)加非线性函数

加非线性函数的处理方法,就是直接把原来的特征通过非线性函数做变换,然后把原来的特征和变换后的特征一起加入模型进行训练的过程。

加入非线性函数的目的为了更好的捕获特征与优化目标之间的非线性关系。

常用的非线性函数包括以下几类:

策略产品必知系列之一文详解“特征工程”

2. 类别型特征

类别型特征典型的例子:用户历史行为数据、属性标签类数据等。其原始表现为一个类别或者一个id。

这类特征最常用的方法就是使用one-hot编码将其转化成为一个数值向量,在one-hot编码基础上,面对同一个特征域或者非唯一类别选择,还可以采用multi-hot编码。

历史行为序列类、标签特征类数据来说,用户往往会与多个物品产生交互行为,或者被打上多个同类别标签,这是最常用的特征向量生成方式就是转化为multi-hot编码。

举个例子,带上网站共有1000个商品,用户购买了其中10种,那么用户的历史行为就编程1000维的数值向量。其中仅有10个商品数值是1,其余的都是0,这就是multi-hot编码。

对类别进行One-hot编码或者是multi-hot编码主要的问题就是特征向量的维度过大,特征过于稀疏的问题,这容易导致模型欠拟合,模型的权重参数的数量过多,导致模型收敛也会很慢。

所以在Embedding技术成熟之后,被广泛应用在类别特征的处理之上。现将类别特征编码成稠密Embedding向量,再和其他的特征组合,最终形成输入特征向量。

四、特征选择

特征选择是指为了构建模型而选择相关特征子集的过程。特征选择的目的有三个:简化模型。使模型更易于研究人员和用户的理解。 可解释性不仅让我们对模型效果的稳定性有更多的把握,而且也能为业务运营等工作提供指引和决策支持。改善性能。特征选择的另一个作用就是节省存储和计算QPS耗时开销。改善通用性。降低过拟合风险。 特征的增多会大大地增加模型的搜索空间,大多数模型所需要的训练样本数目随着特征数量的增加而显著增加,特征的增加虽然会更好的拟合训练数据,但也可能增加方差。

特征选择一般包括生产过程、评价函数、停止准则、验证过程。

为了进行特征选择,我们首先需要产生特征或特征子集候选集合;其次需要衡量特征或特征子集的重要性或者好坏程度。

因此需要量化特征变量和目标变量之间的联系以及特征之间的相互联系。

为了避免过拟合,我们一般采用交叉验证的方式来评估特征的好坏;为了减少计算复杂度,我们还需要设定一个阈值,当评价函数到达阈值后搜索停止;最后,我们需要在验证数据集上验证选出来的特征子集的有效性。

本文由 @策略产品Arthur 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-07 17:45:13

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...行了探讨。例如,张曼华在《小学语文审美化教学初探》一文中指出,要通过创设情境、朗读感悟、联想想象等方式,引导学生对写景诗进行审美体验。胡务在《小学语文写景状物类课文审美教学的
2024-05-24 01:49:00
实力新华① | 一文说清新华保险投资优势
作为国有控股金融保险企业和国内重要的机构投资者之一,新华保险坚决贯彻落实党中央决策部署,充分发挥保险资金耐心资本、长期资本、战略资本的优势,加强投研能力和投研队伍建设,丰富投资品
2024-11-20 10:10:00
冠心病究竟是哪生病了?日常做好9项预防!一文掌握关键防治
冠心病,也被称为冠状动脉疾病(CAD),是指供应心脏肌肉血液的冠状动脉发生病变,导致血管狭窄或阻塞,心脏肌肉因此得不到足够的氧气和养分,引起心脏功能异常。1. 动脉粥样硬化:冠心
2024-03-21 12:02:00
身体出现危机的男人,身体会有哪些特征?一文分析下
从古至今,长寿这条路一直都是人们所追求的“道路”。然而,这条道路从来都不是一帆风顺的,而是充满了荆棘和坎坷。因此,在长寿这条路上,有人走到了终点,但有人却在半路下了车。人们一旦进
2023-05-19 22:36:00
脚上有哪几个特征会值得开心呢?一文了解下
在生活中人们都会秀出自己的美手,但是很少人去观察自己的脚,这样很容易让大家忽视脚部的健康,其实脚部的健康对人体身体来讲是尤为重要的。因为很多健康问题都可以通过角来观察出来。随着年
2022-12-10 18:22:00
中国传媒经济发展报告(2023)近日在京发布
...本书收录的《2022年中国传媒经济发展回顾与2023年前瞻》一文,对2022年中国传媒经济五大新发展成就进行总结,力图发掘传媒经济发展的最新进展及关键影响因素,并对2023年
2023-11-11 15:38:00
通过消费者特征,设计更符合市场的商业模式,树立标杆用户拓展用
迅腾文化观察:通过消费者特征,设计更符合市场的商业模式,树立标杆用户拓展用户圈层在当今快速变化的市场环境中,企业需要不断创新和调整自己的商业模式,以适应消费者的需求和市场的发展。
2024-01-05 13:59:00
...呈现“要素重构、生态重塑、约束强化、风险常态化”的特征,对企业传统管理模式形成系统性挑战。近年来,全球经济格局深度调整,数字经济、平台经济、绿色经济成为新经济的核心载体。据中
2025-11-25 16:16:00
急性髓系白血病是具有高度异质性的恶性疾病,一文科普下
导语:急性髓系白血病是一种在发病机制、基因表达特征、免疫表型和治疗反应等多个方面具有高度异质性的恶性疾病,为中国患者基数最大的急性白血病。目前,临床上成人急性髓系白血病患者的诱导
2023-02-03 20:32:00
更多关于科技的资讯:
今天,我们需要一瓶什么样的酒?
多彩贵州网讯 作为一个普通消费者,走在超市琳琅满目的酒水区,或是滑动手机屏幕浏览五花八门的电商页面时,我们常常会停下来思考
2026-01-30 20:05:00
摘要:本文从家校社协同育人空间阻滞、文化断层问题出发,提出了以社区的微空间作为整合枢纽的设计思路。依靠功能复合化布局、地域文化元素的创新转化和VR/AR技术的虚实融合体验来创建起联系家庭
2026-01-30 17:40:00
日前,中国消费者协会将2026年消费维权年主题定为“提升消费品质”。这一主题旨在构建起“供给提质、维权提效、环境优化”的全链条治理体系
2026-01-30 17:47:00
中国消费者报报道(记者施本允)面对日均667件的海量消费投诉涌来,如何更准确有效地进行分流、处置?如何聚焦高风险业态进行预警
2026-01-30 17:47:00
中国消费者报上海讯(记者刘浩)上海市虹口区消费者权益保护委员会近日发布的宠物经济消费调查结果显示,90后、00后成为宠物消费主力
2026-01-30 18:17:00
省科学技术奖,锡山+6!
为激励企业自主创新、开放合作,更好地服务国家重大战略,推进江苏高质量发展,近期江苏省政府发布了《关于2024年度江苏省科学技术奖励的决定》
2026-01-30 18:20:00
今年春运期间,中国铁路南昌局南昌西动车组运用所的智能检修机器人将发挥重要作用,这款集成多重智能技术的“检修尖兵”,实现了动车组车厢底部全自动
2026-01-30 18:23:00
日前,中新经纬研究院与国家广告研究院联合发布报告《医药出海新图景》(下称《报告》)。这是双方推出的2025中国品牌出海系列报告第9期
2026-01-30 18:44:00
一口喜旺味,岁岁皆安康,解锁新年团圆仪式感
节庆馈赠的品质选择,源自对风险管控与生产闭环的极致追求。喜旺凭借其贯穿全链路的“风险驱动+全过程控制”体系,将“安心”转化为可测量
2026-01-30 14:53:00
新消费时代植物医生的 “空间重构”:从货架到生命场的 “实体进化”
“虚拟世界缺乏信任的最终载体,如果产品有问题,顾客可以找到你。这是线下店最根本的力量。”2026年1月初,在深圳举办年会时
2026-01-30 15:11:00
章丘首店!三联家电入驻世茂广场,2月6日盛大启幕!
鲁网1月29日讯三联家电,扎根齐鲁四十一载,“买家电,到三联,三联家电,保修终生”,这句话承载着几代人的回忆,随着家电市场的不断变迁
2026-01-30 15:31:00
娇韵诗撤下彩妆代言人金晨置顶微博
大皖新闻讯 1月30日下午,大皖新闻记者注意到,娇韵诗官方微博撤下彩妆代言人金晨相关的置顶内容。目前该微博账号置顶微博为迪丽热巴相关内容
2026-01-30 15:51:00
在经济全球化深入推进的背景下,跨境贸易已成为推动经济增长的重要引擎,而高效、安全的外汇服务则是保障跨境贸易顺畅开展的关键支撑
2026-01-30 16:02:00
沂水农商银行绘就“异业联盟”新图景
鲁网1月30日讯在数字化转型与民生服务升级的双重浪潮下,沂水农商银行立足县域金融服务本源,推出“异业联盟生活圈平台”,直面发展痛点
2026-01-30 16:04:00
黄河三角洲商业再升级!大润发东营首店开业,打造 \
鲁网1月30日讯 (记者 王娟)2026 年 1 月 30 日,黄河三角洲中心城市东营迎来商业发展重要节点 ——大润发东营首店正式亮相东城万达广场
2026-01-30 16:05:00