• 我的订阅
  • 科技

策略产品必知系列之一文详解“特征工程”

类别:科技 发布时间:2023-06-07 16:00:00 来源:人人都是产品经理

本篇文章作者分享策略产品在特征工程上需要了解的原则和工作方法。特征工程在推荐系统中至关重要,需要遵循几个基本原则:包括正确理解问题背景和业务需求、理解数据和特征的含义、保证数据的稳定性和完整性等。希望通过本篇文章能对你有所帮助。

策略产品必知系列之一文详解“特征工程”

从策略产品的角度来审视特征工程,在算法工程师 & 策略产品届有一句话叫做“Garbage in garbage out (垃圾进,垃圾出)”。这句话深刻的解释了特征与数据对于深度学习模型的重要性。机器学习模型的能力边界就在于对数据的拟合和泛化,那么数据及其表达数据的特征就决定了起学习模型效果的上限。

数据与特征工程决定了模型的上限,改进算法只不过是逼近这个上限而已。

今天Arthur就给大家介绍一下关于推荐系统的特征工程,帮助大家从全貌了解策略产品在特征工程需要捻熟于心的关键原则和工作方法。

本文分为上下两篇,上篇主要提纲挈领的介绍特征工程的定义原则、重要特征类型以及常用的特征处理方法;下篇会着重的讲解策略产品实用的特征数据处理的工作内容。

具体分为以下几点讲述:什么是特征工程、特征工程的基本工作原则。有哪些常用的特征类别。常见的特征数据类型与处理办法。特征的选择。一、什么是特征工程、构建特征工程的基本原则是什么

特征工程(feature engineering)定义:特征的本质其实就是对某个行为过程相关信息的抽象表达。

推荐过程某个行为必须转化成某种数字形式才能被机器学习模型学习。所以为了完成这种转化,就必须把这种行为过程的信息以特征形式抽取出来,用多个维度上的特征表达这一行为。

存在的问题:从具体行为转化成抽象的特征,过程必然会造成信息损失。这个过程中具体有两个问题:因为具体的推荐行为和场景包含大量原始的场景、图片和状态信息,保存所有的信息存储空间过大,现实中无法满足。具体的推荐场景也包含大量荣誉无用的信息,都考虑进来会损害模型的泛化能力。

特征工程构建基本原则:基于以上存在的问题,在特征工程构建中的基本原则为:尽可能让特征工程抽取的一组特征能够保留推荐环境以及用户行为过程中的有用信息,尽量摒弃冗余信息。

举个垂直场景推荐系统中具象化的例子便于大家理解,在推荐系统中对于书本推荐有哪些重要的因素呢?

Arthur枚举了一下几种类型:

推荐系统当中对于书本推荐的重要艺术

可以从上图中看出,在抽取特征过程当中,必然存在信息的损失。例如“当时的心情”就从要素中被舍弃了;再比如,用户观看历史推断用户偏好也会存在一定的信息丢失情况。

因此,在已有的、可获取的数据基础上,“尽量”保留有用信息是是实现特征工程的原则。

二、推荐系统常用的特征类别

推荐系统会使用到各个维度的特征信息。而不同的特征信息对于不同的推荐系统所带来的增益效果大不相同,并且不同的业务抽取特征的时候权重也大相径庭。

例如电商系统更加关注用户的属性特征、用户点击、加购商品类型,其中加购相对来说对于最终成交比点击行为权重更大。而新闻推荐更加关注用户关注的新闻类别,所在LBS的地域信息等等。

因此我将推荐系统的常用特征进行枚举,提供大家在构建特征工程时候的选择,该部分与之前介绍的定向类型有点相似。

1. 用户行为数据类型

用户行为数据是推荐系统最常用、也是最为关键的数据,因为用户的潜在兴趣、用户对物品的真实评价都包含在用户的行为历史当中。

一般用户行为特征包含显性反馈行为(explicit feedback)和隐性反馈行为(implicit feedback)。在不同业务场景中,用不同方式体现。

各业务场景中的显性和隐性反馈行为

当前推荐系统的发展中,隐性反馈行为越来越重要,主要原因是显性反馈的收集难度更大,数据量也比较小。在深度学习模型对于数据要求越来越大的背景下,如果只是用线性反馈的数据不足以支持推荐系统训练过程中直到收敛。

所以,能够反映用户行为特点的隐性反馈行为是目前特征挖掘的重点。

2. 用户关系数据类型

互联网本质上是人和人、人和信息之间的链接。“物以类聚,人以群分”其实就是用户关系数据最好的体现,同时也是推荐系统利用的有价值信息。

用户关系类型分为“显性”和“隐性”,又可以称之为“强关系”与“弱关系”。强关系类型:用户可以通过用户之间的“关注”、“好友关系”,以及“通讯录授权”建立“强关系”联系。弱关系类型:通过“相互点赞”、“同处在一个社区”,甚至是“同看一部电影”来建立“弱关系”的联系。3. 属性、标签数据类型

属性、标签数据类型本质上都是直接描述用户或者物品客观特征。标签和属性的主体可以是用户,也可以是物品,他们的来源非常多样化。

大体上分为以下几类:

用户属性、物品属性以及标签数据是属于最重要的描述型数据。

成熟的公司会建立一套用户和物品的标签体系,有专门的团队维护。典型的例子就是电商公司的商品分类体系,同样这一套分类也会用于搜索召回策略中的实体识别当中。

策略产品必知系列之一文详解“特征工程”

阿里云中关于query词的分类

在推荐系统当中使用属性、标签类数据,一般都是通过multi-hot编码方式转化成特征向量。一些重要的属性标签类特征也可以先转化成Embedding,再输入推荐模型。

4. 内容类数据

内容类型的数据可以看做是标签类型的衍生,同样也是描述用户和物品的数据。但是相比较标签数据,内容类型的数据往往都是大段的描述型文字、图片,甚至是视频。

一般来说,内容类数据无法直接转化成推荐系统可以“消化”的特征,需要通过自然语言处理、计算机视觉等手段提取关键的内容特征,再输入到推荐系统。

策略产品必知系列之一文详解“特征工程”

实体识别

例如,在图片类、食品类或者带有图片的信息流场景中,往往会使用计算机视觉模型进行目标检测,抽取图片特征,再把特征转化为标签类数据提供给推荐系统。

5. 上下文Context信息数据

上下文信息表示的是描述推荐行为产生的场景信息。最常用的就是利用“时间”和通过GPS获取到的“地点”信息。

根据推荐场景的不同,上下文信息的范围非常的广,包括地点、季节、时间、是否节假日、天气湿度、社会大事件等等。

引入上下文信息的目的是尽可能保证推荐行为发生推荐场景的实时性。

典型的例子是:在美团外卖APP场景中、临近中午12-2点会推荐用户爱吃的外卖食物,到了下午3-5点,可能用户吃过饭了那么就会更加倾向于甜点、下午茶(奶茶、饮料等)。

如果不引用上下文特征,则推荐系统无法捕捉到这些有价值的实时信息。

6. 组合类特征

组合类特征指代将不同的特征类型进行组合后的得到的新特征。最常见的就是“年龄+性别”组成人口属性分段特征(segment)。

在早期的推荐系统当中,推荐模型(比如说逻辑回归LR)是不具备特征组合的能力。

随着神对学习推荐系统的提出,组合类特征不一定通过人工组合、人工筛选的方法选出,还可以交给模型自行处理。

例如GBDT+LR的形式就是讲特征工程模型化来处理。

三、常见的特征数据类型与特征处理方法

对于推荐系统来说,模型的输入往往是数字组成的特征向量。有“年龄”、“播放时长”、“历史点击率CTR”这些可以由数字表达的特征,可以自然成为特征向量中的维度。

更多的特征来说,像是用户的性别、观看历史也需要转化成为数字特征向量。

因此需要从连续型特征和类别型特征两个角度来介绍特征处理方法。

1. 连续型特征

连续型特征的典型例子就是用户年龄、播放时长以及物品发布时间等统计类型特征。

对于这一类特征的处理,最常见的就是归一化、离散化、加非线性函数等手段。

1)归一化

统一各个特征的量纲,将连续值特征归一到[0,1]之间。也可以做0均值的归一化,即将原始数据归一化为均值为0、方差为1的数据集。解决方案:将所有的数据映射到同一个尺度当中。最值归一化:把所有的数据映射到0-1之间。

策略产品必知系列之一文详解“特征工程”

2)离散化

通过分位数的形式将原来的连续值进行分桶,最终形成离散值的过程。

离散化的主要目的是放置连续纸带来的过拟合现象以及特征值分布不均匀情况。

经过离散化处理的连续型特征和经过One-hot处理的类别型特征一样,都是以特征向量的形式输入特征模型当中的。

策略产品必知系列之一文详解“特征工程”

3)加非线性函数

加非线性函数的处理方法,就是直接把原来的特征通过非线性函数做变换,然后把原来的特征和变换后的特征一起加入模型进行训练的过程。

加入非线性函数的目的为了更好的捕获特征与优化目标之间的非线性关系。

常用的非线性函数包括以下几类:

策略产品必知系列之一文详解“特征工程”

2. 类别型特征

类别型特征典型的例子:用户历史行为数据、属性标签类数据等。其原始表现为一个类别或者一个id。

这类特征最常用的方法就是使用one-hot编码将其转化成为一个数值向量,在one-hot编码基础上,面对同一个特征域或者非唯一类别选择,还可以采用multi-hot编码。

历史行为序列类、标签特征类数据来说,用户往往会与多个物品产生交互行为,或者被打上多个同类别标签,这是最常用的特征向量生成方式就是转化为multi-hot编码。

举个例子,带上网站共有1000个商品,用户购买了其中10种,那么用户的历史行为就编程1000维的数值向量。其中仅有10个商品数值是1,其余的都是0,这就是multi-hot编码。

对类别进行One-hot编码或者是multi-hot编码主要的问题就是特征向量的维度过大,特征过于稀疏的问题,这容易导致模型欠拟合,模型的权重参数的数量过多,导致模型收敛也会很慢。

所以在Embedding技术成熟之后,被广泛应用在类别特征的处理之上。现将类别特征编码成稠密Embedding向量,再和其他的特征组合,最终形成输入特征向量。

四、特征选择

特征选择是指为了构建模型而选择相关特征子集的过程。特征选择的目的有三个:简化模型。使模型更易于研究人员和用户的理解。 可解释性不仅让我们对模型效果的稳定性有更多的把握,而且也能为业务运营等工作提供指引和决策支持。改善性能。特征选择的另一个作用就是节省存储和计算QPS耗时开销。改善通用性。降低过拟合风险。 特征的增多会大大地增加模型的搜索空间,大多数模型所需要的训练样本数目随着特征数量的增加而显著增加,特征的增加虽然会更好的拟合训练数据,但也可能增加方差。

特征选择一般包括生产过程、评价函数、停止准则、验证过程。

为了进行特征选择,我们首先需要产生特征或特征子集候选集合;其次需要衡量特征或特征子集的重要性或者好坏程度。

因此需要量化特征变量和目标变量之间的联系以及特征之间的相互联系。

为了避免过拟合,我们一般采用交叉验证的方式来评估特征的好坏;为了减少计算复杂度,我们还需要设定一个阈值,当评价函数到达阈值后搜索停止;最后,我们需要在验证数据集上验证选出来的特征子集的有效性。

本文由 @策略产品Arthur 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-07 17:45:13

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...行了探讨。例如,张曼华在《小学语文审美化教学初探》一文中指出,要通过创设情境、朗读感悟、联想想象等方式,引导学生对写景诗进行审美体验。胡务在《小学语文写景状物类课文审美教学的
2024-05-24 01:49:00
实力新华① | 一文说清新华保险投资优势
作为国有控股金融保险企业和国内重要的机构投资者之一,新华保险坚决贯彻落实党中央决策部署,充分发挥保险资金耐心资本、长期资本、战略资本的优势,加强投研能力和投研队伍建设,丰富投资品
2024-11-20 10:10:00
冠心病究竟是哪生病了?日常做好9项预防!一文掌握关键防治
冠心病,也被称为冠状动脉疾病(CAD),是指供应心脏肌肉血液的冠状动脉发生病变,导致血管狭窄或阻塞,心脏肌肉因此得不到足够的氧气和养分,引起心脏功能异常。1. 动脉粥样硬化:冠心
2024-03-21 12:02:00
身体出现危机的男人,身体会有哪些特征?一文分析下
从古至今,长寿这条路一直都是人们所追求的“道路”。然而,这条道路从来都不是一帆风顺的,而是充满了荆棘和坎坷。因此,在长寿这条路上,有人走到了终点,但有人却在半路下了车。人们一旦进
2023-05-19 22:36:00
脚上有哪几个特征会值得开心呢?一文了解下
在生活中人们都会秀出自己的美手,但是很少人去观察自己的脚,这样很容易让大家忽视脚部的健康,其实脚部的健康对人体身体来讲是尤为重要的。因为很多健康问题都可以通过角来观察出来。随着年
2022-12-10 18:22:00
中国传媒经济发展报告(2023)近日在京发布
...本书收录的《2022年中国传媒经济发展回顾与2023年前瞻》一文,对2022年中国传媒经济五大新发展成就进行总结,力图发掘传媒经济发展的最新进展及关键影响因素,并对2023年
2023-11-11 15:38:00
通过消费者特征,设计更符合市场的商业模式,树立标杆用户拓展用
迅腾文化观察:通过消费者特征,设计更符合市场的商业模式,树立标杆用户拓展用户圈层在当今快速变化的市场环境中,企业需要不断创新和调整自己的商业模式,以适应消费者的需求和市场的发展。
2024-01-05 13:59:00
急性髓系白血病是具有高度异质性的恶性疾病,一文科普下
导语:急性髓系白血病是一种在发病机制、基因表达特征、免疫表型和治疗反应等多个方面具有高度异质性的恶性疾病,为中国患者基数最大的急性白血病。目前,临床上成人急性髓系白血病患者的诱导
2023-02-03 20:32:00
...内在规律。首先,描述性统计学揭示了消费者的基本购买特征,而推断性统计学进一步分析了影响消费者购买决策的因素;聚类分析帮助企业识别不同的消费者群体,时间序列分析预测了消费趋势。
2024-06-24 11:32:00
更多关于科技的资讯:
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00