• 我的订阅
  • 科技

解密OneEntity体系

类别:科技 发布时间:2024-04-23 06:00:00 来源:人人都是产品经理

为打破数据孤岛,创造更大的数据价值,阿里设计了OneEntity,来提供全域数据与服务。本文作者分析了创造OneEntity的原因和价值,解析了OneEntity体系。

解密OneEntity体系

前几篇你跟草帽小子一起了解了阿里数据中台的建设计划,接下来我们一起来解密OneEntity体系。

一、数据孤岛

阿里巴巴作为一家包含多条业务线的公司,如电商、金融、广告、文化、教育、娱乐、设备和社交等领域,数据区域包含国内、国外;数据场景包含线上的人货场钱、线下的人货场钱位置等数据,以及物流、用餐、咨询、影视、出行、阅读、音乐和健康等相关数据。

仅是与人相关的数据就包含业务账号信息、PC cookie、无线IMEI与IDFA等设备标志、身份属性等。

而随着人们互联网行为的多样化,如果每天都有数千亿条实体数据产生,而这些数据都分属于不同业务单元,那么数据就很容易孤立。

解密OneEntity体系

草帽小子思考:以前总是不理解数据孤岛这一部分,明明已经建立了onedata体系,做好了各业务线数据接入,ODS层数据全面接管,明明数据都汇总到了一块,为何还说数据孤岛呢?

直到真正开始做用户画像这一工作才发现,底层的指标体系往往是直接面向各个业务线内,缺乏一个业务线间的关联,这是由业务局限性导致的。比如说,你是淘宝的运营人员,那你会关注钉钉的指标体系是怎样的吗?

答案是显然不会。

那这样就产生了数据的断层,单是从底层的指标层,用户在钉钉的行为习惯,淘宝的人员是无法获知的。那如果我作为淘宝的人员,既想知道他在淘宝上购物行为,也想知道他在钉钉、支付宝、优酷等地方的行为习惯,又该从何得知呢?

二、数据只有融通才能真正产生价值

为打破数据孤岛,创造更大的数据价值,阿里设计了OneEntity来提供全域数据与服务。OneEntity体系主要包含统一实体、全域标签、全域关系、全域行为4大类。

解密OneEntity体系

1. OneEntity统一实体

将若干个实体归拢到一起,并命名为OneEntity,可分为一般质量、高质量、高价值OneEntity。

2. GProfile全域标签

基于归拢后的数据对OneEntity进行贴标签的操作。在OneEntity体系中,如何为OneEntity贴上标签并找出高质量、高价值的OneEntity是最常见的问题。

这几离不开标签的萃取能力,那阿里是怎么萃取标签的呢?

解密OneEntity体系

(1)有效

一方面,主动去找人口学、社会学等学科的教授,学习与“人”相关的理论知识;

另一方面,调研了很多业界的标签分类体系,取长补短。

最终,将“人”的立体刻画划分为“人的核心属性”和“人的向往与需求”2大部分,具体包含4大类:

人的核心属性,可分为自然属性、社会属性。自然属性:是指人的肉体存在及其特征,是人自出生后自然存在的,一般不会因人为因素发生较大的改变。例如“性别”“生肖”“年龄”“身高”“体重”等。社会属性:指人在实践活动基础上产生的一切社会关系的总和。人一旦进入社会就会产生社会属性。例如经济状况、家庭状况、社会地位、政治宗教、地理位置、价值观等。

人的向往与需求,可分为兴趣偏好、行为消费偏好。兴趣偏好:是人堆非物化对象的内在心理向往与外在行为表达,是一种法子内心的本能喜好,与物质无必然关系。例如渴望爱情、需要安全感、讨厌脏乱环境等。行为消费偏好:是人对物化对象的需求与外在行为表达,涉及各行业,与物质世界存在千丝万缕的联系。例如母婴行业偏好、美妆行业偏好、洗护行业偏好、家装行业偏好等。

在以上四大类的基础上,我们又尝试根据不同的业务形态进一步细分二级、三级分类。

(2)高速

标签的萃取工作包含:数据采集;清洗,去噪声并统一;反复试用并确定最佳算法及模型;为模型选择计算因子并对模型中的每一个计算因子调配权重;产出标签质量评估报告以辅助验收。

我们随机抽查了若干个在用的标签,预估工作量和工作周期,一个有价值的标签的萃取,平均耗时2周。

慢的主要原因,一是由于萃取流程复杂,每个标签萃取都依赖底层的基础数据,而较少依赖上一层汇总的数据中间层数据;二是大量重复的人力,对应的标签萃取逻辑时可以复用的,包含算法的选择、模型训练和计算因子的加权等,但由于不同人来做,造成了很多重复工作。

标签萃取过程复杂,那有什么可以参考的流程呢?

解密OneEntity体系

首先,数据源层面:建设一套完整的数据源,以OneEntity体系为核心,将OneEntity相关实体及其行为全部串联起来,与存量的标签一起作为数据源。

其次,标签计算层面:将标签萃取逻辑沉淀为2种,分别对应到偏好类标签和分类预测类标签的工具型产品的生产过程中,包含计算因子、权重等业务规则、数据样本选择、模型与算法选择等。

最后,标签监测层面:沉淀质量评估报告和生产监测、上线等管理流程。

当一整套工具型产品上线之后,批量生产十几个同类型标签只需要2天左右,这是因为在补足数据源、确定业务规则、选择数据样本、选择算法与模型的过程中,减少了大量的代码开发与模型训练的工作。

在这个过程中,参与的角色也发生了变化,从原本的以数据产品经理、数仓工程师、数据科学家为主导,转变为对业务更为熟悉的业务人员、数据分析师为主导。

3. GRelation全域关系

找到对象的关联关系,当OneEntity代表人时,就可以找出他的亲属、朋友、校友和同事等;当OneEntity代表商品时,就可以找出他的上下游商品/货等。

4. GBehavior全域行为

将与OneEntity相关的实习及行为关联起来,形成一套用户行为体系。如:姓名、邮箱、地址等,这是现实世界中的唯一标志,就像OneEntity代表着你在大数据世界里的唯一标志。籍贯、年龄、政治面貌、宗教信仰等,这是现实世界中的标签画像父母、子女、夫妻等,天生或后天产生的一系列关系,代表着GRelation在大数据世界中的关系何年何月读大学、何年何月第一次参加工作、何年何月获得某项奖励以及证明人是谁等

在大数据的世界里,将孤岛数据实现融通并加以萃取,可以围绕一个主题展开全面剖析。

专栏作家

草帽小子,公众号:一个数据人的自留地,人人都是产品经理专栏作家。《大数据实践之路:数据中台+数据分析+产品应用》书籍作者,专注用户画像领域。

本文原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议。返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-23 08:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

神策数据:构建用户标签体系,解锁精细化运营的无限可能
...述与刻画,让运营人员能够快速获取用户相关信息。标签体系的建设核心是从应用场景和商业目的出发,基于对业务形态和策略的理解,从业务需求反推标签及体系设计,为企业提供业务信息、支持
2024-08-06 14:25:00
用户思维 | 用户标签的构建与应用
...度进行讨论,希望能对你有所帮助。用户标签就像是用户体系的积木。当我们对用户进行数据层面的理解时,标签就是其中最简单的单元。通过标签,我们可以更直观地定义我们的用户。一、用户标
2023-07-16 19:00:00
神策数据:客户标签加工,企业个性化营销利器
...签化的场景需求。基于此,企业可以构建完整的客户标签体系,让客户档案得到进一步丰富。更重要的是,神策数据实时的标签加工能力能够为企业个性化营销策略执行提供精准的人群支持,确保企
2024-08-14 14:11:00
诸葛智能全渠道数智化经营平台,让城商行快速落地“大行级”经营能力
...数智化经营解决方案,构建智能化客户分层、精细化运营体系、差异化场景营销。 致力于让每一家城商行都能拥有“大行级”的数智化经营能力,在零售转型中弯道超车。1、全渠道数据融合,
2025-03-13 13:07:00
文娱行业速看:用户体验与平台收益最大化双赢
...基于OneID实现精准归因;投放后,搭建广告投放分析指标体系衡量广告流量带来的转化效果,构建可视化报表与概览进行展现、点击、消费等数据的分析和效果对比,深度分析广告素材辅助优
2023-05-19 14:12:00
大数据救不了小门店
...、停留行为、购买行为、使用行为等;此处关联文章数据体系搭建:《警惕数据陷阱,用线下触点打造护城河》而用户偏好则是在用户基础属性的基础上,更进一步的挖掘用户的偏好,从而更好的满
2023-05-15 11:00:00
个推数智运营服务升级,助力APP运营效率和效果双提升
...化地进行用户分组分群,构建以用户为中心的数智化运营体系。十余年来,个推服务了数十万的APP客户,涉及电商金融、社交出行、游戏影音、新闻资讯等众多垂直行业。个推深入总结垂直领域
2023-06-06 16:00:00
一场客户视角的资产配置革命,平安私人银行找准财富管理升级脉搏
...集成。平安银行私人银行试图构筑一个“真”的资产配置体系,并且对资产配置这个泛化概念设置了具化含义—— 一个在真正立足于买方视角、充分识别客户需求、服务客户全生命周期的动态资产
2023-08-22 16:13:00
...应当以企业愿景为核心,构建层次分明的数智化营销战略体系。在战略顶层设计层面,需明确数字化价值主张,比如通过用户行为数据分析实现需求预判、产品适配、场景触发的完整营销闭环。中层
2025-06-13 09:56:00
更多关于科技的资讯:
南报网讯(通讯员胡晓靓记者夏思宇)走进南京绿叶制药有限公司制冷站,冷水机组、冷冻水泵、冷却水泵、冷却塔等设备稳定运转,维持药品生产GMP车间的恒温恒湿环境
2025-10-17 08:13:00
聚焦2025中国国际数字经济博览会•现场|打卡数字展馆 体验未来生活
10月16日,2025中国国际数字经济博览会展区工作人员在调试机器人。 河北日报记者 史晟全摄借助VR设备沉浸在古城往事中
2025-10-17 08:23:00
我从事科技研发工作,出生在一个三代从商的家庭。我的祖父是一名民营企业家,在枣强县这片土地上开启了玻璃钢产业创业之路;我的父亲骑着一辆摩托车闯荡天津
2025-10-17 09:11:00
博物馆“抢票”成第一关,中轴线打卡、汉服妆造让历史游玩出沉浸新花样……音乐节、演唱会与国际顶级体育赛事一票难求,“为一场演出赴一座城”成为常态
2025-10-17 09:15:00
新闻纵深·县域特色产业新力量|借力京津,机器人产业双链融合
阅读提示唐山市高新技术产业开发区在机器人新赛道上频频发力,已形成以工业机器人为引领、特种机器人为亮点、服务机器人为特色
2025-10-17 09:19:00
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新最近在金华街头,不少人注意到一组频繁穿梭的出租车广告:“住旭客民宿
2025-10-17 09:25:00
AI EMPOWERS ALL丨神州泰岳亮相中国移动全球合作伙伴大会
碳硅共生,合创AI+时代——第13届中国移动全球合作伙伴大会于今日在广州保利世贸博览馆盛大启幕。神州泰岳作为中国移动长期重要合作伙伴
2025-10-17 09:25:00
内容觉醒·生态共创 | 2025瑞派短视频大赛职人组培训圆满落幕
金秋时节,硕果盈枝。由瑞派股份市场营销中心倾力打造的“2025年度瑞派短视频大赛职人专属赛道培训”在热烈氛围中圆满收官
2025-10-17 09:55:00
市场销售疲软,高档卷烟销售增速放缓,中低档卷烟却因消费需求旺盛出现供应紧张的问题,这是当前卷烟销售工作面临的瓶颈。受计划经济体制影响
2025-10-17 10:02:00
浪潮科技三款平台产品或升级认可
近日,山东省工业和信息化厅公布了拟入选第九批山东省首版次高端软件产品公示名单。浪潮科技研发的“焱宇行业大模型服务平台 V1
2025-10-17 10:03:00
旅服会媒体开放日:全产业链盛会引关注
16日,由中国旅行社协会、中国旅游集团主办的2025首届国际旅行服务大会暨交易展(以下简称“旅服会”)迎来媒体开放日。来自30余家主流媒体
2025-10-17 10:04:00
把听劝搬到线下!海尔智家双11邀500+达人发起智慧科技众测
今年双11,海尔智家把“听劝”从线上搬到了线下,在黄岛东方影都打造了一场规模空前的“智慧科技众测”现场,让“用户声音”与“产品研发”真正零距离对话
2025-10-17 10:07:00
微光照公信:32 名贵州师生北京研学,解码体彩阳光密码
多彩贵州网讯 10月13日,为期三天的“2025微光行动·希望工程”体彩旭日研学实践活动正式拉开帷幕。来自贵州民族大学
2025-10-17 10:15:00
“绽放杯”区域赛获佳绩,5G融合应用助力产业智变升级
10月15日,第八届“绽放杯”5G应用征集大赛山东区域赛决赛及颁奖典礼在济宁落下帷幕。本次大赛以“5G扬帆再启航,智绘齐鲁新篇章”为主题
2025-10-17 10:34:00
小米SU7事故后雷军首度发声!呼吁共同抵制网络水军、黑公关
据澎湃新闻消息,雷军在小米汽车成都事故后首次公开露面演讲。10月16日,世界智能网联汽车大会,小米CEO雷军在演讲中表示
2025-10-17 10:34:00