板榄随固信息门户网

板榄随固信息门户网>科技>构建用户画像中所用到的AI算法

构建用户画像中所用到的AI算法

时间:2019-11-30 19:37:43  作者:匿名  

 本文从标签层次、产品和权重三个方面分析了用户肖像构建中使用的人工智能算法。量化后,用户肖像也被称为用户标签。在机器学习中,我们将以性别明确的用户为数据样本,提取他们的数据特征训练模型。图8-支持向量机

 

本文从标签层次、产品和权重三个方面分析了用户肖像构建中使用的人工智能算法。

谈到用户肖像,我认为产品和操作的朋友都很熟悉。用户肖像是用户研究的重要成果,可以帮助我们做出更好的商业决策和产品设计。用户肖像到产品设计的实现本质上是将数据组合成数据特征,以形成用户的数据模型。

建立用户肖像有四种主流方法:

前两种方法是基于现有数据的,它们的缺点是不能处理数据丢失或不在规则范围内的用户。解决这类问题,也是机器学习的意义所在。它使计算机能够学会像人一样处理问题并给出答案。

本文将与您分享一些人工智能算法,这些算法可以从构建用户肖像的角度来应用,希望能为您提供一些价值。

用户画像往往是定性的,而产品设计是一个将需求从定性转化为定量的过程。量化后,用户肖像也被称为用户标签。

图1-构建用户肖像的三个步骤

我将构建用户标签的三个步骤分开,即层次、生产和重量。理解标签的层次可以帮助我们设计产品架构,熟悉标签生产的方法。

图2-标签层次结构

有两种方法可以划分标签的层次。模式1是一种相对常见的方法,而模式2是基于京东数据分析师荆灵的文章。两种方法结合后,形成下图图3号。

图3-标签级别

标签的每一层都可以理解为对上一层标签的重新细化。参考图3,我们试图理解这四个层次:

来源包括用户的基本信息、交易数据和访问数据,如用户注册的手机号码、用户的历史订单、用户的访问轨迹等。

这是对原始数据进行统计分析后的初步细化结果。

3-1型号标签

它由一个或多个事实标签组成,并且基于模型训练的结果。以模型标签“交易偏好”为例,它是交易商品类型、交易场景和交易来源的事实标签的组合。

3-2预测标签

以现有模型标签数据为特征的机器学习产生的标签。因为预测标签将被映射到模型标签中,所以这两个标签在图3中被放置在相同的级别。

战略标签是用户标签建设的最终目标,根据目标细化用户,对用户进行有针对性的营销。

标签的层次结构在建立用户档案的每个步骤中指导产品经理。在前两个级别,我们需要为丢失的数据建立数据源,清理和修复数据,并构建特性。对于后两个级别,我们需要使用适当的方法来制作标签。

在第一章中,我们理解标签的层次。这个主要讲述标签的生产过程。用户肖像的构建方法不同,制作方法也不同。

顾名思义,这种生产方法通过数据查询的结果根据固定的规则产生标签。这里的重点是如何制定规则。

从数据变化的频率来看,标签可以分为静态标签和动态标签。静态标签更改的频率很低,或者一旦确认,将不会进行任何更改。然而,动态标签经常变化,它们可能会褪色或消失。

以静态标签和动态标签为向下推迟的思路,我们可以将它们分为基本属性和偏好行为,如下文图图4所示:

图4-用户标签的规则分类

这是一个更一般的图表。在实际应用过程中,产品经理可以根据业务定义更多类型。通过明确划分类型,用户标签的生产工具已经成形。

在设置规则时,产品经理应适当抽象,过于精细会增加研发周期,在线后数据查询会有较大压力。其次,可能有太多的筛选条件和不足的数据样本需要查询,导致空资源。

适当的抽象测试产品经理平衡需求、资源和应用程序的能力。以用户访问行为为例,不建议在初始阶段释放完整卷查询。最好将高频率和高强度的查询需求抽象成规则,如产品细节、平台活动、渠道交付等。

基于规则定义和数据统计的两种用户标签构建方法在产品设计中的逻辑相对简单,因此不需要更多的空间来解释。

主题模型首先应用于内容字段,以找到用户的偏好。它将内容分为三个层次:分类、主题和关键词。

图5-基于主题模型的标签制作方法

在用户标签中,我们可以根据分类算法对用户进行分类和聚类,并使用关键字算法挖掘用户偏好来生成标签。

2-1线性支持向量机

线性支持向量机(LSVM)是一种两类算法,适用于“是或否”和“是或否”问题。它属于机器学习中的监督学习。

图6-函数公式

监督学习类似于我们从小就接触到的函数公式,即输出(Y)是根据输入(X)和公式f(x)获得的。假设X是数据的特征,我们可以在函数运算后得到分类结果。

以人口属性为例,非社交应用用户填写自己性别的主动性较低。当我们想知道用户的性别构成时,只有10%的用户填写了性别,而其他90%的用户的性别是未知的。

在机器学习中,我们将以性别明确的用户为数据样本,提取他们的数据特征训练模型。在训练f(x)的功能后,我们将其他未知性别的用户特征代入公式f(x)来预测他们的性别。

功能由模型来训练。线性支持向量机是如何训练的?

图7-支持向量机图

在图7中,我们找到了将象限中的数据分成两部分的直线,而支持向量机找到了具有最佳分割效果的直线。分割效果越好,新数据分类错误的概率越低,这两类在支持向量机中也称为正样本和负样本。

回到线性支持向量机的定义:“对于给定的数据集,可以在样本空间中找到分界线,从而将两种不同类型的样本分开,这条线离最近的训练数据点最远。”

图8-支持向量机示例

在图8中,购买的男性/女性短袖是男性和女性用户的特征,黑点是已知的男性用户,白点是已知的女性用户。

当我们遇到一个未知性别的新用户,但我们发现他买了一个男性短袖,这个用户的数据属于男性部分,所以我们预测这个用户是男性。

当然,在实际过程中,数据的特征绝对不仅仅是简单的二维特征,而且便于大家理解。线性支持向量机在三维空间求解分类效果最好的平面,而在高维空间则是线性函数。

图9-线性支持向量机的目标函数

线性支持向量机求解目标函数的过程相对复杂,线性支持向量机在小规模数据集上表现良好。然而,由于数据量的限制,我们将使用逻辑回归,这是一种更容易训练并且可以实时计算的算法。

2-2逻辑回归

逻辑回归非常类似于线性支持向量机。它们是有监督的学习方法,是不考虑核函数时的线性分类方法。区别在于线性支持向量机基于距离分类,而逻辑回归基于可能性分类。

在理解逻辑回归之前,让我们回顾一下最简单的线性回归。线性回归公式为:y = kx+b。

图10-单变量线性回归的图例

我们假设图10中的直线表示处于均匀状态的人的距离和速度之间的关系。然而,在实际情况下,人类的速度并不恒定。我们没有办法让不同时间的速度通过这条直线。其次,让我们找到一条最接近这些速度数据的支线。

查看图10中的函数图例,您会发现线性回归和线性支持向量机非常相似。线性回归和逻辑回归之间有什么关系?逻辑回归是什么样的分类?

在线性回归的基础上,逻辑回归应用sigmoid函数,它将回归函数的结果映射到sigmoid函数。该函数的特点是其范围分布在[0,1],1和0之间,对应于两种分类的“是”或“否”。随着x值的变化,y值将不断接近0或1,这称为可能性。

图11-乙状结肠功能图例

线性支持向量机中只有两种值:正样本和负样本,逻辑回归除了分类之外还可以表示分类的概率。

2-3文本挖掘算法:tf-idf

Tf表示术语频率,idf表示反向文档频率,我们将在构建用户肖像时将其应用于用户偏好标签的制作。

tf表达的核心思想是文本中反复出现的单词更重要。idf的思想是出现在所有文本中的单词并不重要,idf用于校正tf表示的计算结果。

图12-tf-idf计算公式

上述tf-idf可用于生成用户偏好标签。原则是什么?

我们把一个用户比作一篇文章。用户浏览的产品名称在分词后作为词库。平台上的用户总数是文本总数,出现在该词上的文本数被视为具有相同浏览行为的用户。在这种换位之后,可以进行计算。

图13-用户a的商品浏览记录

以用户甲为例,用户甲有3条浏览记录,分词后共有17个单词。

假设:平台上的用户总数= 10,000,用户浏览过的产品标题中带有“黑色”字样的用户数量为500,基数为2。

图14-带有“黑色”标签的tf-idf

以基数为2,我们可以计算出“黑色”标签对用户的权重为0.52。有了重量,我们可以用它来找到相似的用户。

图15-标签重量计算公式

标签权重的计算公式来自赵洪天的文章《用户标签的标签权重算法》。权重公式的解释如下:

它是指对于同一种标签,由于它们的不同行为,权重是不同的。

例如,用户已经为商品生成了订单,并且根据未支付、已支付和已退款的订单状态设置了不同的权重。

时间衰减系数反映了标签热量随时间的逐渐冷却过程,这源于牛顿冷却定律。

图16-牛顿冷却定律的原始公式

该定律描述了物体的冷却速度与其当前温度和室温之间的温差成正比。在新闻领域,一条新闻今天可能有最高的“温度”,但随着时间的推移,这条新闻将逐渐成为与普通新闻相同的“温度”。

在推导出牛顿冷却定律后,我们得到了以下公式:

图17-冷却系数的计算公式

将公式翻译成中文:当前温度=原始温度×exp(-冷却系数×间隔)

应用于标签的翻译:当前重量=原始重量x exp(-冷却系数x间隔)

例如,用户行为当天偏好的权重设置为1,10天后设置为0.2,即9天后权重将下降到0.2。将已知变量代入图13中的公式,通过指数运算获得冷却系数,从而获得时间衰减系数。

对于不同的标签,时间的衰减因子系数是不同的,有些标签甚至不受时间的影响,所以在计算时没有必要考虑衰减因子。

Tf-idf和公式中的行为频率在前者中已有描述,而后者更容易理解,这里不再重复。标签的权重可以用来找到相似的用户并做出个性化的推荐。如果你感兴趣,你可以阅读我最后一篇文章“如何理解个性化推荐中的数学原理”。

最近,一个提取用户标签的工具刚刚被设计出来。写这篇文章的初衷是回顾这些项目,找出缺失,填补空白。在这个过程中,我读了一些关于人工智能的书,这给了我很多灵感,所以我也添加了一些我知道的算法。如果我有任何错误的理解,我也会请我的朋友给我建议。

本文算法部分主要指:高级产品经理:了解人工智能100例。这是一本非常好的参考书,它为我系统地理解人工智能提供了一个特别好的知识框架。我还向我的朋友强烈推荐这本书。

1.在森林里学习——高级产品经理:理解人工智能100例

2.吴军——数学之美

3.cws_chen—“用户肖像原则、技术选择和架构实现”HTTPS://blog.csdn.net/second中尉/文章/细节/81153565

4.荆灵——https://zhuanlan.zhihu.com/p/34385914的《用户画像》

5.杰克·崔——机器学习实践课程(8):手撕线性SVM·https://cuijiahua.com/blog/2017/11/ml_8_svm_1.html

6.“杂草只存在——逻辑回归模型”算法研究及https://cloud.tencent.com/developer/article/1330810案例分析

7.hffzkl——基于牛顿冷却定律的时间衰减函数模型https://blog.51cto.com/9269309/1865554

8.赵洪天——“用户标签权重算法”

9.刘星辰——“基于文本挖掘的用户画像系统的设计与实现”

10.SVM·https://www.jianshu.com/p/05693f2091b7的创作原则及其衍生

鸡蛋:

第10项,支持向量机的推导过程并不完全成功。愿意演讲的朋友请你吃饭

这篇文章最初是由@wise发表的。每个人都是产品经理。未经允许禁止重印。

主题地图来自unsplash,基于cc0协议。

香港彩app pk10注册 幸运农场投注