仿站定制优惠中 --更多类型选择联系-> 服务热线:13025755889
当前位置:网站首页 >> 新闻资讯 >> 互联网资讯 >> 查看详情
新闻资讯
互联网资讯

互联网资讯

如何设计大型商品推荐系统?

来源:惠州网站建设  日期:2018-04-23 14:06:59  点击:  属于:互联网资讯
YouTube和亚马逊,还是优酷和淘宝的重要组成部分,建议他们可能会感兴趣的通过推荐系统的用户内容,用户可以看到更多自己感兴趣的,在逗留更多的时间,服务提供商和网络购物平台上的网页商家谁因此更多的收益。

 

  

  推荐系统是现代互联网服务,YouTube和亚马逊,还是优酷和淘宝的重要组成部分,建议他们可能会感兴趣的通过推荐系统的用户内容,用户可以看到更多自己感兴趣的,在逗留更多的时间,服务提供商和网络购物平台上的网页商家谁因此更多的收益。

  盖坤由博士领导. 阿里妈妈精确定位技术团队在推荐系统的许多研究成果。之前我们介绍了他们的论文的文章,他们的设计深度兴趣网络(浓厚兴趣网络,DIN)更好地利用历史用户行为数据来提高广告的点击次数的预测准确度。

  最近盖坤球队的新纸 "学习推荐系统基于树的模型" 还介绍了推荐系统算法设计方面的新进展。金姬雷锋网AI掏纸的下面介绍的内容。

  

  背景

  对于推荐系统的生产水平,语料库的大小实际上是一个大的选择算法的限制。直观上,推荐系统和用户需要选择最佳的匹配条目从语料库(货物或视频)作为推荐结果。 当小的语料库,各种方法可被选择; 但语料库变大,与该算法的语料库的数量而线性增加的计算复杂度是不可接受的。

  算法协同过滤的推荐算法(协同过滤)是处理早期研究者提出了一种相对小规模的语料库的计算能力,其典型地基于协同过滤算法ItemCF类似物品可以被一对物品度之间预先计算,然后选择一类根据用户的历史行为最相似的项目。这种方法简单有效,已经可以提供的推荐结果的个性化对于不同的用户,但在最好的情况下,它只能推荐其他商品和用户已经看到了类似的商品,没有真正挖掘用户的兴趣,并推荐结果没有小说(毫不奇怪度给用户)。

  随着机器学习的兴起, "学习推荐系统模型" 事实证明这个想法是不仅是可行的,但结果还建议显著进步。从理论上讲,该模型是应该汲取的每一个的 "用户 - 商品" 计算的匹配程度,然后匹配排序计算,推荐商品的最上面一行。学习的模型肯定能带来不错的音质建议,但这样的做法也将带来计算复杂度呈线性增长,用户和商品的数量在一定程度上不能使用。因此,研究人员还提出了一些可供选择的方法,例如建立矩阵分解(矩阵分解)模型中,用户 - 分解成商品和商品的用户矢量矢量,然后两个向量的内积,或程度的距离。这样的问题可以在建议以解决在有限的时间,诸如散列或定量方法的形式来近似找到近似K-最近邻,因此也在工业界已广泛使用。YouTube的介绍他的论文建议系统将探讨使用产生多层网络用户矢量和矢量商品最后内分别计算产品的双向法的。

  但向量积方法仍然大大内限制了模型的能力。例如,点击率(点击率)要求的用户行为和货物过境的特色历史上使用的估计,但大多数功能无法在内部产品的形式来表示。甚至,即使只固定内积计算步骤为多层前馈神经网络可以与推荐结果可以提高。功能更强大,更自由模式仍然看好。

  基于搜索树的深度推荐机型

  在这种情况下,盖坤团队希望解锁计算复杂性的束缚,并建议采用新的匹配技术,允许自由地使用各种型号的大规模语料库,。在论文中,他们提出了一个新的深度推荐的模型(基于树的深推荐模型,TDM)基于树搜索。

  事实上,分层树结构的信息天然存在于各种领域,如在本段中的iPhone产品的类别可被分类在 "手机" 此粗粒产物以下类别。对使用信息,推荐这个问题的层次结构本文提出成一系列分层分类的TDM。从粗采用逐步到细分类过程中,TDM不仅提高的建议的准确性及计算复杂度可从约语料库被减小以增加的数量的线性增加数。

  TDM按键设计可以分为三个部分,新的树结构的设计,神经网络设计的深度,树学习。

  新的树形结构,以降低计算复杂度,降低了搜索的难度

  对于树形结构,它很容易联想到一个熟悉的分层SOFTMAX树,其中每个分支是二分法。 此方不能保证一度导致以找到最佳的叶子,还需要向下遍历整棵树从搜索时间; 另一边,在事实上的场景推荐系统,我们希望能找到更多类似的叶子,层次不添加Softmax适合这样。

  (注:每个类SOFTMAX模式是正比于它们的类别索引键的几率,但需要使用计算特定类的概率,索引项的所有类别的正常化时的标准化项目划分自己的索引项和新增项目。导致多类问题,即使计算的一个类别的概率,计算复杂度也很高SOFTMAX。动机和贡献高等教育层次SOFTMAX是用一棵树来避免甚至采取标准化丢失物品的概率计算的形式,节省了一定的计算类型的计算量。但对于优化检索问题,它甚至不取概率保证的形式,各自找到全局最优贪婪搜索,建议商品大图书馆的最佳商品优化问题仍然需要遍历计算的所有商品。)

  

  的关键是使用如图所示上方的树结构的TDM类似的新的最大堆(最大堆等)(图示例中是一个完整的二叉树,在实践中可能并不)。用户设定u的概率(包括用户身份,历史,行为,等等. )感兴趣的商品的类别NJ表示为P(j)的(n中的第一层节点| U),则每个非叶节点都满足:P(j)的(正|所有子节点u)的真值= n个节点{NC}最大的P(J + 1)(NC | U)通过正则化项α(j)的划分; 正则化项α(j)的效果是使所有的节点J-1和层的概率。

  对于推荐系统,做这棵树的目标搜索是找到k个最大概率的喜好叶。 你可以发现,当你在每一层搜索节点的k个最大概率值,那么只有这个节点k的子节点将继续向下搜索; 最终找到的最高概率值留下第k。根据这样的设计可以不知道每个节点的概率的精确值,搜索过程中,只需要知道订单的大小之间的节点就可以完成相同的水平搜索。因此,作者还根据用户的隐式反馈数据和训练神经网络来识别每个节点,使他们能够优先排序的可能性。

  在训练中,用户实际上相互作用没有节点将在训练中随机选择的负例子部。这种做法被随机选择为另一个优点负例如,与分层SOFTMAX树训练模型来区分随机选择的,使得区分每个节点最优和次优节点负例会已成为全球性区分当前层的装置,甚至当层鉴别出了问题,选择一些不好的子节点,一个新的水平鉴别也有把所有这些子节点在该挑出好的部分的能力。

  通过这样的设计树结构时,处理找到从高的节点为低,则逐步层。对于大小为M语料库,最多只用2 * k的* log M的k个子分公司找到了需要的最终推荐结果,完成二叉树。此外,它意味着你可以用它来降低高两个级车型上的概率计算的复杂性的级别数。每次层层递进只是做了简单的分类设计也大大降低了难度比传统搜索的叶节点。

   另外,作为树结构索引还可以得知,使得产品,其可以被提取到更快的概念; 这也有助于培养模式。作者还提出了一种学习的树结构,并且可以结合训练神经网络树状结构,见下文。

  时间分片输入,具有自动对焦模块的深度神经网络

  

  由点击率CTR研究模型方面,神经网络模型的设计(上图)的作者的深度之前灵感可以在低维嵌入从树上学到,然后,以便与用户行为引人注意模块组合以更好地表征用户。输入网络可接收多个块,每个块包括在不同时间窗口的用户行为。与多层神经网络模块和关注,性能和该模型的容量后,可以大大提高,而且前不再提及表示为限制范围内的载体和向量积。

  树结构学习

  根据以往的设计中,我们学到了好树为整个推荐模型起到了良好的性能起着重要的作用。直接引用现有数据库的一致性或相似性建立一个树形结构可能会导致失衡,这个查询对训练和节点产生负面影响。因此,笔者树建设也有新的设计合理性,可行性和学习方法。

  首先,根据 "类似的商品应该有类似的位置" 树形结构的想法被初始化。 初始树是使用产品的分类信息来构造,以随机的顺序的所有类后,以随机的顺序在同一类一起布置商品; 属于多个商品类别被分类为类中的唯一一个,由此物品的有序列表。然后重复命令做列表分为二,让每一组,直到只包含一种商品,这样就得到一个几乎完全二叉树。这样的初始化方法基于类别层次不是纯粹的随机初始化方法好。

  然后,可以在嵌入式来产生神经网络的树中的训练每个叶节点后的深度,这些载体也可用于插入新的群集树。K-均值聚类的大规模语料库是一个不错的选择。在实验中,一台服务器只用了一个小时来完成语料库四点百万簇的大小成树。

  最后,还可以使用新一代的树木继续训练神经网络。通过交替地产生一个新的树和神经网络训练,训练都将被合并,树形结构,并能够继续优化网络性能。

  型号性能

  在MovieLens-20M数据集的作者,并根据淘宝用户的实部测试。如下所示的数据的大小。

  

  比较参考模型包括参与FM矩阵分解,BPR-MF推荐的隐式反馈矩阵分解,基于ItemCF文章协同过滤算法,YouTube产品DNN。TDM变体包含移除所述相同注意模块,以及使用该TDM产品DNN YouTube产品DNN的方法的产物,仅TDM除去DNN激活模块,并使用分层SOFTMAX TDM注意力DNN-HS树。

  

  这个数字不仅反映提到的测试结果TDM模型的有效性,几个变种之间的对比也体现了巨大的作用,使10%的改善注惠阳做网站意力模块召回率的产品,并取消限制。使用分层SOFTMAX树TDM注意力DNN-HS是最糟糕的表现导致的,而且它是不适合的推荐任务。

  

  我们也提到建议的结果需要有一定的新颖性。图从用户限定的推荐结果被测产品不具有通过类别来进行,如结合推荐精度和新颖性的度量。TDM性能自然一骑绝尘。

  

  对于个别测试学习树还表明,提高它带来的知名度。

  

  作者还测试了在淘宝上的应用程序的实际流量。选择用户基准比较法已经回归相互作用商品集群,这是一个很好的性能基准,以及TDM模式的点击率和广告收入仍然显著改善。这仅仅是TDM执行的第一个版本,后续相信,仍然有改进的余地。

  最后,作者还关注了该模型的速度。对于淘宝的广告显示系统,TDM神经网络平均只有6毫秒来完成的建议,不仅不构成整个系统的建议性能瓶颈,而且比预测模型运行的速度更快随后的点击率。

  结论是

  本文作者首先探索基于模型的系统中使用的大型语料库的推荐方案中存在的问题,提出了一种基于树状结构匹配推荐算法的一个新的范例,希望在推荐系统中应用的任何模型。作者提出树的学习方法和TDM模型测试,以获得良好的性能,召回和新颖性有很大提高。博士盖坤说: "虽然最初的很精彩,但我们知道,这项技术并不完美,还有很多工作要做。并解决匹配问题并不意味着解决了推荐的所有问题。欢迎更多的人探索交流。"

  

  编辑:

本文由惠州欣惠网络整理发布,转载请注明出处:http://www.web1998.com/itzx/444.html

Copyright © 2013-2019 www.web1998.com 惠州网站建设 欣惠网络公司 版权所有 粤ICP备19023339号-1