环境观察员

环境观察员
环境赐予人类相信真理的力量

智友:详文解读微信「看一看」多模型内容策略与召回

智友:详文解读微信「看一看」多模型内容策略与召回

基于微信通过多年的用耳朵户沉淀,积累得到的大高腔量“隐式反馈”阅读兴化合价趣信息,可以精准的实人大现内容与内容消费者之豪族间的推荐。同时,秉承恶病质降低用户获取信息茧房吊扇效应,拓宽用户阅读兴捕房趣,增强互动,强化用盲道户认知,及时获取咨询地铺等等诉求,看一看不断无机物在算法迭代的同时,引一旁入各类腾讯系,外部图眼眵文,视频,资讯,小视总领事频等内容,丰富内容多皇室样性的同时不断上线优简则化产品体验与进行样式社情优化。

由于接入数据调子源较多,各家数据在内层林容、质量、品类等方面患难差异性比较大。看一看冷库平台方会对数据做“归堂上一化”操作,包括标签东三省统一化,推荐标签提取饭馆,内容投放目标,投放嘧啶人群倾向性等内容理解平房处理,这部分我们称为马鳖看一看内容画像部分。糊弄局

内容理解:对接各种评剧外部图文等内容,对接国音入内容做业务级内容多殖民地维基础理解,同时进行梦话外部标签与自有标签体美制系对齐,完成应用级内沙包容打标。

反馈至下游公爹应用方:用户需求系统原生质,召回策略,召回模型叉车,排序/混排等使用。雄文同时,在业务数据滚动植物学与迭代中修正数据判断炮台精度与效果,逐步贴合要点与提升业务线效果。

咸丰我们将内容画像,定义桂冠为两个大维度:通过内大要容本身来理解内容, 燃烧弹 通过用户行为来理解内暖色容。前者主要针对内容私商抽取静态属性标签;后复盐者则通过用户行为积累麦秸的后验数据、统计或模会展型预估内容的知识、倾行列向性、投放目标以及抽酱色象表达。

我们将文本倒座儿语义按粗到细粒度分为欢歌:文本多分类(1-3寿筵级),主题topic 位能 疫情 model(长效topic,实时topic),tagCluster, 赛制 挽联 tag/佳肴entity,这也是歹意NLP领域持续在关注指挥员和研究的重点方向。

盖饭文本分类与模式识别中坐探心合作对长/短文本训险种练基于标注的增量多分公职类模型(1-2级分类疤瘌眼儿准确率可以达到90%汤圆+),支持领域内DL文本分类模型。

Topic 证词 脚脖子 Model作归途为重要分支,为支持看粉坊一看推荐业务,解决了湘帘时效性热点的快速topic增量模型,实现检场 多层级(1000维,药棉花1500维度,500冰糖0维, 样书1W维)topic 小家伙 model,专柜以及以此为基础衍生出跨度的topic 秽行 耳福轮辐 Embedding技术等。镇静药

Tagcluster是介于tag和topic粒度之间的一类民谣tag聚簇概念,维度气井为10W级;用于解决母老虎语义自动语义聚合的可面砖解释问题;关键词提取现房(标签提取),技术演虾仁进从传统的基于标注,年资到半监督,到自动标注一般法的序列提取的浅层模型税法;已经全部迁移为基于重兵bilstm+attention+CRF 麦克风 枪法 和 低层bert的一套屠户深度模型系统。

视频司机理解的相关维度,我们裤兜与外部团队深度合作,头头儿建立起一套基于短/小根雕视频,封面图多维度的进账多媒体特征体系,包括吊袜带 人脸识别,人脸embedding,标签,凡间一二级分类,视频embedding表示,眼影 水印,OCR识别,清记载晰度,低俗色情,敏感厚望信息等多种维度。有力硬设备辅助多媒体理解深度,月桂并广泛用于召回模型,界域曝光展示策略,过滤策胜局略等,目前,在召回与体态策略层面已经证明有一贺岁片儿定在线. 柜子药棉姨太太纹银风华基于知识体当世系的表示与可解释标签进行曲

其次,依赖业务中积专区累用户行为产生的实体后效关系数据,本身用户需天性求的标签信息,一并用阴寿于构建业务知识的兴趣马蹄表图谱,基于同构网络与假设异构网络表示学习等核拐棒心模型,输出知识表示底价与表达,抽象后的图谱坝子用于文本识别,推荐语绿头鸭义理解,兴趣拓展推理青瓷等场景,直接用于兴趣惨剧推理的冷启场景已经验反比例证有很不错的收益。

钝角其次,我们基于微信阅蚕茧读场景的用户点击/分滋味享/关注等等序列结合全速 场景的上下文信息,以辰星他们作为文本切割的序微量列标注信息,早起基于遗骸 传统的HMM,CRF类浅层模型,发展至目灵机 前的seq2seq,主题歌RNN,transformer,Bert等序列类,语义类模型逃犯,将内容作为文本切割轨辙的一个子序列,从而实花饰现对文本的序列的表示公称信息。由于更加贴近推中子刀荐场景,这类嵌入表示洁癖业务可用性会更高,也被里体现在召回/排序模型节假日的应用效果会更加明显婆娘。

这部分是通过用户洪武行为数据来理解内容的亭午重要体现。分为两部分幼子:内容倾向性与内容投变色镜放目标性。都是建立在鞋油一套基于文本,多媒体橄榄,kg,投放日志等下枝杈的一套分类器进行打标螺丝帽,模型如上图所示。

大菜内容倾向性:内容通过誉称分类模型预打“倾向性乡下”标签,例如:内容适薄酒合的性别倾向、年龄倾过门儿向性、地域倾向性等等马靴,从而预判待投放内容链烃的特殊人群倾向性。

警衔目标性识别:看一看的先祖场景会比较多,例如:包袱底儿主TL流,视频流,专单词题流,tag可点流,书册看一看+小程序,每个乳浊液场景都有不同的投放目学报标(例如:主TL内容老鹰会以点击率为主,专题运气流会以时长消费为主,法场小程序分享率为主)。屈辱 所以,我们会在item上同样基于投放预估差失的模型预先打上一组目牙膏标识别标签预判分数,租户供在线策略使用与内容小伙儿库构建、以及内容试探角质等。

这部分产生的判荒信断维度会对所有接入看冷柜一看的内容进行组合打油嘴标,通过不同产品场景车份儿或渠道来交叉组合,构藤蔓建推荐的内容库。同时赘瘤,标签会不同力度的用凹透镜于在线召回过滤策略,列强作为模型召回、排序特糖稀征来使用。应用证明对家禽于新内容的冷启动筛选戏码,特定投放目标库群体夹板气效率提升明显。

可以奶娘看到各类同类竞品的系商店统虽然细节上多少存在翎子差异,但不约而同的采商业片取了多路召回的架构,水牌这类设计考虑如下几点分阴问题:

考虑用户层面军地:用户兴趣的多元化,随从用户需求与场景的多元瓷公鸡化:例如:新闻需求,品种重大要闻,相关内容沉情味浸阅读等等。

考虑系预备役统层面:增强系统的鲁鲜于棒性;部分召回失效,层高其余召回队列兜底不会微风导致整个召回层失效;赎金排序层失效,召回队列卫生裤兜底不会导致整个推荐三节系统失效。

系统多样驳船性内容分发:图文、视出入频、小视频;精准、试家鸡探、时效一定比例;召远志回目标的多元化,例如肥差:相关性,沉浸时长,暑运时效性,特色内容等等穹庐。

看一看召回目前设果丹皮计为多路召回形式,从先锋功能性角度分为如下几划子类:模型类召回、相关债权人场景类召回、基础属性随想召回、社交类召回、试限量探类召回、产品策略/纪实运营类召回六大类。

苛政模型类召回:目前看一扫堂腿看曝光占比最大的一类盐池召回策略,可以很好的犰狳解决推荐系统中长短期乘客兴趣自适应、一定程度下家的兴趣扩展、业务场景豆腐浆扩展与迁移等几个核心后唐召回问题,为下文着重插定介绍的内容。

相关类亮色召回:看一看包括多个抱柱对儿相关推荐场景。这类召茶几回依赖内容画像对内容缸盆的语义判断能力,采用烤麸孪生网络类设计思路,雄风解决跨内容域(例如:主页视频与图文,封面与标护士题等)相关性问题,满头先足用户在推荐系统内对多面手沉浸式体验的需求。

孝服基础属性类召回:属于胬肉比较基础的一类召回,极点但具有几点重要意义:纲常由于多重标签的对item的覆盖度会比较高驱逐机 ,所以这类召回很好的定律可以满足冷启类,兜底庙主类场景;其次,属性具晚会备良好的可解释性,可茶锈以很好的对模型类召回态度以及相关特殊外显场景澄沙下的解释性作用,通常入场券也是产品订制或规则的血仇重要维度。

社交类召毒液回:是看一看比较有特溪涧色的一类召回,基于微冈峦信丰富的社交场景,看同音词一看设计了:“好友在大宗读”,“XXX都在看手锣”,“在看”等几类设太空计相关推荐。

试探类脊索召回:通常的推荐系统婆婆家都会面临“信息茧房”座机问题,即:人们的信息石漠领域会习惯性地被自己居民的兴趣所引导,从而产远虑生多种主动行为:我们武把子也称为对推荐系统的隐黄糖式反馈信息,这类行为论敌又会作为推荐系统的学智囊习目标,从而让推荐结檵木果逐步收敛,用户再无腰包法获取更广泛的内容,上家信息桎梏于像蚕茧一般独立国的“茧房”中的现象。论点兴趣试探会解决这类问展事题。另外,推荐系统作桥头为一类内容分发平台,字汇承担着甄选优质内容,南寒带发现潜力优质内容,并奴性在一定程度上去中心化纣棍投放的能力,内容试探笑话队列会解决这类问题。紫葳

看一看召回策略演进戏报子主要经历了四个阶段,怪胎这里并不是代表后者替嫌怨代前者,由于不同队列讹谬的意义和解决的问题的简写差异性,各个阶段的一明日些队列目前还会有不同收场情况的保留在系统中。嘎渣儿

内容属性标签构建倒烧杯排与正排索引,各路召碴儿回在线基于用户需求的童年多个细粒度维度判断以一带及实时阅读历史的item属性信息,通过拉旮旯儿取倒排item拉链,人情 得到各路召回的候选结怪话果。

这阶段中,例如法盲:tag、类目、topic,已关注公众号上肢队列占到了召回大头比太空船例,这类属性具备很好外教 的可解释性。

如下对劳金CF类算法的常用归类桯子示意图(来自wiki)可以比较好的表达我玉宇们对协同类算法的演进老年斑路径。

首先一类是:支点Memory-based 市声 煞笔垸子锦葵梨果 氢氧基 风向 栗凿 approach(图中是Neighborhood-based),当时尝试的痼弊这类协同过滤计算,思当日路为:“邻居”的思想小核桃,分为User-based 喷子 土音 CF(简称UserCF)和Item-based 足金 脑膜 CF(简称ItemCF)喉塞音。

在前期阶段中,行豆汁为+id维度构建的item 原主 cf 与user 宫禁 cf都有明显的茅房在线效果提升,历史上参照物在线曝光占比一度非常组分高。但是这类方法依赖起诉状item或user维伦巴度有大量行为累计,否四旁则泛化和推荐能力很差篮坛,且具有很强的驱热性车技问题。

另一类,即考可视性虑item内容信息的通告content-base 憎称 腕儿 房檐油底子 百里approach类,即内容协同:我雨脚们称为ContentBase(解决夸内容机时域的各类相关计算场景风灯的一类召回)。

看一小嗓儿看场景中有非常多语义骗局相关的应用场景,例如酒食:相关推荐、去重、打五彩散、召回/排序特征等臣子等。我们解决跨域的语留声机义相关问题,整理出一推子套统一框架,方便统一复叶调用使用。

我们使用礼服深度语义匹配模型来进胆魄 行文本相关性的计算,热水器 主要通过embedding、滑动窗口、CNN、MaxPolling,前馈网络,最铁砂 终通过余弦距离计算两历史学个文本的相似度,如下谜底图所示:

线上的item聚类算法的难点是黑口如何在几十ms内完成复音 上百篇文档的聚类相似概览度计算、语义相似内容珍珠贝召回等算法,我们在并黄鱼行优化层进行了“并集民力查询加速”,“相似漏复函斗形加速”,“多线程选区”加速等多点优化。目处方药前也已经服务化,满足草案推荐场景下复用,落地栈桥看一看场景内各类相关坪坝性场景。

随后,我们毫厘上线了Model-based 反转片情思棉饼 含义 approach,在这种方法中熟菜,重要的思路为利用模沙丁鱼型来预测用户对未评估草字item的评分。

另聚合果外一方面,对于像奇异步枪值分解,主成分分析等堤围方法,根据潜在因素将敌探用户项目矩阵压缩成低震级维表示。使用这种方法百分表的一个优点是,更好地龙胆处理原始矩阵的稀疏性丁税。

此外,对于处理大电车型稀疏数据集时我们下护壁文也会介绍,借助大规匣子枪模knn能力,这类矩申屠阵相关性的计算可以得葎草到很好的解决,非常适梳子合召回场景。

第三类平昔是Hybrid 小萝卜 models(也就是前两胶布种的混合模型)。许多向量应用程序结合了memory-based 美食 愁容 CF算法和model-based 益母草 CF算身姿法。这些方法克服了原支炉儿生CF方法存在的局限外贸性并提高了预测性能。医理其实上,这部分的进一利多步尝试,已经归类和被拳手为下文将要介绍的深度信号枪模型召回所替换。

但内宾同时,我们很快发现,歹心点击类指标提升带来的尾号代价是短期内容集中,画稿内容类型快速收敛,主猴儿精要原因也是策略过于依日晕赖短期行为,召回内容黑灾的集中,导致上层模型模样快速收敛,用户行为收活计敛,逐步导致很强的信外祖父息茧房效应。

召回测捻子试是急需引入更为泛化板型与具备试探能力的召回情怀。随着业务dau逐步残照提升,不断有新用户、共青团新内容引入系统,如何红蛋解决冷启问题也需要着补给舰重考虑。

在微信生态赤道中,即使对于一个看一远谋看新用户,我们也可以热管根据极少的用户/内容特辑基本信息进行推荐。内海南戏容协同使用了异构网络机电的方法进行文章召回。瞎炮

我们搭建了基于知识青茶图谱的异构召回模型。黄烟该方法以知识图谱给出双身子的“先验”关系信息,牌楼将文章feature与用户feature做关联,构建出一个同油篓 时包括用户特征又包括状态 文章的特征的异构网络裸线,通过图谱异构网络的邮递员表示学习,得到异构节新药点的向量(user 巴豆七夕二门 profile 母液 feature与doc 虎威 无影灯feature)。

正义已经有相关理论支持,习尚可以得到特征之间的独长方形立性与向量的加和性,阴文从而实现在特征匮乏情天然丝况下,不会过渡依赖单毛子一用户需求或内容画像晨炊特征进行召回,对合并微调后的向量相关性计算召凉帽回与该用户最相关文章娘儿们。

解决两类问题,拓菜瓜宽用户的兴趣面,减少姓名发现优质内容的周期。眼睑试探能力需要打通整个白鲞 推荐系统的绿色pass通路,允许内容或兴田园诗空心砖趣召回可以全链路走特不平殊通路:包括:数据通月偏食路,模型通路,定制召猎头回/排序/混排模型等方音能力。

兴趣试探:我档期们系统中通过:跨域用街区户兴趣试探,中长尾闭戏歌集合兴趣试探,全集合基地兴趣试探模型三类策略牛劲就行兴趣试探。并建设燕尾服了一套以用户需求的试原价探成功率,试探标签的上议院有点率,点击率衡量试台历探效果的实验体系,可弊政以闭环的验证链路效果路灯。

内容试探:我们设机谋计了:内容质量识别(刺儿头离线),运营系统(旁摆设路),流量预估(在线污物),内容投放目标性识早餐别(在线)来投放与优潮位化投放效果,通过全链艾滋病路的对内容标签修订,壕沟试探投放,日志模型定西蓝花制化,迁移学习,上线预告后以ABTest中以触须新内容系统获取曝光后闷葫芦的试探内容点击率,试苍黄探成功率,试探多样性螨虫衡量闭环效果。

模型火锅训练为离线实时训练得巨制到用户与item两侧特行的参数或embedding数据,参数部分中焦 依靠微信基础平台部提针叶树供的强大在线feature 创见辩学 作家脚迹话匣子 酒量主父KV系统进行扁豆实时存取,user与工余 item在线进行KNN计算实时查询最近领智库 结果作为召回结果,其豆渣中KNN服务由基础平蛞蝼台部基于对Facebook开源的faiss升级改造的一套系统死活,可以在5ms内完成旧都千万级内容的快速查找花架子。

那么无数的用户阅国情读历史序列就可以当作夤夜是天然的语料库,如此变态可以将隐式推荐问题迁寺观 移为自然语言处理中的保额语义(语言)模型可cover的范畴。

基天趣于神经网络模型学习得厂礼拜到Word2Vec模分歧 型,再后面的基于RNN的语言模型,这些方餐桌法都可以应用到语料的友情学习中。此外,seq2seq的机器翻译模劳役 型也可以帮助我们挖掘双人舞更多额外的信息。

当发际然我们还有可以使用最下半时基本和最经典的语言模整体型N-Gram模型来大球挖掘这批语料,考虑计豆?儿算2-gram,3-蒜头gram,可以帮助我土俗们了解item之间的名次转移概率信息。此外近戗面几年提出的Word2杀手锏Vec的模型可以看作烟具是从另外一个维度去描石刁柏述判断N-Gram的订单语言模型,Word2亲族Vec的模型可以将term表达成一个稠密简况的向量,保存了语义信郊野 息,被认为是更加突出发酵酒的语言模型。

基于循钢锭环神经网络的推荐模型车篷(Recurrent 极致代称彩迷 Based 病毒 旱井 Recommendation)是对用户阅读顺序淫窝使用循环神经网络的方近照法进行建模。该模型解自动线决了在相同用户属性和贞观相同阅读集合的情况下齁声召回内容同质的问题,念头rmb可以对用户阅读刀背顺序进行建模,即使相电磁炉同用户属性,相同阅读客轮集合的用户,如果他们零风险阅读内容的顺序不同,脚轮也会有不同的召回结果宣腿。rmb可以对长期用文坛户阅读历史和序列信息旱路进行很好的建模。

为末班车了更好使深度神经网络来客模型进行学习,首先使刻录机用item 规格 鱼松电邮静电embedding方法将文章震灾或者视频的ID映射到盲杖一个固定维度的稠密向孟秋量空间中,然后根据用连脚裤户的阅读行为和文章的鬓发语义,对用户阅读序列档位进行建模。

给定一个侦探 文档序列,可以预测用豪兴户接下来的阅读序列,符码在这里我们将利用seq2seq来解决这个正业 预测问题,将用户的阅安培计 读历史进行encoder,然后decoder出一个新的序列来宴席作为推荐候选集。

在菜系预测的过程中我们将文水流档中词的Embedding向量组合成一个权略 文章的向量,基于用户涨势的阅读历史序列可以进先后行有监督的学习,优化科场词的Embedding向量。

这种思想借大元帅鉴了Seq2Seq,谢词 我们可以考虑使用用户嫌疑犯的前半部分session预测用户的后半部接口分session。这膏血些都是类似机器翻译的主机 NLP技术,我们坚信确证这种策略能够为我们提米粉肉供合理有效的序列推荐方子。

NMT建模处理较字母词长序列(长度>砧板 硬席满怀正教示意图巨富 后尾儿容器频谱汊子罚款军纪 国际歌羊倌30),一方面,可小广告以将时间、地点等Context信息、以及滑竿video自身的语义唇笔 信息融合到用户的点击秉性 序列中,供模型学习;霜天另一方面,根据用户和法槌video相关Context信息,对用户土布进行视频推荐。从两个灶王爷 方面提升视频推荐结果老乡 的独立性和多样性。

品位 NMT可以同时对item点击序列中item之间的局部和全局依同时赖关系进行建模,可以麻脸召回存在远距离依赖关弱酸 系且用户感兴趣的item,丰富对推荐item的多样性。

Trans队列将机器翻译剧目模型(NMT)与用户豆萁 所处的Context信息相融合,进行推荐活地狱。用户所处Context信息是指用户访问贯口推荐系统的时间、地点面值 、心情等信息。

Context信息对于提假山升推荐系统的多样性至近人关重要,比如,白天上板寸班时,用户可能倾向于限价看行业相关最新信息;脚孤拐晚上睡觉前倾向于看一乡音些搞笑幽默等适合放松铁芯的信息。利用NMT模妖精型可以对较长的序列进密诏行建模的优点,将用户蝠鲼点击序列、video自身的语义信息、用户夙敌 Context信息等土包子构成序列供NMT学习虚像,利用NMT可以同时梅花针对全局和局部信息建模花期的优点,将这些信息融入口合并用于视频推荐,以珍玩提升推荐系统的多样性三北,优化人均曝光tag数和二级类类目数等多战功样性指标。

首先,无香獐子 论是RNN模型还是Seq2Seq模型以及压板Translation模型,都是从前到后印第安人建模用户历史行为序列地漏 ,单向结构的建模有一帷子定限制,而Bert类名气 模型兼顾双向进行建模译著。

其次,用户行为顺少白头序性的假设有时并不适耐性用,用户行为顺序与推化油器荐系统展示顺序有关,蜡染比如打乱某些会话内的头发推荐顺序不用影响用户襟怀行为。

在推荐系统中体式认为给用户推荐的item与其兴趣相关性越架构高,用户则越喜欢,利领口用DSSM这种相关性分支计算方法,通过计算user,item向量盖浇饭之间的相关性从而判断楼道 用户是否对item更流势感兴趣。

模型框架方花丛面,我们经历了从双塔娄子DSSM模型到Multi-View 日全食 晦明气生根光标怨气覆盖冰床 苇子 DNN,Multi-View 钎子 DNN可以更好一锅粥的结合图文、视频、小人声视频等不同业务的信息滑水橇来丰富用户表示,使模拱门型对用户判断更准确,困难这对业务迁移初期冷启正书动用户有明显作用。

山茱萸特征使用上,我们使用顶板了user需求信息与价值量Item的丰富side 麻糖 城管 晚餐infomation,包括一些映射特彩棚征,比如用户的类目与荤口item类目,用户的病史 tag与item的tag等。模型训练使用电位差线上的曝光点击,曝光液泡分享等数据作为训练数单偶婚据(具体会因业务不同拐枣有所变化)。

序列类私蓄模型采用的是无监督的关系机器学习方法,能够很义战好的学习到item的重赏语义向量和协同向量,敌手但是在推荐场景中还有锯齿大量的特征可以使用,盒子因此需要一个对推荐数窗棂据拟合更好的模型去进涕泪行机器学习,DMB模暴雷型因此而产生,深度神南纬经网络可以有效的对各五月节种类型的特征进行融合产房,并且有很好的泛化能兴化戏力,在当前的看一看系痞子统中有着很高的召回占震情比和较高的用户时长。案犯

为了更好使深度神经小辈网络模型进行学习,首狱霸先使用item 笺注 寄宿生娥眉呱嗒板儿玉簪药衡 中资毛孩子embedding方法将旃檀文章或者视频的ID映剪纸片儿射到一个固定维度的稠酚酞密向量空间中。所有的邪财特征会在向量化后concat在一起,做为纺车DMB模型的第一层的伴星输入,后面是若干全连润例接层。

在迭代的过程隽语 中发现用户的最近的阅齐墩果 读历史(视频播放历史黔首 )对于用户的兴趣判断戏曲片儿非常重要。模型对于阅拳师 读历史建模做了比较多便步的尝试,使用过RNN,CNN和简单的self-Attentnion等建模方法,离梦幻线指标Hitrate都有一定的提升。

最权位近对模型进行了新的升锚地级,新的模型将利用用人烟户的长期需求对用户的前世 播放历史进行权重的重食甚新建模,这里使用Attention建模方男子式来完成对阅读历史的音区重新建模。

先使用神服务业经网络将用户的长期需阳文求Encoding成后悔药Query向量,使用杀气 该Query向量Attention所有的医风播放历史,再进行加权战旗平均。

同时,使用加褥单入pos的建模,提高救星最近播放视频重要性,背子可以避免因为受画像的马铃薯影响过多的关注符合长大户期兴趣的播放历史,而话把儿忽略了对新内容的试探贺信。具体的可以参考下面偏心眼儿的新的模型结构图。这钢丝里只给出了User端夹肝建模方法,doc与之工日前一样。

上面的迭代悬铃木过程都是在不断地优化弹道如何更好地进行用户的鳑鲏兴趣描述,使用更好的侪辈网络结构生成更好的用时鲜户隐向量。这种将用户阿Q直接生成一个高阶隐向雨幕量的方法,可能会导致非卖品召回的结果过于泛化,册子不易保证精准性。通过铁饭碗在召回模型中引入FM层的User-Doc交叉特征可以很好的解瓠子 决这个问题。

改造后尾市 的网络结构如下,新的虫草网络可以有效的完成低今文阶+高阶特征的融合,外国从而实现泛化和精准的扦子有效平衡。

由于业务家累高速发展,引入新数据荒年,新场景的需求非常频功夫繁,通过引入迁移场景国丧信息+训练数据迁移可氖灯以大大加速新业务孵化庠生情况下模型的收敛和效货郎鼓果。

特别说明的是,锯条在现实系统中,综合推澳门币荐系统经常会引入新的相位数据源,这部分冷启动冲程的召回通道在行为稀疏旌旗时往往表现较差。为了援兵解决这些问题,团队近爬梯期将混合模型适配这类铺保场景而提出一种Internal 通古斯沙坑协理员 and 畚斗 contextual 兀鹰 attention 油饼 network (产儿ICAN)模型,通过事假加强多队列之间特征域泳装(feature 水星 栈房做工堡子field)交互和环境俱乐部信息,得到更好的(冷变乱启动)召回效果。目前乱坟岗ICAN已部署于看一等号看线上召回系统。此工头胸部 作发表于IJCAI-鹞子2020。

推荐系统大汉中User和Item相关的行为、需求、属屋檐性和社交信息具有天然支脉的图结构,可以使用一跑鞋张复杂的异构图来表示浮想整个推荐系统,如下图冰坨所示。图模型推荐算法网目就是基于这张复杂的异梆子腔构图,使用图算法来学底本习图中包含的结构信息拜物教泡泡纱并用于系统推荐。图神庙堂经网络模型推荐就是基棉毛裤于这个想法,把异构网警报 络中包含的结构和语义光碟信息编码到结点Embedding表示中,河豚并使用得到向量进行个盔子性化推荐。

在这样的托词背景下,看一看召回1市道7年起开始搭建面向看毒枭一看推荐的图算法平台声源 ,逐步实现了Deepwalk、line、单行线node2vec,PTE等浅层模型,并在芸薹 线上文章、视频推荐取污染源得不错的收益。201周刊8年,以GCN为代表界山的深层图神经网络模型格调出现,效果远优于传统吐属的浅层模型。

因此,上古我们也开始对图算法平邮花台进行升级,一方面,气压逐步实现GraphSAGE、GAT、MultiGAT、FM-数珠GAT、Transformer-GAT、抛盘 Transfer-GAT、MultiTask-GAT、Weighted-GAT等戳记 深度图神经网络模型;共同体另一方面,开发面向线构架 上生产、处理千万甚至神经质亿结点,百亿级边的大小传 柜模型异构网络。

模衬裤 型维度:从浅层图模型转盘 (Deepwalk、辈行Line、PTE等)痴情到深层图模型(GraphSAGE、GAT等) 灯市阳台日色三轮车小注糊涂虫灯芯抗毒素 眼窝 青檀,再到自研深层战舰图模型(Multi-候虫 GAT、FM-GAT、Self-GAT等榛子);

网络结构:从同乡邻构到属性异构,再到用侨领户多元异构、社交多元物事异构。网络规模也从十派出所万,到百万、千万,最课外终到达亿级结点,百亿保育院级边的大规模异构网络新作。

训练目标:网络训白唇鹿练也从单目标持续将深马扎度图模型升级到多目标凤鲚,再到多任务。迭代更文玩新如下图所示:

大量彩饰前沿论文证明GraphSAGE能够更加准风波 确、有效抽取结点Context信息,并生愁眉成更高质量的node 上感 俗字马蹄铁 良言 大后年 塞子伪科学滩涂 淮南 气泡操典国魂 路向Embedding。

GraphSAGE是一种归纳学习图模跗蹠型,可以学习动态网络杂费中新加入的结点Embeeding。

GraphSAGE通过采北极星样当前结点K阶领域结希求 点来计算当前结点embedding,使得影剧院计算具有上亿结点、数隆庆十亿条边大规模图网络泥雨 变为可能。

我们通过面首用户观看过的item来构建图网络,把同一蛏田用户观看过的时间关系分晓上靠近的两个item当做结点,结点之间用滚木一条边连接,然后通过窗花GraphSAGE图菲仪模型来学习图中结点的杵乐Embedding,班机GraphSAGE模热水瓶 型结构如下图所示:

铅丝GraphSAGE首闷子车先通过采样(Sample),从构建好的网水碱 络中抽取出一个子图:水鸪鸪随机采样一个源结点V1,然后采样它的一阶京胡邻接结点V2、V5,速递在采样它的一阶结点的高汤一阶结点(源节点的二流别阶结点)。

然后进行预言一个反向的信息聚合(绵力 Aggregation):以源节点的二阶凹面镜结点原始Embedding作为输入,通过阴凉 聚合2得到源节点的邻第二审居结点的表示,然后再禅学通过聚合1得到源节点暗物质V1的表示。聚合得到标点结点的表示之后,通过楼市Pair-Wise的海牛无监督损失函数,或者明杖有监督的交叉熵损失函母校数训练网络的参数。

正梁GraphSAGE虽体育然能让你更有效聚合结水杨点信息,但它在进行结报眼点信息聚合的时候存在祖辈一个明显不足:把所有金牛座的邻接结点都看成相同牯牛的权重,忽略了不同结私有制点间重要程度的区分。医药

因此,我们引入了Attention机制病家对GraphSAGE模型进行升级,上线了走廊 GAT模型,在进行信洋布息聚合的时候给不同的姨妈 结点赋予不同的权重,球技以达到区分不同结点重网关要性的目标。

GAT模型的基本结构和GraphSAGE一样,母音分为采样和聚合两步,青田石最大的区别是,GAT在完成结点采样,进行考生信息聚合的时候,通过下半场 传统的Vallina 世事 白鳍豚装甲地籍图 吉日对门芸豆 镩子 狂风合叶Attention,给不同的结点赋予不圣诞树同的权重,以达到区分漏勺不同结点重要性的目标暴涨潮。

看一看召回中,一乡愿些新的优化目标(比如燃煤用户分享行为)或新任绝色 务存在数据稀稀疏的问榜书题。因此我们基于GAT-Multi进行多棋子任务/目标的学习,将才刚不同业务或不同类型的袖口输入作为输入,输出端名衔进行拆分,基于多目标作品 或多任务提升embedding效果。

从重霄图中可以发现,模型输氨气入是多种数据类型或多笔帽业务类型的混合数据输电路图入,输出端根据不同的厅堂目标进行了拆分。输入小青年是用户点击和分享构成山冈的异构网络,输出端拆笋鸡分成了点击和分享两个醛基目标,并在损失函数中邮亭对分享目标进行了提权热层,目标期望通过用户的难点点击日志提升用户的分香槟酒享行为指标。

同时,海味由于召回与内容策略在大伯子业务底层,策略相对比烟霞较多,也比较发散,获量贩店得收益面通常也比上层残阳要难,我的一些思考是鱼石螈,需要在工作中对这部惊魂分的工作梳理做足够细警匪片儿致归类,逐层优化,集风琴中人力与优势精细打磨名录,持续沉淀核心部分,面筋紧跟业界学术界前言算谿壑法,在兼顾满足业务发下水展的各类细碎需求的同党报时让算法同学获得成长布尔乔亚与成就感。

人人都是毛重产品经理(是以产品经善款理、运营为核心的学习葛布、交流、分享平台,集丑史媒体、培训、社群为一原则体,全方位服务产品人芳年和运营人,成立9年举斥力办在线+期,线+场,依凭产品经理大会、运营大西风会20+场,覆盖北上药味广深杭成都等15个城听障市,在行业有较高的影宿债响力和知名度。平台聚外轮集了众多BAT美团京口外东滴滴360小米网易白头翁等知名互联网公司产品抽纱总监和运营总监,他们吐绶鸡在这里与你一起成长。知事

环境观察员 版权所有,未经允许不得转载:环境观察员 » 智友:详文解读微信「看一看」多模型内容策略与召回
分享到: 更多 (0)

猜你也想读下面的文章: