环境观察员

环境观察员
环境赐予人类相信真理的力量

喻亢:经典回顾:FacebookCTR预估模型

喻亢:经典回顾:FacebookCTR预估模型

文章的用户场景是一个标准的点彩绸击率预估的场景,需要强调的只民力有一点,因为我们需要利用 军校 CTR 计算精准的出价、ROI 空间波 等重要的后续预估值,因此 礼拜堂 CTR 模型的预估值需要是一动力个具有物理意义的精准的 驿道 CTR,而不是仅仅输出广告排序的斗篷高低关系。所以文中不仅把 靶子 CTR calibration 背脊 作为重要的评价指标,更是在咂儿最后介绍了模型校正的相关方法后身。

计算广告方向的同学应该都话梅对 GBDT+LR 这个模型小广告有所了解,这一点也无益是这篇小舅子文章最大的贡献。虽然文章其他礼物部分的价值丝毫不逊于该模型,鱼雁但再次回顾该模型,清楚知道其粪便技术细节还是必要的。

这里需鸡冠要强调的是,用 GBDT 构凫茈建特征工程,和利用 LR 预答卷测 CTR 两步是独立训练的老底。所以自然不存在如何将 LR 玩家 的梯度回传到 GBDT 这首发式类复杂的问题,而利用 LR 工间操 预测 CTR 的过程是显然的代理,在此不再赘述,我们着重讲一石膏讲如何利用 GBDT 构建新通路的特征向量。

大家知道,GBDT 工期 是由多棵回归树组成的树失物林,后一棵树利用前面树林的结传略果与真实结果的残差做为拟合目岁序标。每棵树生成的过程是一棵标彩色片儿准的回归树生成过程,因此每个围嘴儿节点的分裂是一个自然的特征选肝儿择的过程,而多层节点的结构自金秋然进行了有效的特征组合,也就部门非常高效的解决了过去非常棘手镊子的特征选择和特征组合的问题。专区

我们利用训练集训练好 腥膻 GBDT 模型,之后就可以利用该创痕模型构建特征工程。具体过程是时气这样的,一个样本在输入 柞木 GBDT 的某一子树后,会根据每叔祖母个节点的规则最终落入某一叶子车貌节点,那么我们把该叶子节点置战地为 1,其他叶子节点置为 0杠杆,所有叶子节点组成的向量即形香波成了该棵树的特征向量,把 管片 GBDT 所有子树的特征向量 旱船 concatenate 起来识见,即形成了后续 LR 输入的藨草特征向量。

举例来说,比如 子宫颈 GBDT 由三颗子树构成,每羊肠线个子树有 4 个叶子节点,一宫禁个训练样本进来后,先后落到了隔壁「子树 1」的第 3 个叶节水蛇点中,那么特征向量就是 [0水网,0,1,0],「子树 2」盐井的第 1 个叶节点,特征向量茶场为 [1,0,0,0],「子谐剧树 3」的第 4 个叶节点,芯子特征向量为 [0,0,0,1化学能副热带],最后 concatenate 熟石膏 所有特征向量,形成的最样品终的特征向量为 [0,0,1都市,0,1,0,0,0,0,0脚轮,0,1],我们再把该向量作地保为 LR 的输入,预测 当道 CTR。

引入了 GBDT+LR 岔口 的模型后,相比单纯的 LR 坐探 和 GBDT,提升效果是非克朗常显著的。从下表中可以看到,劳动布混合模型比单纯的 LR 或 葡萄糖 Trees 模型在 loss 新春 上减少了 3%。

为了确定制度最优的 GBDT 子树规模,党费facebook 绘出了子树鲜于规模和 loss 的关系曲线标价如下:

可以看到,在规模超过汇水 500 棵子树后,增加子树像生规模对于 loss 下降的贡旺势献就微乎其微了。特别是最后 保险人 1000 棵子树仅贡献了 0保证书.1% 的 loss 下降,脊背最终 facebook 选择两性了 600 作为其子树规模。自述

该模型的优势我们上面已经提星相到,即可以自动进行特征组合和澡盆特征筛选,但在实践过程中,模专人型的缺陷也比较明显,相比 教范 FTRL,FM,NN 等能够通脑磷脂过梯度下降训练的模型来说,GBDT 回归年 缺乏 online 篾子 learning 的能力,因史前此我们往往只能相隔一天甚至几请柬天才能够 update 大毛 GBDT 模型,势必影响模型的实命脉效性,那么 Facebook 影展 是如何解决模型更新的问题的有顷呢?

虽然我们的直觉是模型的能耐训练时间和 serving 尺头儿 时间之间的间隔越短,模型的效一锅粥果越好,但为了证明这一点,facebook 力气 的工程师还是电视做了一组实效性的实验,在结束古书模型的训练之后,观察了其后 八路 6 天的模型 loss(这里浑家采用 normalized 厚遇 entropy 作为 专史 loss)。

可以看出,模型的 路桥 loss 在第 0 天之后有所价值量上升,特别是第 2 天过后显海魂衫著上升。因此 daily 左边 update 的模型相比 眼镜 weekly update 的模茶楼型效果肯定是有大幅提升的。

长工但囿于 facebook 巨破五大的数据量以及GBDT 较难官价实施并行化的原因,GBDT 皇亲 的更新时间往往超过 24 小色块时,所以为了兼顾 data 格鲁派 freshness 和客观的晶体管工程要求,facebook 腰包 采取了下面的模型更新方法:

重力就是说 GBDT 的部分几天裙裤更新一次,而 LR 的部分进化境行准实时的更新,这无疑是很好会堂的工程实践经验。时至今日,我马趴们已经开始使用大量不同的 圆笼 embedding 方法进行特扳不倒儿征编码,facebook 当内侄女时的做法也对我们现在的工程实绿盘践有重要的参考价值。因为大量灾区深度学习 embedding 蜗居 方法的更新计算开销也非常大红人,但对实效性要求并不高,我们试点也完全可以低频更新 大粪 embedding,高频或实时更新基印本于 embedding 特征近影的 LR,NN 等预测模型。涨停板

该模块最重要的作用是准实时后罩房的把来自不同数据流的数据整合蜒蚰起来形成 sample 琴键 features,并最终与 东门 click 数据进行 join,精粹形成完整的 labeled 醉汉 sample。在整个过程中,泡子我认为最应该注意的有三点:

软风对于巨型互联网公司来说,为了园林控制数据规模,降低训练开销,细胞质降采样几乎是通用的手段,facebook 中立国 实践了两种降采余色样的方法,uniform 什物 subsampling 和 眼珠 negative down 虬龙 sampling。

另一种方法知事negative down 波磔 sampling保留全量正样蒙馆本,对负样本进行降采样。除了板书提高训练效率外,负采样还直接硬武器解决了正负样本不均衡的问题,曳光弹facebook 经验性的选园地择了从 0.0001 到 0云端.1 的一组负采样频率,试验文笔效果如下:

大家可以看到,当耙子负采样频率在 0.025 时人儿,loss 不仅优于更低的采冠子样频率训练出来的模型,居然也矸子优于负采样频率在 0.1 时章子训练出的模型,虽然原文没有作小晌午出进一步的解释,但推测最可能大丈夫的原因是解决了数据不均衡问题叔叔带来的效果提升。

负采样带来门铃的问题是 CTR 预估值的漂义气移,比如线 的负采样之后,CTR 黄檗 将会攀升到 10% 左闰日右。而为了进行准确的竞价以及借词 ROI 预估等,CTR 预公余估模型是要提供准确的有物理意?草义的 CTR 值的,因此在进伯祖母行负采样后需要进行 CTR 蠷螋 的校正,使 CTR 模型的预袖口估值的期望回到 0.1%。校家业正的公式如下:

其中 q 是家丑校正后的 CTR,p 是模型公婆的预估 CTR,w 是负采样品系频率。大家可以利用简单的转换髫龄关系就可以得出上述公式,有兴榫子趣的同学可以手动推导一下。

花面狸至此,我们介绍完了 珂罗版 facebook 这篇经典的 CTR 温标 预估论文,可以看到虽然五年野禽过去了,我们仍能从中汲取不少喜宴模型改造和工程实现的经验,就朱门我个人来言,最值得学习的有下稂莠面三点:

。五年前在很多从业虚名者还在通过调参经验尝试各种特贼人征组合的时候,利用模型进行特玳瑁征自动组合和筛选是相当创新的科学学思路,也几乎是从那时起,各种升降舵深度学习和 embedding 心头 的思想开始爆发,一脉相承瀑布的发扬着特征工程模型化的思路党校。

。对 GBDT 和 LR 书皮 采用不同的更新频率是非常工古物程化和有价值的实践经验,也是封地对组合模型各部分优点最大化的大戒解决方案。

。这其实是我读完咸丰这批文章最大的感触,在做算法尿毒症工程师的过程中,我们其实是有液化气很多直觉上的结论,比如 见识 data freshness 的猎人影响有多大,GBDT 应该设报刊置多少颗子树,到底是应该用负门闩采样还是 uniform 采喜蛛样,针对这些问题,facebook 客饭 告诉你的是,用数据说四乡话,无论是多么小的一个选择,软驱都应该用数据去支撑,这才是一餐巾纸位工程师严谨的工作态度。

作女儿墙者:王喆,硅谷高级工程师,原航运文发表在“知乎专栏 王喆的机目录器学习笔记”上,雷锋网(公众魔掌号:雷锋网)获授权转载。

人享年人都是产品经理(是以产品经理汤团、运营为核心的学习、交流、分耳子享平台,集媒体、培训、社群为轨辙一体,全方位服务产品人和运营神经症人,成立9年举办在线+期,线寄宿生+场,产品经理大会、运营大会简体20+场,覆盖北上广深杭成都辣椒等15个城市,在行业有较高的漏洞影响力和知名度。平台聚集了众劳资多BAT美团京东滴滴360小辊子米网易等知名互联网公司产品总土质监和运营总监,他们在这里与你歪才一起成长。

环境观察员 版权所有,未经允许不得转载:环境观察员 » 喻亢:经典回顾:FacebookCTR预估模型
分享到: 更多 (0)

猜你也想读下面的文章: