艺术学厕拍
Uber Eats 中的主页动态排行
Uber Eats 的责任是让任何东谈主遍地随时精炼用餐。Uber Eats 主页信息流是竣事这一方针的蹙迫器具,因为它旨在通过愚弄机器学习时间为每位用户构建个性化的商店列表,提供神奇的好意思食浏览体验。举例,如若用户时常点寿司菜,信息流就会进行休养,向他们展示更多日本餐厅,尤其是那些寿司菜评分很高的餐厅。个性化推选还可能包含雷同但新颖的选项,如海鲜或其他亚洲好意思食。
为了竣事高质地的个性化信息流,咱们优先探求的一个目的是准确估算转机率(在本博文的其余部分缩写为 CVR),它暗意在主页信息流中向门客展示某家商店后,门客从该商店订餐的概率。为了估算这个数目,咱们求援于一个笔据用户互动数据(举例用户印象、点击和订单)熟识的机器学习模子。然则,互动数据自己并不总能完竣反应用户的偏好,因为它受到多样统计偏差的影响。事实上,由于机器学习模子的好坏取决于熟识它们的数据,这些影响互动数据的统计偏差会对咱们的模子生成的排行质地产生横蛮的不利影响。当咱们在本博文中使用偏差一词时,咱们指的是统计偏差。
在推选系统文件中,影响排行质地的多种偏见仍是得到了真切斟酌,举例位置偏见、信任偏见、险阻文质地偏见、遴荐偏见、左近偏见、反馈回路偏见等;确定请参阅[1-3, 5, 9]偏激中的参考文件。
在这篇博文中,咱们要点相干了其中最蹙迫的一个偏见:位置偏见。位置偏见指的是用户倾向于从排行较高的商店订购更多商品,而不是排行较低的商店,而无论该商店与用户的信得过关联性有多高。正如咱们在后续章节中进一步相干的那样,位置偏见在 Uber Eats 主页 feed 排行问题领域中无数存在,如若不进行任何迥殊处理,咱们用有偏见的数据熟识的 CVR 模子无法完竣捕捉用户的实在意图,因为该模子无法分离偏见对用户订购行动的影响。
Uber Eats 首页 Feed 排行中的位置偏差
位置偏差是一种可以相对容易形色的欢娱,但它并不老是那么容易准确测量或可视化。平凡,学者和从业者通过系统地修改排行推选,并将这些死一火与未修改的死一火进行比较来测量位置偏差(参见 [6, 7])。在 Uber Eats 中,咱们袭取雷同的措施来筹谋位置偏差的影响。具体来说,咱们使用一定比例的流量来测量位置偏差,措施是飞快陈设主页 feed 中很大一部分商店的轨则,以便咱们可以严格测量位置偏差。由于咱们的顶级推选平凡与每个用户高度关联,因此对一小部分流量的 feed 进行再行陈设不会对举座发现体验产生负面影响。
由于这种遴荐性飞快化,对于这一小部分流量,预期的实在用户商店关联性对于位于咱们信息流顶部位置的商店是相易的,而不是按关联性排序的。因此,如若咱们窥探每个垂直位置的教会 CVR(界说为订单数目除以展示次数),咱们不雅察到的任何与 x 轴平行的线的偏差齐可以用咱们数据中事先存在的偏差(包括位置偏差)的影响来诠释注解。
图 1 清楚了商店位置飞快陈设的这一小部分流量中教会 CVR 与商店垂直位置的干系。可以看出,即使预期的商店关联性在垂直位置上相易,用户仍然明显倾向于从信息流顶部的商店下订单,而不是排行较低的商店,这标明位置偏差对用户行动和咱们的数据有要紧影响。因此,咱们的关联性排行模子可能受到正反馈轮回的影响,即集聚信息流顶部的商店取得更多订单,饱读励模子了解它们是关联的,然后在翌日的会话中将它们排在较高的位置(天然,对于排行较低的商店,会出现相背的死一火)。笔据这一不雅察死一火和测量偏差的幅度,咱们推断,通过袭取一种措施来遗弃或减少数据中位置偏差的影响,咱们的 CVR 模子瞻望质地有明显的栽种空间。
图 1:平滑教会 CVR 与飞快交通中的垂直位置
咱们的排行算法很猛进程上依赖于对每个用户对每个商店的偏好的准确瞻望,咱们将其暗意为 [用户、商店、险阻文] 展示的转机率。梦想情况下,咱们但愿估算一个弗成不雅察的数目True CVR,它是筹谋特定商店在给定险阻文中与用户的关联进程的实在目的,而不探求可能存在的任何其他混合身分。但是,在咱们采集的展示数据中,即使是相易的用户-商店对,展示也会出当今不同的位置和名义上,况兼每个展示齐会在不同进程上受到位置偏差的影响。因此,当咱们在这些有偏差的数据上熟识咱们的 CVR 模子时,该模子将学习有偏差的 CVR,而不是期许的实在 CVR。咱们的方针是弥合这一差距,让咱们的模子只学习实在 CVR,而不是有偏差的 CVR。
要构建一个用于瞻望实在 CVR 的去偏 ML 模子,咱们必须确定一种建模实在 CVR、偏向 CVR和位置偏差之间干系的措施。问题归结为联贯为什么用户不太可能从较低位置订购,即使是统一家商店。当咱们念念考这个问题时,咱们意志到从印象到订单的链条中零落一个能力:查验。当商店在 Uber Eats 应用表率或集会浏览器中清楚给用户或呈现给用户时,就会发生印象。但是,即使商店以像素为单元进行物理呈现,也不虞味着用户看到了这些像素或查验了其本色。沿着意图路线向下一步,如若用户有意遴荐查验列表,并挑升从清楚给他们的商店下订单,就会发生查验。查验不需要点击。它可能只需要稽查商店称号、菜系类型、图像或查验商店内有哪些菜肴。至关蹙迫的是,并非每次印象齐会导致查验,也并非每次查验齐会导致订单。咱们用一个查验模子来形色这种欢娱,将用户的总共下单经由分为3个阶段,如图2所示:
图 2:查验模子
有很多表面和框架诠释注解了印象奈何转机为查验的机制,参见 [2, 4]。对于咱们的具体用例,咱们觉得决定印象是否会导致查验的两个最要道机制是轨则推选的物感性质和缜密力衰减。由于推选的轨则性和用户从上到下阅读的倾向,排行较高的商店更有可能最初被查验,而一朝用户找到合适的关联商店,排行较低的商店被查验的可能性就会大大裁减。缜密力衰减是指用户倾向于更仔细地查验排行靠前的商店,而不是排行较低的商店,因此在垂直滚动时渐渐减少对推选的怜惜。天然这两个欢娱不是独一的身分,但它们在很猛进程上股东了不雅察到的“位置偏差”,决定了印象是否会转机为查验。
商店展示的垂直位置在位置偏差欢娱中起着至关蹙迫的作用。但令东谈主骇怪的是,位置自己并不是决定位置偏差大小的唯孑然分。位置偏差可能受到很屡次要身分的影响。举例,不同的操作系统 (OS) 和不同的开辟具有不同的用户界面和布局,导致垂直位置的感知面孔偏激对位置偏差的影响存在互异。相似,商店所以单个商店卡还所以轮播的体式呈现商店卡聚合也在用户欣慰将缜密力集合在每个推选上的面孔中起着蹙迫作用。下图 3 诠释了开辟操作系统和 feed 形状类型奈何影响在飞快流量上测量的不雅察到的位置偏差。位置偏差可能由很多变量构成,其中一些变量可能很难不雅察到,这一事实标明,一刀切或基于启发式的措施来处理位置偏差可能不够。
图 3:位置偏差与垂直位置、开辟操作系统和 Feed Item 类型之间的干系
到当前为止,咱们仍是形色了位置偏差奈何影响展示是否会导致查验。咱们还诠释了为什么咱们梦想情况下但愿瞻望实在 CVR,即查验商店后转机的实在概率。比拟之下,偏差 CVR是咱们在熟识数据中不雅察到的由用户展示生成的教会 CVR 概率。将这些术语放入更严格的框架中,咱们得到以下干系:
这里,P(查验)或查验概率是位置偏差在咱们的数据中的表现,并影响咱们模子的瞻望。接下来,咱们将这种概率称为位置偏差。
当今咱们仍是翔实形色了 Uber Eats 排行生态系统中的位置偏见并展示了其影响,咱们准备鄙人一节中形色奈那儿理它。
伦理片在线处理 Uber Eats 首页 Feed 排行中的位置偏差
为了准确揣度实在 CVR,咱们最佳仅使用查验数据来熟识咱们的模子。可怜的是,咱们无法确定印象是否导致了查验,因此这是弗成能的。相背,咱们需要想出一种措施来遗弃印象数据的偏差,以便生成尽可能接近实在 CVR 的CVR 揣度值。
多年来,咱们的团队作念出了很多勤勉来收缩位置偏差对 feed 排行的影响。咱们的勤勉包括仅使用从流量的飞快部分采集的数据来熟识模子,使用 IPW(逆倾向加权)框架在熟识阶段合适地加权咱们的数据点,并在熟识时候告成愚弄垂直位置当作特征;以偏激他措施。这些不同的尝试匡助咱们稳步开发了对于咱们用例中位置偏差问题的珍藏倡导,并薄情了越来越灵验的措施来处理它。举例,通过这些尝试,咱们意志到位置偏差不仅是垂直位置的函数,而且还受到开辟操作系统和 feed 形状类型等其他身分的影响,如上一节所述。相似,咱们发现咱们处理位置偏差的尝试不应该对 CVR 瞻望的幅度产生要紧影响,因为这会产生下流问题,荒谬是与模子校准关联的问题。
笔据咱们昔时的学习,咱们推断出咱们需要一个模子,该模子在模子熟识时候愚弄位置特征与其他特征的交互,但在在线推理时候不解确愚弄它。这标明,经过一些小的修改,[8] 中形色的位置偏差感知学习框架即是咱们用例的一个很好的候选者。受 [8] 中措施的启发,咱们构建了一个带有位置偏差侧塔的深度学习 CVR 模子,这使咱们大致同期揣度图 2 所示的查验模子下的实在 CVR和位置偏差。该模子的架构天然除名方程 (1),如图 4 所示。该模子包括两个寂寥的深度神经集会 (DNN) 塔,分别揣度查验概率 P(查验 = 1)和实在 CVR。这些塔的输出对数在通过 S 形函数之前被相加,在概率空间中,这雷同于将概率相乘,但在贪图上更为肃穆。咱们将这个 ML 问题当作分类任务,并使用二元交叉熵归天熟识所述模子。该模子在有偏差的印象数据上进行熟识,其中每一溜是用户对商店的印象,标签是印象是否导致订单。
图 4:具有位置偏差侧塔的深度学习 CVR 模子。该图形色了举座结构,但并不代表出产中使用的特定架构。
天然咱们莫得告成揣度实在 CVR和位置偏差的数据,但很容易看出,如若等式 (1) 中给出的查验模子缔造,则 DNN 可能大致学习等式 (1) 中的各个构成部分,实在 CVR和位置偏差,当作其两个塔的输出。熟识能力完成后,在线服务时候,咱们会笔据模子瞻望的实在 CVR揣度值对商店进行排行,这更准确地反应了用户的偏好,因为它们不受位置偏差的影响。
在尝试熟识该模子的经由中,咱们发现一个要道点是,如若这两个塔具有一些共同的特征,那么偏置塔可能会学习到一些与实在 CVR数目关联的信息,从而裁减 CVR 塔的瞻望准确性。为了惩办这个问题,咱们在偏置塔中袭取了多样正则化时间,举例 l1 正则化和 dropout。由于 CVR 塔的架构比偏置塔的架构复杂得多,咱们发现,一朝位置塔得到合适的正则化,偏置塔就很难学习与实在 CVR关联的信息。另一方面,偏置塔可以独占拜谒与位置偏差更关联而与实在 CVR干系不大的特征,这使得位置塔比 CVR 塔更容易学习位置偏差。这种特征成就有助于每个塔仅学习与其预期任务关联的信息,况兼是奏效生成去偏差的实在 CVR瞻望的要道。
死一火
咱们按照上一节中形色的深度学习架构熟识了一个 CVR 模子。咱们发现,该架构在从咱们的熟识数据中索求位置偏差的影响方面作念得可以,因为对飞快流量进行的离线分析标明,位置去偏模子的实在 CVR瞻望与不雅测的垂直位置无关。相背,咱们的出产模子的瞻望分数与不雅测的垂直位置关联,因为在莫得位置偏差处理的情况下,出产模子正在学习瞻望偏差 CVR而不是实在 CVR。
在这些积极的早期信号的荧惑下,咱们初始了一项现实,将咱们新构建的去位置偏差 CVR 模子与咱们现存的出产 CVR 模子进行了比较。实考据实了咱们有但愿的离线不雅察死一火。咱们不雅察到,新的去位置偏差模子生成了更关联的 Uber Eats 主页信息流,因为用户在统计上权贵地从主页信息流中下了更多订单,况兼更少地需要使用搜索功能。此外,主页信息流订单的大幅加多转机为宽阔的营收影响。咱们不雅察到咱们平台上每个用户的订单量权贵加多,这标明咱们的新模子大致更好地联贯用户信得过想要什么,况兼总体上生成了更诱东谈主的信息流,从而劝诱更多用户下订单。基于这些发现,咱们向公众用户推出了该模子,并奏效完成了现实。
论断和翌日功绩
在这篇博文中,咱们先容了 Uber Eats 奈何使用查验模子了解位置偏差,以及奈何通过使用位置偏差侧塔熟识 DL 模子来揣度位置偏差。从有偏差的数据中遗弃位置偏差的影响有助于咱们的模子更准确地揣度信得过的关联性,为咱们的用户生成更关联的建议,并提高用户参与度。
在此经由中,咱们主要怜惜位置偏差,将其当作熟识数据中的主要偏差开头。但是,咱们要强调的是,尽管位置偏差是咱们排行模子中最蹙迫的偏差开头之一,但它并不是独一的偏差开头。荒谬是,左近偏差和遴荐偏差是咱们觉得咱们的模子受到的另外两个偏差示例。翌日,咱们贪图通过惩办这些和其他偏差问题来持续增强用户的本色发现体验。
参考
[1] 王宣晖等,“学习在个东谈主搜索中对有遴荐偏差的排行。”第 39 届 ACM SIGIR 国外信息检索斟酌与发展会论说文集。2016 年。
[2] Joachims, Thorsten 等东谈主,“评估集会搜索中点击和查询重构的隐式反馈的准确性。” ACM 信息系统学报(TOIS) 25.2(2007):7-es。
[3] Sinha, Ayan、David F. Gleich 和 Karthik Ramani。“推选系统中的反卷积反馈回路。”神经信息处理系统进展29 (2016)。
[4] Klöckner, K. 等:搜索死一火列表的深度和广度优先处理。见:CHI'04 延迟摘录“贪图系统中的东谈主为身分”。第 1539-1539 页 ACM(2004 年)。
[5] 陈嘉伟等,“推选系统中的偏见与去偏见:窥探与翌日标的。” ACM 信息系统学报41.3 (2023): 1-39。
[6] Wang, X.、Bendersky, M.、Metzler, D. 和 Najork, M.(2016 年 7 月)。学习在个东谈主搜索中对遴荐偏差进行排行。第 39 届国外 ACM SIGIR 信息检索斟酌与开发会论说文集(第 115-124 页)。
[7] Joachims, T.、Swaminathan, A. 和 Schnabel, T.(2017 年 2 月)。带有偏向反馈的无偏学习排序。第十届 ACM 集会搜索和数据挖掘国外会论说文集(第 781-789 页)。
[8] Guo, H.、Yu, J.、Liu, Q.、Tang, R. 和 Zhang, Y. (2019 年 9 月)。PAL:用于及时推选系统中 CTR 瞻望的位置偏差感知学习框架。第 13 届 ACM 推选系统会论说文集(第 452-456 页)。
[9] 顾颖、丁哲、王胜、邹玲、刘燕和尹丹(2020 年 10 月)。深度多面变换器在大范畴电子商务推选系统中的多方针排行。第 29 届 ACM 信息与学问不停国外会论说文集(第 2493-2500 页)。
封面图片由另一方创作并注明开头,取自https://openverse.org/,标明创作家。它笔据CC BY 2.0取得许可。未作念任何鼎新。
作家:
Charles Luo
Charles Luo was an Applied Scientist Ph.D. intern at the Uber Eats search and discovery team. He is currently pursuing his Ph.D. in Biostatistics at the University of California, San Diego.
Utkan Candogan
Utkan Candogan is a Senior Applied Scientist working on ranking and recommendations problems that surface in the Uber Eats app. Previously, Utkan received his Ph.D. degree from California Institute of Technology, specializing in mathematical optimization.
Brett Vintch
Brett Vintch was a science leader at Uber Eats, working on consumer problems like discovery, personalization艺术学厕拍, and cart building, and merchant problems like merchant selection and growth.