阿里妈妈提出直播广告轻量好用的出价算法|KDD'25

发布时间:2026-03-06 13:10  浏览量:1

摘要

互联网直播广泛应用于在线娱乐和电子商务领域,其中直播广告是主播重要的营销工具。一个广告计划希望在预算和单次点击成本等约束条件下,最大化其效果(如转化量)。当前主流的广告计划控制方式是自动出价(auto-bidding),其效果取决于每次广告请求中出价算法的决策。现有方法要么未考虑全天候的整体流量分布,要么计算复杂度过高。 本文针对直播广告对实时出价(秒级控制)的高要求,以及未来流量未知的挑战,提出了一种轻量级出价算法 BiCB (Binary Constrained Bidding)。该算法巧妙地将数学分析推导出的最优出价公式与未来流量估计的统计方法相结合,并通过低复杂度的求解方式,获得对最优结果的良好近似。此外, 阿里妈妈直播广告算法团队 完善了传统自动出价建模中的上下界约束形式,并对 BiCB 给出了理论分析。

论文: Lightweight Auto-bidding based on Traffic Prediction in Live Advertising (KDD '25)

互联网直播已成为媒体和电子商务的主流形式。为了主动触达消费者以提升人气与销量,直播广告已成为主播重要的营销工具。与传统图文广告类似,直播广告通常采用 实时竞价机制RTB (Real-Time Bidding)。在 RTB 中,广告主创建的广告活动通常需要在预算和单次点击成本等约束条件下,最大化广告效果(如转化量、新增粉丝数等)。当用户向直播广告系统发起请求时,平台会基于拍卖机制(例如广义第二价格拍卖,Generalized Second Price, GSP)对各广告按出价进行排序,出价最高的广告赢得展示机会并被计费。当前主流的广告计划控制方式是自动出价(auto-bidding),它结合广告计划的基本信息与当前流量状况,为每次广告请求动态计算出价决策。与传统广告不同,直播广告对时效性要求极高。随着主播讲述内容的高潮与低谷,其希望广告能在几分钟内引爆直播间,这就要求广告系统具备秒级的实时感知与调控能力。

从广告主视角建模,自动出价(auto-bidding)通常会建模成一个线性规划问题。该模型的目标函数是所有流量请求价值的总和,约束条件则包括预算、单次点击成本上限等多个线性限制。 理论上,该问题可通过线性规划求解器获得最优解。然而,这要求提前获知全部流量信息。在实际场景中,广告活动在任意时刻都需对当前的流量请求做出出价决策,而此时算法既无法预知未来的流量分布,也无法修改历史已做出的决策。这一“在线决策、未来未知、不可回溯”的特性,正是自动出价所面临的最大挑战。

在审视自动出价建模的线性特性后,本研究考虑最简化的建模场景:在预算约束下最大化转化量(Budget-Constrained Bidding, BCB),其目标函数和约束均为线性的。对此问题,直观的求解方法是线性规划。 此外,BCB 本质上是一个典型的背包问题(knapsack problem),也可通过贪心算法求解:将所有流量请求按照“转化性价比”(即单位成本带来的转化价值)进行排序,优先选择性价比高的请求——这类似于优先将高价值物品装入背包,直至累积成本达到预算上限(即背包容量)。由于单个流量请求的粒度足够小,该贪心策略能够获得非常接近最优解的近似结果。

值得注意的是,在此算法中,物品(流量请求)被选入背包的顺序并不重要。真正需要的是确定一个性价比阈值:只要请求的性价比高于该阈值,即可被选中。一旦阈值确定,无论流量以何种随机顺序到达,只要大于阈值就进背包,最优解就是不变的。而这一性价比阈值的求解,仅依赖于对全体流量的成本与转化分布的整体认知,并不依赖于特定的时序处理过程。

然而,其核心前提仍是:必须提前获知全天完整的流量信息。这在实际在线广告场景中通常是无法满足的,因而构成了理论最优与现实可行之间的关键鸿沟。因此,提出了 BiCB (Binary Constrained Bidding)算法。

本文将该问题建模为一个广义背包问题,并设计了一种轻量级、类贪心的求解策略。具体地,对原始优化问题进行拉格朗日对偶分析,推导出判断某次流量请求是否应赢得展示机会的决策准则。该准则的计算依赖于对偶变量的最优取值。在线决策时,系统对每个实时请求依次应用此准则:若满足条件,则赢得该请求;否则放弃。

该方法经证明能够对线性规划的最优解实现优异的近似效果。而对偶变量的求解需基于对全天流量分布的估计。其基本思路是:尝试一组对偶变量,利用该组变量计算决策准则,并据此“模拟执行”全天流量,检查最终是否满足所有约束(如预算、点击成本等)。若不满足,则调整对偶变量并重复尝试,直至约束被精确满足,从而获得最优对偶变量。这其中,对全天流量的“模拟执行”结果完全依赖于对流量的估计模型。为此,我们基于历史数据训练了一个从对偶变量到一段时间执行结果的映射模型,该模型仅需预测每个时间段的累积指标(如累积花费、累积点击量等)。接下来,下文将详细介绍建模过程和解决方案。

二、解决方案

在实际广告投放中,为筛选高质量流量,广告主有时希望所赢得请求的点击成本(CPC)、点击率(CTR)、投资回报率(ROI)等指标不低于某个下限阈值。例如,过低的 CPC 可能对应低质量流量,反而损害数据循环。为此,在现有工作的基础上,引入下界约束对问题建模进行扩展,并以最常见的 CPC 下界约束为例进行讨论。假设某广告主一天内可参与竞价的曝光请求共有 次。对于第 次曝光请求,若赢得该曝光,其预估点击率为 ,实际发生的单次点击成本为 ,点击后为广告主带来的价值(如转化率或转化价值)为 。设广告主的总预算为 ,CPC 的上界和下界分别为 和 。则该问题可形式化为如下线性规划(Linear Programming, LP)问题:

其中,变量 表示广告主是否赢得第 次流量请求。

在论文中,通过拉格朗日对偶分析,得到最优出价公式为:

其中,广告主设置的CPC 的上界和下界分别为 和 , 一般由在线实时预估模型给出(例如pCVR,pGMV)体现了该条流量的预估价值, 是原问题转化为对偶问题后的对偶变量,对偶变量取到最优解时,对应的bid就是最优解。值得注意的是,对偶变量对所有流量一视同仁地生效,这意味着全天流量下 随着时间是保持恒定值的,这是最优解的一个重要特性。如果退化到BCB背包问题,就只会剩下一个对偶变量 ,这个 的物理含义就是挑选流量的性价比阈值,最优解的 全天恒定,才能保证按照统一的性价比阈值作为标准来筛选优质流量进入背包。因此,在此建模下,对偶变量全天是否恒定,能够侧面反映出价算法的效果是否优异。波动较大的对偶变量往往是次优的。

以上求解过程中,若能提前获知全天所有流量信息,则可通过线性规划求解出最优的对偶变量。然而,在现实场景中,要实现这一理论最优解,需要完成以下理想化步骤:

1)构建一台“时间机器”。

2)通过该时间机器获取全天所有曝光请求的详细数据(包括点击率、赢得价格、转化价值等)。

3)基于前述优化问题,离线计算出最优对偶变量。

4)回到当天的起始时刻,依据已求得的对偶变量,使用最优出价公式对每一请求进行实时出价,并执行全天的最优投放策略。

因为当前尚不具备“时间机器”的能力,为了逼近这一理论最优解,需要具备以下三项关键能力:

1)未来流量预测能力(替代“时间机器”): 需要能够准确估计全天流量的整体分布特征

2)最优出价公式:基于数学建模的解析结论,得到一个最优解出价公式

3)轻量高效的在线算法:由于直接求解大规模线性规划问题的计算开销过大,需设计低复杂度的近似算法。

在论文中,对偶分析标明,最优解充要条件是:

1) ,或者 且总消耗等于预算

2) ,或者 且 实际 CPC 等于上界

3) ,或者 且 实际 CPC 等于下界

因此,所谓的“时间机器”实际上只需在给定一组对偶变量后,预估其执行后全天的总消耗、实际CPC,并和预算B、上界 、下界 进行比对,如果满足上述3个条件,则找到了最优解。 因此,基于历史数据训练了一个回归模型,用于拟合两个函数: , 。其中 表示该广告主按照 作为固定变量,从 开始投放到投放结束的累积消耗。同理, 表示累积点击。线上使用时,算法每隔一段时间(例如10秒钟)调用一次预估模型,得到COST和CLK的预估值,进而可以计算预估的CPC,然后和预算B、 、 进行对比,是否满足最优解充要条件。如果不满足,则调整 重新调用预估函数,直到条件满足。值得注意的是,B、 、 和 之间存在一些单调关系,因此可以用二分法搜索,或者用梯度下降法求解。这就是该工作提出的BiCB(Binary Constrained Bidding)算法。

这个方法的求解过程是BCB背包贪心算法的推广形式。BCB背包贪心算法中,只需要尝试不同的性价比阈值p,然后评估竞得的累积COST是否等于预算B来决定是否满足最优解。本文对BiCB算法进行了理论分析,和背包贪心算法类似地,在典型的互联网场景中,由于每条流量起作用的颗粒度足够小,贪心算法的性能非常接近线性规划的最优解,通常可以达到98%最优解的近似度。

在该方法中,只需基于当前的对偶变量,对未来累积消耗和累积点击量进行估计即可。在按点击付费(CPC)广告系统中,用户行为事件通常按以下顺序发生:曝光 → 点击 → 消耗 → 转化。其中,转化数据远比点击和消耗数据稀疏,且具有更长的时间延迟,这使得累积转化量的估计比累积消耗更加困难。一些方法建模中的价值函数主张能够准确估计累积转化量,那么BiCB的方法理应能更轻松、更准确地估计累积消耗和累积点击量。为什么BiCB不需要估计累积转化量? 原因在于,该最优出价公式源自线性规划(LP)模型的对偶分析,该公式在给定对偶变量的前提下,天然保证了累积转化量的最大化。因此,唯一需要求解的,就是对偶变量的取值;而对偶变量的求解仅依赖于对累积消耗和累积点击量的估计,无需涉及转化数据。

这正是 BiCB 方法的巧妙之处 :它将已有的数学分析结论与统计预测模型有机结合,避免了对高延迟、高稀疏性转化信号的直接建模。BiCB方法不需要构建离线仿真环境,而对累积消耗与累积点击量的估计是一个典型的监督学习问题,可以直接复用广告系统中已有的 CTR 预估模型和用户停留时长预估等基础设施。此外,BiCB 的在线预估频率仅为每几秒一次 QPS(Queries Per Second),远低于 CTR 模型的实时推理 QPS。在直播广告场景中,由于主播对实时性的要求,系统需要每 10 秒进行一次控制决策,即每天需执行 8640 次出价调整,相当于一个长度为 8640 的决策序列,如此长的序列建模是困难的。BiCB 方法通过避免显式序列建模,转而依赖对全天流量分布的轻量级统计估计和解析出价公式,有效绕开了长序列带来的计算与训练瓶颈。

综上,BiCB 在保证接近理论最优效果的同时,实现了较低的工程复杂度与部署成本。

离线实验比较了以下几种基线:

离线线性规划(Offline LP) :借助能够预知全天流量细节的“超自然能力”,离线线性规划可给出理论上的最优出价方案。

BiCB* : BiCB 算法在未来流量预测完全准确的理想情况下的表现。该设定用于评估 BiCB 在无预测误差时的理论上限性能。

Manual Bidding(人工出价) : 广告主为所有曝光请求设置一个固定的出价值,不随流量质量、预算消耗或约束状态动态调整。

Local PID : 为每个对偶变量(如预算、CPC 上下界对应的变量)分别部署独立的 PID 控制器。系统根据最近时间窗口内的实际花费速率或 CPC 是否满足约束,实时调整对偶变量,进而动态计算出价。

Online LP : 在训练集上求解离线线性规划(LP),得到最优对偶变量;然后将该固定解直接应用于测试集进行出价。

IQL :一种通用的离线强化学习(Offline RL)方法。

DT :一种基于决策 Transformer(Decision Transformer, DT)的 AIGB(Auto-bidding with Generative Modeling)方法。将自动出价问题建模为生成式的序列决策任务,利用 Transformer 架构根据历史状态序列生成未来出价动作。

实验设置了两种场景:在 BCB 设定下(Budget-Constrained Bidding):各方法的目标是在固定预算约束下最大化总收益(如转化量或广告主价值)。 在 BiCB 设定下(Binary Constrained Bidding):除了预算约束外,算法还需确保整个投放周期内的累积 CPC 同时满足预设的约束。实验结果如下表:

其中 R 表示某算法所获得的收益,R∗ 表示通过线性规划(LP)算法得到的理论最优收益。 R/R∗ 用于衡量该算法的性能与理论最优解之间的接近程度——比值越接近 1,说明算法效果越优。可以看到BiCB算法有着很好的效果。值得注意的是,BiCB*算法因为具备了完全准确预测未来流量的能力,其性能非常接近最优解。这也说明了,BiCB算法理论的正确性,以及未来累积统计量预估准度的重要性。

此外, 线上实验 也验证了BiCB算法的有效性,并已在线上推全部署:

上图中,通过绘制对偶变量随时间的变化,可以看到BiCB算法的对偶变量更近似一条直线,这说明其在逼近最优解方面更有优势。

基于直播广告对高频出价控制的要求,该工作对自动出价的线性规划建模进行了改进,引入了上下界联合约束机制,并提出了一种轻量级自动出价算法——BiCB(Binary Constrained Bidding)。 BiCB 的核心思想源于线性规划对偶分析所导出的最优出价公式。 在此基础上,算法通过一个轻量级的未来流量预测模块,结合低复杂度的近似求解策略,在显著降低计算开销的同时,实现了对理论最优解的高精度逼近。目前,该算法已全量部署于阿里妈妈的直播广告业务中,并取得了正向的业务收益。