首页 理论教育搜索广告点击率预测技术

搜索广告点击率预测技术

【摘要】:目前已有的工作大多基于浅层模型进行搜索广告的点击率预测,浅层模型在特征学习方面是直接使用统计学习方法计算得到的特征,特征中每一维的含义固定并且孤立,不能表达内部之间的关系。图7-9CNN在搜索广告点击率中的应用预测模型分别设置了一层输入层、两层卷积层、两层亚采样层、一层全连接层和一层输出层。在KDD Cup 2012中Track 2数据集上的实验结果表明,本案例所使用的基于CNN的搜索广告点击率预测的方法能有效地提高点击率预测的结果。

目前已有的工作大多基于浅层模型进行搜索广告的点击率预测,浅层模型在特征学习方面是直接使用统计学习方法计算得到的特征,特征中每一维的含义固定并且孤立,不能表达内部之间的关系。本案例的目标是通过给定的信息预测搜索广告的点击率,通过使用深度学习模型,挖掘更多的特征之间的关系,从而能更有效地提高预测的结果。

我们采用的数据集为KDD Cup2012中Track2提供的,该数据由腾讯公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因为涉及公司商业信息,数据经过哈希处理。由于数据量过大并且正负样本不平衡,故而采用随机采用的方法,从训练集中抽取10%作为本案例模型训练的训练集,即使用随机函数生成对应的样本序号,抽取出对应的样本,这样既缩小了样本空间,同时随机采样也保持了原始数据的分布信息。我们分别对AdIDas、AdvertiserID、QueryID、KeywordID、TitleID、DescriptionID、UserID、DisplayURL这8个属性进行了特征扩展,最终得到的特征维度超过千万,虽然维度非常高,但非零值只有8个,称之为类别稀疏特征。

深度神经网络与浅层学习模型相比,浅层学习模型的学习能力表达有限,尤其是在复杂函数分类问题上,浅层学习模型的泛化能力非常有限,而面对复杂的函数,深度神经网络的参数则比较简洁,能更好地完成对特征的学习。深度神经网络是深度学习中最为简单的模型,它由多层人工神经网络的堆叠而成,与浅层学习模型对比,在表达复杂函数时,深度神经网络使用的参数更少更简洁,更好地完成对特征的学习。为了防止过拟合,可采用dropout方法来解决,并利用多计算单元集成的GPU来提高模型训练的速度。

然而,深度神经网络虽然在一定程度上刻画出了特征之间的关系,但却比较粗糙,并没有从局部到整体的认识层次来学习特征。本案例对基于CNN的CTR预测进行研究,通过卷积与亚采样操作的结合,能更好地学习出数据特征之间的关系,不仅解决了线性模型无法模拟真实广告数据场景的问题,也解决了一般非线性模型无法深入挖掘特征相互关系的问题,并且较之于传统的神经网络,CNN能更好地理解特征之间的关系。基于CNN的广告点击率预测模型结构如图7-9所示。

图7-9 CNN在搜索广告点击率中的应用

预测模型分别设置了一层输入层、两层卷积层、两层亚采样层、一层全连接层和一层输出层。

首先,从样本数据提供的历史日志中提取相应的特征,构建得到输入,对局部感受野即卷积的窗口大小进行设置,并设置好窗口滑动的步长,然后对输入特征进行卷积操作。每一次卷积是将局部感受野中的所有值与卷积滤波器相进行加权求和,然后通过激活函数进行求值的过程,其实质相当于对窗口内所有值的组合,因此卷积过程相当于特征融合过程。经过卷积操作后得到的结果作为输入传递给亚采样层。在亚采样层,同样需要先设定好亚采样窗口的大小,以及窗口滑动步长,多数情况下,在亚采样层的窗口滑动不是重叠的,即滑动的步长等于窗口的长度。设置亚采样的参数后进行亚采样操作,即选取窗口中值最大节点值的代表整个窗口的输出值,可以理解为选取出窗口中的最优表达能力的特征值来表示整个窗口的特征,因此亚采样过程相当于特征的萃取过程。亚采样的输出将作为输入传递给下一层卷积层,此后的卷积操作和亚采样操作安装前面叙述的过程以此进行。随后,将特征经过两层卷积层和两层亚采样层后得到的输出作为输入传递给全连接层。在全连接层,上一层亚采样的结果不再按照局部窗口进行计算,而是将它们全部展开。最后,全连接层与输出层进行全连接,得到最终的预测结果。

具体地,本案例主要包含如下三方面的研究内容:第一,本文从搜索广告点击率预测的定义出发,分析了数据集的数据的分布和特点并对数据集进行了预处理,在此基础上,本案例根据对搜索广告的认识和在实际应用中的特性,提取了六类不同的特征;第二,使用基于深度神经网络模型的搜索广告点击率预测的方法,我们使用dropout方法来降低在训练时过拟合造成的影响,实验结果表明,在特征相同的情况下,本案例使用的深度神经网络模型方法能取得比主流方法更好的预测结果;第三,本案例利用了面向搜索广告点击率预测的卷积神经网络模型,通过基于局部窗口概念的卷积操作和亚采样操作,完成了从局部到整体的特征学习。

在KDD Cup 2012中Track 2数据集上的实验结果表明,本案例所使用的基于CNN的搜索广告点击率预测的方法能有效地提高点击率预测的结果。