使用神经网络来预测来自赞助搜索的点击
如今,互联网广告行业受到了巨大的冲击,并且其在全球经济中的重要性有望在未来几十年内增长。同时,市场上挤满了竞争者,他们都在努力最大化(或优化)其运营中所有可能的与利润相关的方面。其中最重要的方面可能是如何“说服”互联网用户更频繁地点击显示的广告(嗯,至少在使用按点击数付费的收入模式时)。
实际上,一些科学在这里可能会非常有帮助。例如,为了使搜索引擎的收入最大化,一项非常关键的任务是提前估算所谓的点击率或点击率。在最佳情况下,应该为每个广告估算此参数。对于简单的网站来说,这不是一个问题,仅当广告数量限制为几十个但不超过几十个时:您可以手动放置广告并观察相关的点击次数,然后选择最合适的广告。但是,在搜索引擎中,如果没有至少某种程度的自动化,基本上是无法完成的。接下来是棘手的部分:如何针对特定广告的收入效率做出不受人监督的决定?
为了解决这个问题,最近在arXiv.org上在线发表的论文的作者说,可以使用基于人工神经网络的算法来预测CTR 。在这里,他们提出了一个两阶段的点击预测系统,该系统将人工神经网络方法与俄罗斯搜索引擎Yandex当前使用的现有决策树框架相结合。
作者认为,这是一个相对较新的研究领域,因为大多数现代搜索引擎都使用基于机器学习的方法来完成相同的任务,包括逻辑回归方法和增强型决策树。但是,与先前提到的技术相比,人工神经网络(ANN)在其他科学领域的应用显示出非常有希望的结果。该团队认为,人工神经网络通常具有更大的建模强度,能够“捕获”输入参数之间的非线性关系,并且还消除了当前使用的算法所特有的一些缺点。
为了构建预测系统,科学家选择使用前馈类型的神经网络。由于赞助搜索通常使用直接在搜索页面上显示的小型文字广告,因此CTR预测的任务乍一看似乎并不那么复杂。但是,实际上有很多参数在起作用,这使得难以估计单独数据输入之间的确切关系。用于构建预测系统的一些特定模型参数是:用户ID,关键字,搜索查询和广告ID参数,包括广告标题,单词内容,位置等。
Yandex搜索引擎的点击日志被用作数据集,其中包含约660万个用于训练,验证和测试ANN的示例。作者指出,将所有可用数据直接输入到神经网络是不可行的。由于这个原因,数据维数 是通过从初始输入参数不频繁的特征,并通过使用散列函数,以进一步减少数据维数降低。
对开发的点击预测系统的测试表明,用ANN代替线性回归可以大大提高预测性能。使用称为精确度/召回曲线(PRC)的统计量度(根据PRC曲线下的面积计算)来测量CTR预测的相关性。基于人工神经网络的实施使预测相关性提高了5.57%。通过使用6个人工神经网络的集成(6.72%)可以进一步改善此结果。
作者说,基于人工神经网络的CTR预测系统的初步开发显示出非常有希望的结果,因此未来的研究可以通过使用实时数据测试其开发来完成。这样的测试可以观察到确切的性能影响。还需要其他工作来提高使用更大数据集和更大数量输入参数的ANN系统的性能
标签: 神经网络