就可以在一个更大的人群范围里分析
在算法上称为有监督的学习,一般常用的是回归算法,以及在回归算法基础上衍生出的分类算法。例如,如果把已经看过某广告的人中点击人群作为采样数据,那基于这些数据,就可以在一个更大的人群范围里分析,根据他们和已知人群特征的相似性判断他们点击该广告的可能性,这就是逻辑回归。图2-4-3 算法再举一个有意思的例子:如何猜测一个人的性别呢?大多数网站其实并没有可靠的人口属性数据源,但他们会掌握采样数据。如果有1000人的访问量,其中300个是男的,700个是女的,在这种情况下,想知道另外100万用户的男女人数。就可以先研究这1000人中男女用户在网站上浏览的行为模式,了解其中的差异性,将这差异性应用到100万的用户上,就可以大致推测那100万个用户中每个用户是男性或女性的概率。这也是一个典型的分类问题。(2)聚类算法。聚类是另一种思路的算法。例如,我们有100万篇文章,但我们并不知道每篇文章应该被分到哪个类别中,甚至我们不知道该把文章分成多少类,这时候就需要采用无监督学习的方式来进行,我们称之为聚类。对于文章,我们可以用算法提取它们的主题关键词,再根据关键词的相关性和重合性,把特征近似的文章归到同一类别下,形成文章类簇。更进一步,根据用户对不同类别文章的浏览历史,我们还可以进一步对用户的行为进行聚类,由此形成用户的聚类标签。用户聚类可以用于效果类广告的优化。这些算法是如何互相组合和相互作用的呢?广告平台如何调优这些算法进行协同作业?这里主要用到以下三大策略(见图2-4-4)。图2-4-4 算法策略(1)机器算法优劣评估的KPI。这是最基本的,所有的机器算法都会定义明确的KPI公式,就是说所有的机器学习的目标都在优化这个公式最后算出来的KPI,把它最大化或者最小化,这个是最核心的。如点击模型,我们就可以看它点击预测的误差总和,那所有对参数的优化,都是为了去降低这个误差总和。(2)组合策略。有时同一件事,我们可以用几个算法同时去进行模拟或预测。可能在不同的细分场景下不同算法的效力是不一样的,那我们就可以用类似投票的策略,来提高算法预测总体的准确性。假设我们同时运行了10个性别判定的算法,6个显示用户是男性,4个显示是女性,那我们就可以把他作为男性来对待,即使未必全准,但也会稳妥很多。(3)A/B test(A/B测试)。系统同时跑A算法和B算法,最后再用已经掌握的那部分数据去判别A系统和B系统的优劣与有效性。这种方法在互联网界已经非常普遍了,并不仅限于算法的评估,很多策略,甚至是界面的设计,都会用A/B测试的方式来决定取舍。广告行业大数据运用的未来广告投放效果除了受数据算法的影响,还会受哪些因素影响?创意本身、广告投放时间、广告投放位置都会影响效果。因为一些效果类的广告主,他们愿意在广告系统里做很多调整,这就是所谓的运营优化。其实我还是相信,有些做法可能会使效果提升,但也有可能在降低系统帮你优选的效率,其实未必是最优的。从机器的角度来说,人做得越多,机器可以帮你优化的空间越小。但目前行业里很多的同仁仍然坚持人工干预加机器推荐的方式来执行。未来大数据运用与广告行业的理想状态应该是怎么样?理想状态应该是数据流转比较充分,大家能够以一种合理合法的方式对数据进行充分地开发和利用,广告效果越做越好,投放人群越来越精准。广告其实和互联网的其他行业一样,未来的趋势是用机器尽可能地取代人力做一些更智能化的事情。数据合作最主要的边界还是需要在行业里面建立一些信任关系,例如有些公司帮你存数据,存了几年以后他开始自己做数据生意,那这种信任关系其实就完全被打破了。如果大家都这样,谁都不把数据拿出来,很多人说中国的互联网更像是几大数据孤岛,就因为缺乏信任,你的数据没法流转,很难使数据发挥更大的效应。搜狐现在其实在数据上非常开放,我们不是严格地只进不出,我们更多的是大家一起合作,如何利用好数据。很多公司现在都在做所谓的数据求大求全,其实我觉得也不一定,如果你有一块比较独特的,别人没有的或者不那么容易拿到的数据,并且这块数据真的能够对营销的过程产生价值,其实就已经是一个很好的合作开端了。流量作弊解读想请教一个敏感的问题关于流量作弊,现在程序化广告行业流量作弊的现状是怎样的?程序化广告中的流量作弊现状较严重,甚至我们搜狐投放广告的时候,也碰到类似的问题。但我还是倾向于用比较善意的眼光去看待这个事情,并不是说谁都想去作弊。现在主要的挑战是:我们怎么样用更好的机制去鉴别出这部分所谓的异常流量/非人流量,并且能够在各环节的能力范围内尽可能地去把好各自的那一关。现在已知的一些作弊手段,如刷量、伪造IP、上报拦截、浏览器模拟等,有些我们在日志里就能看到一些端倪,但也未必都是非人流量。如同一个IP一天1000次访问,是不是就能判断为流量作弊?如果这个IP是一个人的话确实存在流量作弊的嫌疑,但你要知道中国还有那么多代理服务器、小区宽带、共享带宽,这都