β

移动平台流量黑产研究——流量作弊与流量泡沫

奇虎360技术博客 34 阅读

360烽火实验室

摘    要

关键词:流量作弊、恶意程序、地下黑产、反作弊、广告联盟

第一章      流量报警

一、异常流量
异常流量监控系统是360烽火实验室综合检出体系的新增成员,该系统根据包含启发式规则在内的一系列预设策略对新增流量进行高度的自动化分析,能够及时发现流量中的异常行为。异常流量监控系统突破了传统杀毒引擎和人工智能引擎的重重限制,根据流量本身的行为特点识别异常,既增强了综合检出体系的能力,也为我们持续不断地监控地下产业的网络行为提供了强大的技术手段。

沙箱新增域名触发量TOP是该系统监控的一个维度,通过对TOP域名的分析可以发现一些超出常规的现象,对于逻辑严整的分析系统来说,异常现象需要合理的解释,所以我们对此保持着密切的关注。由于色情视频软件的庞大规模,在一般情况下,每日TOP域名前三个均由色情视频类样本触发,但是2017年3月30号系统生成的下面这组数据显示,有两个非色情视频类样本触发的域名进入了前三的行列。这两个异常域名的警报立刻引起了我们的注意。

二、交叉字段
现实世界中存在着各种各样的巧合,如果我们不希望付出太多的精力或者不需要对我们的言论负太多的责任,我们可以轻易地得出一个“纯属巧合”的结论。但是病毒分析与溯源这份工作很大层度建立在敏锐地洞悉微弱的蛛丝马迹以及执着地追求真相的精神品质之上,我们不仅不会轻易放过任何看似“巧合”的现象,反而会将所有的精力都聚焦于探寻种种迹象之间的“巧合”。即我们寻找“巧合”但不轻易下结论,并且会努力寻求解释以发现巧合背后千丝万缕的联系,最后向世人揭示真相。

交叉字段即是我们寻找“巧合”的武器之一,我们希望通过交叉字段发现流量与样本甚至背后黑手之间的种种联系。发现交叉字段的有效技术手段之一是分字段的启发式关联分析。分字段的启发式关联分析可以挖掘大量具有相似构造特点(比如交叉字段)或相似行为特点的网络流量,然后再结合生成流量的样本数据,进行层叠式与关联式的反复挖掘,往往可以极大地填补传统引擎的空白,提升综合检出的覆盖能力。

分字段的启发式关联分析显示,在忽略大小写的情况下,域名yirenna.com与pconline.com.cn所属的完整URL之间存在两个相互交叉或共同的字段,即“pconline”和“getSoftInfo”。“pconline”在这组URL的域名和路径中交叉出现,而“getSoftInfo”是这组URL的共同字段。

交叉字段已经明确了这组URL之间存在的“巧合”,这组URL之间肯定存在着关联性,它们的背后可能隐藏着更多不为人知的秘密。为获取进一步的信息,我们将目光转向生成这组URL的样本。

三、伪装应用
中国是一个农业大国,农业是我们国家经济发展的基础。当世界经济整体向好的时候,国家经济中的其他产业的蓬勃发展也会推动整体的经济走向繁荣。但是,在世界经济转向萧条的时候,我们国家的应对方式是利用我们的大陆纵深和农业人口优势,将危机转嫁到农村来化解。即在危机的时候,我们回归到国家经济的根本——农业中来,这种方法屡试不爽,一次次使我们国家渡过难关,迎接新的曙光。

同样的,在病毒分析与查杀领域,庞大的样本库就是我们的“纵深大陆”,是我们进行一切工作的根本,传统引擎和人工智能引擎都是建立在样本的基础之上。在分析工作平稳进行的阶段,我们试图探索超越样本本身的检出维度,希望以新发现的检出维度来提升整体检出水平。但是,当我们在新的维度上遇到困难时,我们也会选择回归分析的根本——样本上来,依靠360烽火实验室数以亿计的样本数据库,我们总能拨云见日,看见新的曙光。

回到样本上,我们很容易地发现了更多的异常现象。生成这组异常流量的样本具备明显的盗版标识:虽然图标和软件名称与对应的正版软件一致,但是其包名和证书表现出一眼就能被识别为盗版的特征。这批样本的包名均为“com.abc.demo”,证书名称均为“C=50”,这显然不是正版软件应该具备的包名和证书。至此我们基本可以断定这批样本及其生成的流量具备某种不良的意图。

部分样本图标、名称、包名、证书以及证书MD5如下表:

第二章      可疑样本

一、反常更新
蝉蛹在地下蛰伏两三年之后,会爬上大树继续缓慢生长若干年。等到背上出现一道黑色的裂缝,便开始了蜕皮的过程,蜕皮之后就变成了自由自在的知鸟。蝉蛹的蜕变是为了从蛰伏中解脱出来,但是在病毒木马的世界里,存在着层出不穷的以其能够长期蛰伏为目的逆向的“蜕变”,我们对每一种这样的“蜕变”都保持着高度的警惕性。

动态运行样本之后,我们发现了“蜕变”过程:这些盗版的应用启动之后,无一例外地会向用户展示一个更新提示框,显示“发现新版本,旧版本中发现重大风险已不能使用,请下载新版本”。从我们以往的经验来看,病毒木马的自更新行为有两种常见的情况:一种是因为功能模块的升级,但是大多采取静默更新的方式;另一种是意图诱导用户安装相关的恶意模块。但是我们并不能根据经验不做任何验证便判定其属于哪一种情况,因为经验不是一成不变的真理,会随着经历的增长而不断地被刷新。这一次,我们的经验确实又被刷新了。样本的更新意图既不是模块升级,也不是诱导用户安装新的模块,而是更新到同名称的正版应用,如下图所示:

这种更新确实是一种反常的更新行为,即便对于病毒木马来说也是反常的,但是并不难推测其真实意图:通过诱导用户安装正版应用,并通过隐藏图标的方式隐藏自身的存在,而由于木马的包名与正版应用不同,木马本身并不会因为更新行为而被正版应用替换掉,且可以继续长期潜伏。这实际上就是木马作者同用户之间玩了一次障眼法,用户自此使用的便是正版应用,也不会发觉到任何异常现象。

通过抓取更新过程中的流量数据包,我们弄清楚了域名yirenna.com与pconline.com.cn的作用,yirenna.com提供了一个原始的访问链接,这个链接会重定向到pconline.com.cn,而pconline.com.cn提供了正版应用的下载地址:

样本从服务器上请求正版软件下载地址如下图所示:

二、流量作弊
常规分析的过程总是由动态分析入手发现明显的可疑行为,然后转向静态分析进行深入细致的解剖。在确定了TOP域名的作用之后,关于最初线索的谜题已经完全解开,我们进一步将目光转向样本的静态特征,在静态分析的过程中,我们很容易便发现该批样本的流量作弊行为,该行为与我们2015年发现的“流量僵尸”如出一辙,但在具体的作弊内容上却表现得更加丰富。

样本调用浏览器模拟打开网页和用户点击行为:

三、重要线索
通过简单的动态和静态分析,我们已经基本确定了样本的主要行为与意图。由于我们已经注意到这批样本与“流量僵尸”具有相同的行为,所以我们非常急切地想要知道这批作弊样本背后的团伙是否依然是“流量僵尸”的制造者。通过提取上千的刷量链接,并使用交叉字段分析技术,我们成功地提取出相关渠道的标识——“ff_hongtuxinda_12”。

第三章      流量泡沫

一、谁在制造泡沫
提取渠道标识的主体部分,并输入Google进行查询,我们找到了该渠道的相关信息,如下图所示:

二、作弊样本规模
下图描绘了作弊样本的时间分布图,从图中可以看出样本出现的时间是2016年1月,自2016年1月到2016年7月之间样本总数整体维持在个位数水平,推测这段时间是木马作者的测试期。但是从2016年7月开始,样本数量呈现稳步上升的趋势,感染样本总数已达到3.8万。需要说明的一点是,由于4月的数据只统计到了4月11号,使得曲线走势看起来是向下的,但实际趋势仍在增长。

统计最近一周感染用户的次数,我们得到如下统计图。该图显示从2017年4月11号到2017年4月17号作弊样本感染用户的次数正逐步降低,这表明我们的查杀正在遏制样本的传播。尽管如此,作弊样本最近一周感染用户的总次数依然达到了6.4万次。

三、作弊频率分析
刷量的频率是流量作弊的一个重要因素,根据频率我们能够推算出刷量的次数以及刷量产生的资金规模。该批样本的刷量频率硬编码在代码之中,每隔30秒的时间便会执行一次刷量行为:

四、泡沫规模
每30秒完成一次刷量行为,据此每个受害用户的手机每天能产生2880次虚假访问,最近一周产生的虚假访问总数为1.8亿次。按照每千次10元到20元的收费标准,最近一周能为该渠道创造185万元的收入。

首先,每位受害者每日产生的虚假访问数可以根据如下公式计算得出,为2880次(24 60 60秒÷30秒/次):

然后,一周产生的虚假访问总数可以根据如下公式计算得出,为1.8亿次(2880次×64212人):

最后,一周作弊总收入可以根据如下公式计算得出,为185万元(1.8亿次÷1000次×10元):

五、泡沫成分解析
通过分析服务器返回的作弊内容,我们发现主要包含四个方面:广告展示(实际触发的过程中包含模拟点击)、搜索关键字、搜索主页与新闻主页。其中广告展示占到了88%的比例,新闻主页占比6%,搜索关键字占比4%,搜索主页占比2%。

广告展示内容举例如下图所示(需要说明的是,下图以及其后的搜索主页内容举例中的例子,是为展示内容而人工触发的,实际刷量过程中,广告展示、模拟点击、主页展示以及搜索都在后台进行,用户无感知):

搜索主页和新闻主页内容举例,包含hao123、头条新闻等(作弊行为与hao123、头条新闻等被刷量的网站无关):

通过统计刷量过程中生成的2000个搜索关键词,我们得到如下图所示的关键词类别分布图:

该图显示出现频率最高的为网络资源类的关键词,占比33%,主要包括一些软件资源、视频资源和学习资料等,这也是网民日常上网行为中搜索最多的关键词,这一占比比较符合实际情况。商品信息和服务信息依次占据第二和第三,占比分别为24%和23%,由此可以看出样本的作弊行为在关键词分布上高度模拟真人的搜索情况,其意图可能是为了躲避网络联盟的反作弊检测。

单个关键词频次TOP举例如下表所示:

六、流量曲线分析
下图这组流量曲线数据为被刷量的网站在2017年4月14日到2017年4月16日之间的网站访问情况,三组高度重叠的波峰显示了它们在这三个小的时间区间之内均发生了集中的大量访问,其中一次出现在凌晨三点。这种访问量的共同集中爆发并不是由于网站用户的正常访问造成的,因为用户不可能在凌晨三点集中访问这几个网站。这种异常访问量的唯一合理解释是它们的“访客”受到了同一个控制中心的统一操纵,即存在着由同一个团伙执行的流量作弊行为。

七、其他恶意行为
值得注意的是,除了流量作弊外,该样本还会搜集用户手机的WiFi信息,破解WiFi密码,并将所有这些信息上传至指定服务器。下图为获取所有WiFi信息的代码截图:


第四章      庞大的产业

一、分类
流量产业可以从多个维度进行分类,但是从分析的角度出发,比较合理的分类方式有如下两种:

  1. 按平台分为PC平台和移动平台;
  2. 按媒体类型可分为垂直媒体、广告联盟(AdNetwork)、综合门户以及视频。

360烽火实验室对流量黑产的研究主要集中在分类1中的移动平台和分类2中的广告联盟(AdNetwork),我们发布的报告《移动平台流量黑产研究——色情播放器类恶意软件产业链》以及《流量僵尸木马及流量黑产分析报告》中涉及的流量黑产均属于移动平台和广告联盟的交叉范畴,本次报告揭露的流量作弊行为依然属于移动平台流量黑产和广告联盟(AdNetwork)的交叉范畴。

二、规模
根据AdMaster给出的数据,2016年上半年移动平台的流量泡沫比例为19.80%,PC平台的流量泡沫比例为35.16%,PC平台的流量泡沫比例暂时高于移动平台。但是随着黑产从业者向移动平台的逐步迁徙,以及日益增长的移动设备数量的影响,移动平台的流量泡沫比例将逐步攀升。

下图展示了2016年全年无效流量的占比分布情况,可以看到无效流量在2016年12月份达到了38.70%的峰值,最低比例出现在10月份,但是依然达到了22.30%。无效流量的规模如此之大,反映出互联网流量存在严重的泡沫,以及可能广泛存在的肆无忌惮的流量作弊行为。

三、发展趋势
达尔文在《物种起源》中指出,一切植物和动物都具有按照几何级数增长的倾向,凡是在那些适合生存的地方,他们都能够迅速地布满每一处。计算机病毒与生物病毒具备诸多的相似性,所以达尔文的增长理论同样适用于计算机世界的恐怖生物——病毒,当一种计算机病毒发现新的传播平台之后,亦可实现几何级数的增长。

下图展示了2014年到2016年分媒体类型点击异常趋势,我们注意到广告联盟的点击趋势自2015年起出现了一个近乎“直线拉升”式的增长(如下图箭头所示),这种现象与我们的研究结果基本一致:我们在2015年发现移动平台首个流量作弊木马——“流量僵尸”,这一发现预示着流量作弊类木马开始在移动平台上开疆拓土。由于移动设备的庞大覆盖量以及远超PC的用户黏性,移动平台产生的流量泡沫将极大地稀释广告联盟整体流量的有效性,2015年到2016年的“直线拉升”完全是合乎情理的。

第五章      应对策略

一、广告联盟的反作弊策略及其局限性
下图基本涵盖了广告联盟的一般反作弊策略,主要从点击、IP地址、来源、时间顺序、ALEXA数据等维度进行监控和判断。

当作弊行为转移到移动平台之后,上面的很多策略都将失效。比如作弊者通过篡改设备ID号或者使用模拟器等进行作弊,并伪造虚假的网络环境。设备ID修改、IP地址离散、机型变换、时间分散等技术在移动平台已经相当成熟,这些技术可以有效地躲避基于点击、IP地址和时间序列等维度的检测。

二、异常流量监测系统
360烽火实验室基于庞大的样本库及样本衍生数据(包含样本生成的流量)打造了一套实力强大的综合检出体系,该体系包含传统杀毒特征引擎AVE、人工智能启发引擎QVM、动态养殖沙箱以及异常流量监测系统。其中异常流量监测系统在发现和跟踪色情播放器类恶意软件的传播与产业、发掘流量作弊行为以及监控恶意广告类样本的爆发方面起到了重要作用。

在生物学的领域,物种性状和习性的明显差异有利于其适应更加多样的环境,最大化地填补地理空缺,覆盖更加广袤的地球空间。异常流量监测系统对于样本查杀和发现流量作弊行为的意义亦在于此,流量数据既超脱于杀毒引擎所立足的样本数据,也不同于广告联盟的所有监测维度,能够有效地填补查杀和监测的空白。

如下图所示,异常流量监测系统目前主要包含了如下五大功能模块:流量分布分析模块、TOP域名监测模块、启发式关联分析模块、产品联动分析模块以及样本联动分析模块。流量分布分析模块对流量的整体分析进行分析,能够及时发现一定时间范围内的异常现象;TOP域名监测模块对每日域名增量中的TOP进行监测和分析,能够发现新增异常流量;启发式关联分析模块根据指定规则进行关联和分析,能够有效地对流量进行聚类和挖掘;产品联动分析模块结合产品数据,进一步扩大检出和查杀的范围;样本联动分析模块结合样本级别、状态等数据进一步挖掘潜在的相关流量。

此外,在异常流量监测方面,我们充分发挥了360互联网安全中心各安全产品和技术间的协同作用,比如借助360网络安全研究院的产品进行辅助分析,来充分挖掘异常流量。

360烽火实验室

360烽火实验室,致力于Android病毒分析、移动黑产研究、移动威胁预警以及Android漏洞挖掘等移动安全领域及Android安全生态的深度研究。作为全球顶级移动安全生态研究实验室,360烽火实验室在全球范围内首发了多篇具备国际影响力的Android木马分析报告和Android木马黑色产业链研究报告。实验室在为360手机卫士、360手机急救箱、360手机助手等提供核心安全数据和顽固木马清除解决方案的同时,也为上百家国内外厂商、应用商店等合作伙伴提供了移动应用安全检测服务,全方位守护移动安全。

作者:奇虎360技术博客
分享奇虎360公司的技术,与安全的互联网共同成长。

发表评论