并无相关法律规定在淘宝上使用抢单软件犯法。
淘宝一般指淘宝网。淘宝网是亚太地区较大的网络零售、商圈,由阿里巴巴集团在2003年5月创立。
为提高用户淘宝广告点击率,通过分析淘宝用户广告点击记录及对应的用户信息和广告信息表,用python 进行数据合并后进行数据清洗、提取数据特征,做特征工程分析,分析影响用户点击广告的因素,建立简单逻辑回归模型,预测用户是否点击广告;
https://tianchi.aliyun.com/dataset/dataDetail?dataId=56
数据集简介(详情见数据集链接):
数据集一共4个表,因为是广告点击预测,就用了前面三个表,表描述如下:
主表:raw_sample
以clk 作为后逻辑回归模型数据集标签,后面会改名称为flag
数据清洗:
以user id+ time_stamp查看,会有很多重复的记录。删除重复时间+用户ID,设置唯一标识;
查看目前数据集大小:
查看空值:
查看点击占比:
ad_feature
数据清洗:
查看重复值:
和主表做关联生成date1:
查看合并后的空值:
查看点击占比:
user_profile
查看重复值:
和date1做关联生成date2:
最终数据表信息:
查看点击比例:
删除不需要做分析的ID标识符字段:
最终数据表点击比例:
类别字段:男女占比/学生占比
时间字段:
数据集只有时间戳字段,我们从中提取星期数以及对应时间段来看时间趋势;
查看点击趋势:
对星期数再区分以便后面做特征提取
同样对小时进行分组方便后面的特征处理
连续型字段处理:
price:
查看广告价格描述性统计信息:
给广告价格分区:
时间字段可以删除:
查看目前缺失数据,需要填充缺失数据:
查看缺失占比,pvalue_level缺失的比较多,用一个特殊的数字填充,这里用的9999.0
空值填充:如果是数值类型,用平均值取代;如果是分类数据,用最常见的类别取代;
查看剩余连续数据的分布和描述性统计信息:
删除分完区的原始列:
把sex标准化变成0/1:
目前数据预览:
Age_leavel/wechat_group 分类太多,后面做特征编码的时候生成的特征太多,对它进行分区:
数据集重命名备份:
对前面提取的特征用使用get_dummies进行one-hot编码(类似的做法,就贴三个)
分类列stu我们编码后保留一个特征:
相关系数法:计算各个特征的相关系数
查看各个特征与点击情况(flag)的相关系数,ascending=False表示按降序排列:
截取了相关系数前后几个,都不高,用户本身广告点击率就很低;
广告价格、资源位、性别、商品类别、周五比较能影响用户点击;
根据各个特征与flag的相关系数大小,选择了这几个特征作为模型的输入:
建立训练数据集和测试数据集:
建立逻辑回归并计算逻辑正确率: