使用python在淘宝上进行抢单犯法吗

Python08

使用python在淘宝上进行抢单犯法吗,第1张

不违法。

并无相关法律规定在淘宝上使用抢单软件犯法。

淘宝一般指淘宝网。淘宝网是亚太地区较大的网络零售、商圈,由阿里巴巴集团在2003年5月创立。

为提高用户淘宝广告点击率,通过分析淘宝用户广告点击记录及对应的用户信息和广告信息表,用python 进行数据合并后进行数据清洗、提取数据特征,做特征工程分析,分析影响用户点击广告的因素,建立简单逻辑回归模型,预测用户是否点击广告;

https://tianchi.aliyun.com/dataset/dataDetail?dataId=56

数据集简介(详情见数据集链接):

数据集一共4个表,因为是广告点击预测,就用了前面三个表,表描述如下:

主表:raw_sample

以clk 作为后逻辑回归模型数据集标签,后面会改名称为flag

数据清洗:

以user id+ time_stamp查看,会有很多重复的记录。删除重复时间+用户ID,设置唯一标识;

查看目前数据集大小:

查看空值:

查看点击占比:

ad_feature

数据清洗:

查看重复值:

和主表做关联生成date1:

查看合并后的空值:

查看点击占比:

user_profile

查看重复值:

和date1做关联生成date2:

最终数据表信息:

查看点击比例:

删除不需要做分析的ID标识符字段:

最终数据表点击比例:

类别字段:男女占比/学生占比

时间字段:

数据集只有时间戳字段,我们从中提取星期数以及对应时间段来看时间趋势;

查看点击趋势:

对星期数再区分以便后面做特征提取

同样对小时进行分组方便后面的特征处理

连续型字段处理:

price:

查看广告价格描述性统计信息:

给广告价格分区:

时间字段可以删除:

查看目前缺失数据,需要填充缺失数据:

    查看缺失占比,pvalue_level缺失的比较多,用一个特殊的数字填充,这里用的9999.0

空值填充:如果是数值类型,用平均值取代;如果是分类数据,用最常见的类别取代;

查看剩余连续数据的分布和描述性统计信息:

删除分完区的原始列:

把sex标准化变成0/1:

目前数据预览:

Age_leavel/wechat_group 分类太多,后面做特征编码的时候生成的特征太多,对它进行分区:

数据集重命名备份:

对前面提取的特征用使用get_dummies进行one-hot编码(类似的做法,就贴三个)

分类列stu我们编码后保留一个特征:

相关系数法:计算各个特征的相关系数

查看各个特征与点击情况(flag)的相关系数,ascending=False表示按降序排列:

截取了相关系数前后几个,都不高,用户本身广告点击率就很低;

广告价格、资源位、性别、商品类别、周五比较能影响用户点击;

根据各个特征与flag的相关系数大小,选择了这几个特征作为模型的输入:

建立训练数据集和测试数据集:

建立逻辑回归并计算逻辑正确率: