python + appium抓取小红书

Python020

python + appium抓取小红书,第1张

环境安装教程

import time

from appium import webdriver

from pymongo import MongoClient

import threading

con = MongoClient('127.0.0.1', 27017)

db = con.xiaohongshu

cur = db.xhs

caps = {

"platformName": "Android",

"deviceName": "127.0.0.1:62025",

"appPackage": "com.xingin.xhs",

"platformVersion": "5.1.1",

"appActivity": ".activity.SplashActivity",

"noReset": True, # 免登陆TRUE

"unicodeKeyboard": True # 解决不能输入中文的问题

}

def getSize():

x = driver.get_window_size()['width']

y = driver.get_window_size()['height']

return (x, y)

def swipeUp():

l = getSize()

x1 = int(l[0] * 0.5) # x坐标

y1 = int(l[1] * 0.75) # 起始y坐标

y2 = int(l[1] * 0.25) # 终点y坐标

driver.swipe(x1, y1, x1, y2)

def swipeDown():

l = getSize()

x1 = int(l[0] * 0.5) # x坐标

y1 = int(l[1] * 0.25) # 起始y坐标

y2 = int(l[1] * 0.75) # 终点y坐标

driver.swipe(x1, y1, x1, y2)

def data():

title = driver.find_element_by_id("com.xingin.xhs:id/bdb").text

content = driver.find_element_by_id("com.xingin.xhs:id/bbo").text

print("标题------>", title)

print("内容------>", content)

swipeUp()

# swipeUp(3500)

if name == ' main ':

通过用户在小红书购买数据,探究不同变量对累计购买金额的影响,同时构建利润线性回归模型。主要使用python和SPSS。

数据共有29452条记录,7个变量:

(1) Revenue 用户下单的购买金额

(2) 3rd_party_stores 用户过往在app中从第三方购买的数量,为0则代表只在自营商品中购买

(3) Gender 性别 1:男 0:女 未知则空缺

(4) Engaged_last_30 最近30天在app上有参与重点活动(讨论,卖家秀),0:未参与,1:参与

(5) Lifecycle 生命周期分为A,B,C (分别对应注册6个月内,1年内,2年内)

(6) days_since_last_order 最近一次下单距今的天数 (小于1则代表当天有下单)

(7)previous_order_amount 以往累积的用户购买金额

不同变量对累计购买金额的影响

结论:男性的平均累计购买金额比女生高,更具购买力。

结论:参与活动的用户平均累计购买金额更高

结论:注册6个月内的购买力较强些

结论:最近一次下单时间间隔越短,平均累计购买金额越高

结论:在第三方购买数量与平均累计金额看不出规律。

利润线性模型

1)把lifecycle转换为虚拟变量

与利润相关系数较大的变量为:age,engaged,last_order,accumulation

3)线性回归

回归方程为:

revenue=-2.575age+57.826engaged+7.634last_order+0.069accumulation+330.774

但调整后的R方只有0.032,表示只有3.2%的利润变化能用这些变量去解释,所以此模型对预测利润的作用很小。