怎么利用爬虫技术抓取淘宝搜索页面的产品信息

2023-04-29 10:46:02JavaScript049

怎么利用爬虫技术抓取淘宝搜索页面的产品信息,第1张

可以通过requests库re库进行淘宝商品爬虫爬取

import requests

import re

def getHTMLText(url):

try:

r= requests.get(url,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def parsePage(ilt,html):

try:

plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)

tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

for i in range(len(plt)):

price = eval(plt[i].split(':')[1])

title = eval(tlt[i].split(':')[1])

ilt.append([price,title])

except:

print("F")

def printGoodsList(ilt):

tplt = "{:4}\t{:8}\t{:16}"

print(tplt.format("序号","价格","商品名称"))

count = 0

for g in ilt:

count = count +1

print(tplt.format(count,g[0],g[1]))

def main():

goods = '书包'

depth = 2

start_url = "https://s.taobao.com/search?q="+ goods

infoList = []

for i in range(depth):

try:

url = start_url +'&s='+str(44*i)

html = getHTMLText(url)

parsePage(infoList,html)

except:

continue

printGoodsList(infoList)

main()

这段代码在过去是可以爬取淘宝商品信息，但是因为淘宝的反扒技术升级，便不能让你大摇大摆地进出自如了。

此外也可以借助采集实现采集

// ==UserScript==

// @name JD

// @namespace http://tampermonkey.net/

// @version 0.1

// @description try to take over the world!

// @author You

// @match https://item.jd.com/*

// @grant none

// ==/UserScript==

/* jshint -W097 */

'use strict'

// Your code here...

var divObj=document.createElement("input")

divObj.type="button"

divObj.value='获取抓取内容'

divObj.style.marginTop="20px"

divObj.style.marginBottom="20px"

divObj.style.marginLeft="50px"

var first=document.body.firstChild

document.body.insertBefore(divObj,first)

var result={}

divObj.onclick=function(){

//获取价格

if(document.getElementById("jd-price")){

var priceDiv=document.getElementById("jd-price")

var price = priceDiv.innerText

price = price.substr(1)

}else if(document.getElementById("price")){

var pricePri=document.getElementById("price")

var priceDiv=pricePri.firstElementChild

var price = priceDiv.innerText

}else if(document.getElementsByClassName("price")[0]){

var priceClass=document.getElementsByClassName("price")

var priceDiv=priceClass[0]

var price = priceDiv.innerText

}

result.price=price

}

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：angularjs中的双花括号是什么功能

# 下一篇：css如何使图片变小并在一个圆的中心

给您推荐相同类型的内容：

java有什么常用开源的框架？
java常用开源框架如下：x0dx0a1.Spring Framework 【Java开源JEE框架】x0dx0ax0dx0aSpring是一个解决了许多在J2EE开发中常见的问题的强大框架。 Spring提供了管理业务对象的一
我的世界0.14一键生成幻想天使号战舰JS插件在哪儿下载
我的世界0.14一键生成幻想天使号战舰JS插件下载地址,相信很多小伙伴都想知道关于我的世界0.14一键生成幻想天使号战舰JS插件下载地址的信息，所谓工欲善其事必先利其器，下面小编带给大家有关我的世界0.14一键生成幻想天使号战舰JS插件
java 调用接口获取服务器IP和端口号？
package test5public interface A {void setAll(int ID,String IP)String getAll()}package test5public class B implements A{S
初学python，pylab scatter散点图的颜色条怎么显示
这张图的代码是Movie.plot.scatter(x='rank',y='RatingNum',c='Rating10',s=80)，Movie是一个DataFrame，其中右侧
R语言自学笔记-2内置数据集
#b站视频——R语言入门与数据分析 #内置数据集 #固定格式的数据（矩阵、数据框或一个时间序列等） #统计建模、回归分析等试验需要找合适的数据集 #R内置数据集，存储在，通过 help(package="dat
div css分割线用哪个标签控制最好？
html中的meta标签。用display:inline-block实现，这个属性通俗一点的解释就是让块级元素可以在一行显示。既是块级元素又可以在同一行显示就可以设置display:inline-block.我们看下面的代码是如何来实现分割
js保留小数位
一、我们首先从经典的“四舍五入”算法讲起 1、四舍五入的情况 2、不四舍五入第一种，先把小数边整数：第二种，当作字符串，使用正则匹配：注意：如果是负数，请先转换为正数再计算，最后转回负数再分享一个经典的解决四
javascript 如何使用sin,cos,pi等数学函数及应用
javascript 对象执行数学任务： Math 对象方法以下内容引自w3学校： http:www.w3school.com.cnjsjsref_obj_math.asp如果要用其制作网页特效，方法就多种多样，一言难尽了主要看你
CSS样式优先级及穿透
CSS优先级是根据等级的值相加得出选择器的权重来决定的。 !important &gt行内样式 &gtID &gt类、伪类、属性 &gt标签名 &gt继承 &gt通配符计算权重方式
java设计模式都有哪些？
设计模式主要分三个类型:创建型、结构型和行为型。其中创建型有：一、Singleton，单例模式：保证一个类只有一个实例，并提供一个访问它的全局访问点二、Abstract Factory，抽象工厂：提供一个创建一系列相关或相互依赖对象的
《C程序设计语言第2版·新版》epub下载在线阅读，求百度网盘云资源
《C程序设计语言（第2版·新版）》（[美] Brian W. Kernighan）电子书网盘下载免费在线阅读资源链接：链接: https:pan.baidu.coms1VcMvPqk3VW0er-VOqODP3A提取码: ixs
css div中定位右下角
1、首先我不给div定位来看看两个div在浏览器中是如何显示的，具体的代码如下：如下图，可以看到两个div在没使用定位的情况下显示的位置，我们可以发现div是个块，自动换行了。2、相对定位：首先给div2使用相对定位，用position:
一个js方法中怎么调用另一个js文件
Js文件中调用其它Js函数的方法：1、例如有这样一个html，里面有一个按钮，当按下时调用b.js文件中的方法b()。而b()中又要调用a.js文件中的方法a()。那我们应该怎么做呢？首先，在html中引入b.js，并在&ltbo
怎么用CSS控制表单中的RADIO样式？
用label，例如：.add_cart_radio{ float:left margin-top:0.5em margin-right:0.5em}.add_cart_radio input[type="rad
js防水涂料怎样施工
js防水涂料施工方法如下：1. 基面处理：基面必须坚固、干净、平整、湿润；基面有孔隙、裂缝等缺陷的，预先用水泥砂浆修补抹平；阴阳角用抹刀修成半圆角；确保基面充分湿润，但无明水。2. 材料配比：JS弹性防水乳液：水泥=1：（0.6-0.8）的
css关于解决苹果手机底部小黑条适配问题
iPhoneX 取消了物理按键，改成底部小黑条，这一改动导致网页出现了比较尴尬的屏幕适配问题。对于网页而言，顶部（刘海部位）的适配问题浏览器已经做了处理，所以我们只需要关注底部与小黑条的适配问题即可（即常见的吸底导航、返回顶部等各种相对底部
js怎么控制滚动条使div在一定区间显示
js控制滚动条使div在一定区间显示方法步骤。一，新建一个html文件，命名为test.html，用于讲解如何使用JS控制DIV内容的滚动条。二，在test.html文件内，创建两个div模块，一个div模板包含另一个div模块。三，在te
css如何使图片变小并在一个圆的中心
css如何使图片变小并在一个圆的中心css把图片缩小的方法：可以通过设置图片的width或者height属性来实现图片的宽度高度，从而将图片缩小，比如在css中添加“width:300pxheight:200px”样式代码将图片设置成宽度3
html css用什么软件编写
htmlcss可以用notepad++编写。Notepad++是 Windows操作系统下的一套文本编辑器(软件版权许可证: GPL)，有完整的中文化接口及支持多国语言编写的功能(UTF8技术）。支持众多计算机程序语言:C,C++,Ja
R语言里做时间序列分析有哪些包
直接谷歌一下，“时间序列分析R语言”，就能得到你想要的结果以下结果来自，作者：詹鹏 2012-9-2022:46:46【包】library(zoo) #时间格式预处理library(xts) #同上l
Python的特点有哪些?
python的五个特点：1、简单易学python是一种代表简单主义思想的语言，阅读一个良好的python程序就感觉像是在读英语段落一样，尽管这个英语段的语法要求非常严格。python最大的优点之一是具有伪代码的本质，它使我们在开发pyt
js中如何比较两个时间
&lt!DOCTYPE html&gt&lthtml lang="en"&gt&lthead&gt&ltmeta charset="UTF-8"
json数据在JS 中如何读取
弱弱的问一下这个是json数据吗object{ "gc_id" : "11", "gc_name" : "【精致生活】", ......}
c语言程序设计考研听谁的课
谭浩强第五版《C程序设计》和《同步学习辅导》。推荐在中国大学mooc上看浙江大学翁凯教授所讲的c语言课程。老师讲的很好，可我把听了一遍后，发现自己还是不懂代码，看见c语言的大题和一些基础知识还是很懵，这和我听课的效率和第一次学习有很大关系。
css3如何实现边框阴影
我们在制作网页的时候可以用CSS3添加边框，那么如果要给边框添加阴影该怎么做呢？下面我给大家分享一下。工具材料SublimeText首先打开Sublime Text软件，新建一个HTML文档，如下图所示然后在html文
如何用R自动生成word文件
office 2007中不能直接打开VB编辑器，请按Alt + F11打开。 import win32com.client # 导入脚本模块 WordApp = win32com.client.Dispatch("Word.App
学javascript需要什么基础
Javasctipt简称Js，学习Js之前建议你先学习一下HTML+CSS，因为Javascript的基本操作是控制html的标签以及css的属性，实现各式各样的动态功能。千锋教育就有线上免费JavaScript线上公开课。JavaScri
c语言用什么编程软件？
学c语言可以用的软件推荐如下：1、TurboC是由美国Borland公司开发的一套C语言程序开发工具，Borland公司是一家专门从事软件开发、研制的大公司。该公司相继推出了一套Turbo系列软件，如TurboBASIC、TurboPasc
用css做一个书本的效果
&lt!--CSS--&gt&ltstyle&gt#bzWrap2 {background:transparent url(http:press.idoican.com.cnimagesbg_11.g
javascript 如何将1、2、3... 变成01、02、03....10 这样呢？
这是一个更通用的方法var count=10 for(var i=0i&ltcounti++){var ii = "0000000000" + iii = ii.substring(ii.length -

推荐阅读

热门文章

最新发布

标签列表

怎么利用爬虫技术抓取淘宝搜索页面的产品信息

给您推荐相同类型的内容：