如何用R语言爬取网页表格数据节省一天工作时间

2023-02-27 02:06:02Python012

如何用R语言爬取网页表格数据节省一天工作时间,第1张

如果以后抓取网页碰到动态加载的数据，可以考虑使用 phantomjs 如果想更暴力直接开出一个有界面的浏览器做各式各样的操作，达到ajax无阻碍的，可以用Selenium + Beautifulsoup

r是保持字符串原始值的意思，就是说不对其中的符号进行转义。因为windows下的目录字符串中通常有斜杠"\"，而斜杠在Python的字符串中有转义的作用。例如：\n表示换行如果路径中有\new就会被转义。加上r就是为了避免这种情况。

之前写过几种可能：在这里

我出现的问题：

第一：没有全屏模式，出现了其他按钮的遮挡

解决方案是：

driver.maximize_window()

第二：滑屏出现了问题

我参考的这一篇文章： selenium_通过selenium控制浏览器滚动条

里面的方法我都实验了一遍不知道为什么效果不理想

最後花钱找人解决了问题

driver.execute_script('document.documentElement.scrollTop={0}'.format(9000))

一条金贵的代码

最後附上代码实现翻页

import time

from seleniumimport webdriver

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

chrome_options.add_argument("'User-Agent': 'Mozilla/5.0 (Windows NT 10.0Win64x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'")

driver = webdriver.Chrome(chrome_options=chrome_options)

driver.get("http://www.mafengwo.cn/poi/5430915.html")

driver.maximize_window()

driver.find_element_by_xpath('//a[@title="蜂蜂点评"]').click()

driver.get_screenshot_as_file(r'C:\Users\weidu\PycharmProjects\day21\pachong\test\dianping.png')

# driver.execute_script("window.scrollBy(0,100000)")

driver.get_screenshot_as_file(r'C:\Users\weidu\PycharmProjects\day21\pachong\test\fanye.png')

driver.implicitly_wait(10)

# driver.switch_to.frame(0)

for _in range(5):

driver.execute_script('document.documentElement.scrollTop={0}'.format(9000))

time.sleep(1)

driver.find_element_by_xpath("//*[text()='后一页']").click()

字符串斜杠中有如果金贵

# 上一篇：JAVA语言如何进行异常处理？

# 下一篇：推荐一个GO语言教程，最好能从最基础的开始？

给您推荐相同类型的内容：

用R语言进行关联分析
用R语言进行关联分析关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系，描述数据之间的密切度。几个基本概念1.项集这是一个集合的概念，在一篮子商品中的一件消费品即
java 中timer类的用法是什么？
现在项目中用到需要定时去检查文件是否更新的功能。timer正好用于此处。用法很简单，new一个timer，然后写一个timertask的子类即可。package comz.autoupdatefileimport java.util.Tim
Python设计模式：工厂方法模式
工厂，大家一般能想到的是生产产品的地方，在设计模式中，工厂可分为：简单工厂模式、工厂方法模式。在前期推文 Python 简单工厂模式中有关于简单工厂模式的解读。根据工厂的抽象程度可分为：工厂方法模式、抽象工厂模式。
c语言怎样输出2位小数
c语言怎样输出2位小数的方法。如下参考：1.首先点击打开桌面上的vc++6.0软件，如下图所示。2.进入程序页面后，单击左上角的新文件。3.然后在新创建的文件中编写以下程序:#includeintmain(){floata,b一个=1.1
R 语言的优劣势是什么？
R编程语言在数字分析与机器学习领域已经成为一款重要的工具。随着机器逐步成为愈发核心的数据生成器，该语言的人气也必然会一路攀升。不过R语言当然也拥有着自己的优势与缺点，开发人员只有加以了解后才能充分发挥它的强大能力。R语言随时间推移正呈现出愈
推荐一个GO语言教程，最好能从最基础的开始？
Go 语言被设计成一门应用于搭载 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。对于高性能分布式系统领域而言，Go 语言无疑比大多数其它语言有着更高的开发效率。它提供了海量并行的支持，这对于游戏服务端的开发而言是再好不过
ruby 提交web表单数据的问题，web高手指教下
require 'nethttp'url = URI.parse('你要提交的地址')Net::HTTP.start(url.host, url.port) do |http|req = Net::
Java和c语言的区别
C语言是经典的面向过程的编程语言，编程入门一般都学C语言以了解编程以及锻炼逻辑思维能力，在一些跟硬件比较紧密的编程中也经常用到。x0dx0ax0dx0aC++是在C语言的基础上加入了面向对象的概念，成为混合型面向对象语言，功能强大，
Go语言基础语法（一）
本文介绍一些Go语言的基础语法。先来看一个简单的go语言代码： go语言的注释方法：代码执行结果：下面来进一步介绍go的基础语法。 go语言中格式化输出可以使用 fmt 和 log 这两个标
如何在windows下安装GIT
本文在Windows7下测试成功。安装和设置Git下载Git for Windows，采用默认安装，安装完成后就可以在本地使用Git了。但要将内容放到Github上，必须先在Github网站上注册个账户，然后在本机使用Git创建SSH Ke
郑州大学远程教育的考试题，请大神帮忙，C语言程序设计。多谢多谢！
二、简答题（6道小题，共30分）1、如何理解指针？（5分）指向内存地址。对指针的操作，是对地址的操作。2、函数原型有什么作用？声明函数，参数，和类型。3、文件包含的两种格式是什么？有什么区别？（5分） #include "
Go语言os标准库常用方法GetwdGetenvChdir
1. os.Getwd()函数原型：func Getwd()(pwd string, err error) 作用：获取当前文件路径返回：当前文件路径的字符串和一个err信息示例：输出：
python和ruby的异同
python和ruby的相同点：都强调语法简单，都具有更一般的表达方式。python是缩进，ruby是类basic的表达。都大量减少了符号。都是动态数据类型。都是有丰富的数据结构。都具有c语言扩展能力，都具有可移植性，比perl的可移植性更
R语言中的渐变色
如何使用R语言画出漂亮的图，颜色很重要，既要协调，又有有一定的分辨力。可以拿到任意多个颜色，当然颜色越多，分辨力越低。 barplot(rep(1,8), col=rainbow(8),border=NA) rainbow(8)
C语言指针的定义
指针就是地址。你说的是指针变量。整形变量，浮点变量，字符变量，指针变量。通过起名的规律就知道指针变量是储存地址的。指针变量和其他变量的用法一样，作用域一样。在一个子涵数中定义指针变量，是局部变量，其他函数是不能用的。不要把指针变量想的太复杂
python 怎么调用c语言接口
ctypes: 可直接调用c语言动态链接库。使用步骤：1&gt编译好自己的动态连接库2&gt利用ctypes载入动态连接库3&gt用ctype调用C函数接口时，需要将python变量类型做转换后才能作为函数参数
python文本内容替换？
这样编写：fa=open("A.txt","r")ta=fa.readlines()fb=open("B.txt","r")tb=fb.readlines()t
Java中的“类”是什么时候被加载到虚拟机?
1、编译和运行概念要搞清:编译即javac的过程，负责将.java文件compile成.class文件，主要是类型、格式检查与编译成字节码文件，而加载是指java *的过程，将.class文件加载到内存中去解释执行，即运行的时候才会有加载一
r语言 colmeans函数怎么写
&gta=matrix(1:9,3)&gta [,1] [,2] [,3][1,]147[2,]258[3,]369&gtcolMeans(a)[1] 2 5 8这是最后一篇讲解有关矩阵操作的博客，介绍有关矩阵的函数
怎么用R语言生成0-1之间的随机数？
1、第一步，调用runif()函数，这时函数内的值为6，生成6个随机数，如下图所示：2、第二步，再次调用runif()函数，runif(6)又生成6个随机数，如下图所示：3、第三步，使用set.seed(12345)设置种子元素，然后调用r
R语言中FEAR数据包装不上是什么原因
1、设置选项中选择合适的画质和音质2、关闭无关游戏程序，部分其他程序如杀软占用资源太多影响游戏运行。3、请更新您的显卡驱动。4、请确保硬件温度正常，过高的温度会使游戏效能下降。5、最重要的一点，帧数与显卡性能有直接关系。原文链接：http:
c语言中，如何在头文件中调用某个源文件的函数？？
file1.c头文件为file1.hfile2.c头文件为file2.h比如file2.c要调用file1.c里的一个函数首先file2.c里要包含file1.h头文件(file1.h里有file1.c的函数申明)然后file2.c文件里要
golang 对XP支持怎么样
总体还说还是非常有效而且实用的。1.为什么golang的开发效率高？golang是一编译型的强类型语言，它在开发上的高效率主要来自于后发优势，不用考虑旧有恶心的历史，又有一个较高的工程视角。良好的避免了程序员因为“ { 需不需要独占一行 ”
R语言可视化及作图2--低级绘图函数
R语言绘图系列： ⚠️在不确定将图例添加在什么位置时，可使用 locator函数。 locator()函数可以定位图上的点。运行locator函数之后在图上随便点一个点，点击finish就会返回刚刚那个点的位置坐标。使用t
翻白眼玩坏了的表情怎么制作
翻白眼玩坏了的表情可用python制作，具体步骤如下：1. 对于程序的编写，我们采取的是Python内置的turtle库，大家可以看一下手机微信中的“翻白眼”表情包，可以看到，翻白眼呈现的是完全轴对称的样式，所以画起来也是非常方便的，我们首
韩国五人女团有哪些
真的有很多！我打出来的都是现役的，起始成员5名后来增加的和本来是5名成员后来有退出的我都没写。比如Kara、Girl'sDay都有成员退出、F-veDolls(5dolls)有成员加入等，这些组合现在都不是5名的。另外，Secre
go语言中实现切片(slice)的三种方式
定义一个切片，然后让切片去引用一个已经创建好的数组。基本语法如下：索引1：切片引用的起始元素位索引2：切片只引用该元素位之前的元素例程如下：在该方法中，我们未指定容量cap，这里的值为5是系统定义的。在方法一
java求解，嵌套if如何实现
import java.util.Scannerpublic class Test { public static void main(String[] args) {
小米RUBY2019笔记本驱动
【PConline 聚超值】小米笔记本是小米于2018年推出的一款主打3000-4000元档的一款笔记本产品，硬件方面采用了8代i5-8250U处理器，8GB内存、1TB与128GB固态硬盘、2GB MX110英伟达显存、屏幕分辨率为108
Go 语言交叉编译和构建标签
现代应用支持多平台运行是一件稀松平常的事情，在 Go 语言里面，为了支持应用的多平台部署，给用户提供了方便的配置方式来轻松构建针对不同操作系统和平台的运行文件。 Go 的构建约束，即构建标签，是以go:build 为开始的行注释

推荐阅读

热门文章

最新发布

标签列表

如何用R语言爬取网页表格数据节省一天工作时间

给您推荐相同类型的内容：