用python网页爬虫怎么获取到okcoin的历史数据

2023-02-25 14:03:01Python021

用python网页爬虫怎么获取到okcoin的历史数据,第1张

一，获取整个页面数据

首先我们可以先获取要下载图片的整个页面信息。

getjpg.py

#coding=utf-8

import urllib

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

print html

Urllib 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据。首先，我们定义了一个getHtml()函数:

urllib.urlopen()方法用于打开一个URL地址。

read()方法用于读取URL上的数据，向getHtml()函数传递一个网址，并把整个页面下载下来。执行程序就会把整个网页打印输出。

二，筛选页面中想要的数据

Python 提供了非常强大的正则表达式，我们需要先要了解一点python 正则表达式的知识才行。

假如我们百度贴吧找到了几张漂亮的壁纸，通过到前段查看工具。找到了图片的地址，如：src=”http://imgsrc.baidu.com/forum......jpg”pic_ext=”jpeg”

修改代码如下：

import re

import urllib

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

def getImg(html):

reg = r'src="(.+?\.jpg)" pic_ext'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

return imglist

print getImg(html)

我们又创建了getImg()函数，用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式：

re.compile() 可以把正则表达式编译成一个正则表达式对象.

re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。

运行脚本将得到整个页面中包含图片的URL地址。

三，将页面筛选的数据保存到本地

把筛选的图片地址通过for循环遍历并保存到本地，代码如下：

#coding=utf-8

import urllib

import re

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

def getImg(html):

reg = r'src="(.+?\.jpg)" pic_ext'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

x = 0

for imgurl in imglist:

urllib.urlretrieve(imgurl,'%s.jpg' % x)

x+=1

print getImg(html)

这里的核心是用到了urllib.urlretrieve()方法，直接将远程数据下载到本地。

通过一个for循环对获取的图片连接进行遍历，为了使图片的文件名看上去更规范，对其进行重命名，命名规则通过x变量加1。保存的位置默认为程序的存放目录。

程序运行完成，将在目录下看到下载到本地的文件。转载，仅供参考。

各种股票软件，例如通达信、同花顺、大智慧，都可以实时查看股票价格和走势，做一些简单的选股和定量分析，但是如果你想做更复杂的分析，例如回归分析、关联分析等就有点捉襟见肘，所以最好能够获取股票历史及实时数据并存储到数据库，然后再通过其他工具，例如SPSS、SAS、EXCEL或者其他高级编程语言连接数据库获取股票数据进行定量分析，这样就能实现更多目的了。

数据页面整个图片正则表达式

# 上一篇：Ruby怎么将数组转换为函数参数

# 下一篇：图灵课堂java互联网架构师怎么样?

给您推荐相同类型的内容：

Java语言中有哪些必备的开发工具？
想要成为Java技术大牛并不容易，技术大牛不仅需要具备扎实的开发技能，还需要掌握开发工具和框架的使用，在开发中，工具的选择和使用是非常重要的，工具的功能不同使用的情况也不同。下面电脑培训为大家具体介绍Java软件开发必备的开发工具。1、Mo
C语言，i--和--i有什么区别，怎么用？
--i和i--都是自减运算符--i称为前缀运算，i--称为后缀运算前缀运算后，表达式的值为原变量值减1；后缀运算后，表达式的值仍为原变量值；而变量值不论前缀运算还是后缀运算都减1。例如：i=10--i的值为原变量值减1，是9；现在的变量i也
c语言中什么叫引用？
引用（reference）是c++对c语言的重要扩充。引用引入了对象的一个同义词。定义引用的表示方法与定义指针相似，只是用&amp代替了*，例如： Point pt1(10,10)。Point &amppt2=pt1，定义
如何用R语言写一个程序，后输入向量，通过程序输出并集与交集，不是直接用intersect和unio？
&gtA=LETTERS[1:10]&gtB=LETTERS[5:15]##交集&gtintersect(A,B)[1] "E" "F" "G" "
图灵课堂java互联网架构师怎么样?
图灵java架构师课程很全，java的整个生态基本上都讲了，内容很多，是我学java以来，所看的所有视频中，讲得最好的。知识点讲得非常细致，深入，生动形象，通俗易懂。诸葛老师讲的JVM、Netty、各种中间件源码课程，杨过老师讲的并发编程，
初学编程,C语言中的main函数
考虑到main函数的特殊性，lz不明白这个问题可以理解。 main()是省略了返回值类型，C语言会默认认为成main的类型为int，在main()的函数体内要返回一个值，如return 0而void main()的返回值是void类型，也就
Java培训四个月靠谱吗?能学到什么?
很多想学Java都会经历这样一个选择，是自学还是报班?自学的话需要一步步摸索，从无到有硬啃下来，时间没保证可如果报班的话，目前市面上五花八门的培训机构又是鱼龙混杂，并且现在越来越多的培训机构宣称“4个月学Java保证高薪就业”真的是这样吗?
python和ruby脚本区别大吗？他们与php互相调用方便吗？另外在怎么在php里面获取shell输入的内容？
三个PHP调用系统命令函数的区别与联系我们在执行linux系统的shell命令时，会用到PHP调用系统命令函数来实现。那么在这些函数中，主要包括了system()，exec()，passthru()这三个经常用于外部命令调用的函数。虽然这三
python3.7 pop3 请求过于频繁报错
根据我个人经验来看，这个应该是163邮箱的一种限制策略，因为正常人不会这么频繁地去刷新邮箱信息，只有程序或者机器人能达到这个频率，所以被他的后台程序识别出来了，如果想模仿正常人的操作，可以在你的程序里调用random模块，然后让它随礼取一个
C语言与算法和数据结构分别有什么关系？
数据结构的主要作用是帮助你提升自己的编程思维！使你编写程序的时候有一个好的思维和框架！使你写的代码和程序有一个好的框架！数据结构研究的是数据的逻辑结构、存储结构(物理结构)和数据的运算.其中的数据运算就是指算法算法只是具体的实现步骤的
如何利用Python语言对字典数据类型进行各种操作
第一步，声明一个字典tree，赋值name和sale键，并打印字典值第二步，添加字典键值对，字典是由键值对来构成的，声明一个字典hudi并赋值；再次利用该字典添加一个键值对，然后打印添加后的值第三步，对添加的键值对进行修改键值，获取age这
c语言求最大公约数
最大公约数c语言编程的常用思路是：按照从大（两个整数中较小的数）到小（到最小的整数1）的顺序求出第一个能同时整除两个整数的自然数，即为所求。两个数的最大公约数有可能是其中的小数，所以在按从大到小顺序找寻最大公约数时，循环变量i的初值从小数
C语言的0和1都是什么意思啊？
1&lt&lt0是把1按2进制左移0位，结果还是1,2进制000000011&lt&lt1,是把1按2进制左移1位，结果是2,2进制00000010------------------------------
c语言编程中为什么要先建立工程？
C语言编程并没有要先建立工程的需求。x0dx0a工程是一些编程工具的说法，在使用部分编程工具时，会先要求建立工程，然后编程工具可以根据工程属性，对代码进行管理，编译等。x0dx0a使用这类工具，并用工程管理源代码，可以节省编程人员的
Ruby如何计算文件夹大小
计算文件大小的不会，给你看看行数计算吧Ruby文件行数计算代码示例：module Enumerable# function to get total lines for filedef total_lineslines = 0each_wi
《C语言程序设计第四版》pdf下载在线阅读全文，求百度网盘云资源
《C语言程序设计第四版》百度网盘pdf最新全集下载:链接: https:pan.baidu.coms1OJyaV3BLbsB8eBo8cUAvBQ?pwd=gvk5 提取码: gvk5简介：《C程序设计（第四版）》是由谭浩强编著，
编译java程序的命令是什么，运行java应用程序的命令是什么？
当前默认目录为C盘Users文件夹下的Administrator文件夹。一般而言，我们习惯改变当前目录。由于windows有磁盘分区，若要跳到其他磁盘，例如E盘，有几种方法：1、输入命令：pushd路径（此命令可将当前目录设为所希望的任一
如何自学C语言？高手进来传授一下学习经验
这种问题是交给我吧，呵呵，下面是针对你所有问题的回答：问题1:可不可以跳过第五章学习后面的内容？答：可以。第一次的学习总是会有疑问的，你学久了，自然明白循环嵌套其实很简单，现在不明白就暂时跳过吧。问题2：第五章和后面的章节联系紧密么？答：不
C语言中for循环怎么理解？
for循环是编程语言中一种开界的循环语句，而循环语句由循环体及循环的终止条件两部分组成，for循环其在各种编程语言中的实现与表达有所出入，但基本为以C语言和pascal语言代表的两种形式。程序解读：开始i=0，i＜10，执行for循环的
Python中的封装有什么作用？
日常生活中可以看到很多的汽车，汽车包括车轮、发动机、车架等零部件。可以在车架上安装车轮，然后安装发动机，最后安装其他零件，刷漆。就形成了汽车。这个过程，是把各种零件放到车架上的过程。但思考一下，对于开车的人，需要关注车的内部结构吗?答案显然
拉布拉多算多大的狗家里60平能不能养啊？
拉布拉多算一种中大型犬，大概25-34kg 。拉拉是很占空间的狗狗，六十平方确实有点苦了它，不过也算可以养，要常常带狗狗去散散步，因为拉拉的力气大，活动量也很大，需要主人多一点耐心来训练它。拉拉忠实开朗，聪明听话，不过主人要多一点时间陪陪狗
老男孩python全栈培训怎么样
学python，选择学校时最重要的就是真实体验，现在大部分学校都可以试听，建议大家可以去试听一下。而老男孩教育是行业内比较专业的python培训学校，具备以下几点优势：Python培训机构：2012年末，我校基于Python在运维自动化，云
电脑怎么用记事本写Java程序并运行？
1. 新建一个记事本，后缀名是 .java ；然后在里面写一段java的代码，如图：2.把写好的java文件丢进D盘，就是第一步给出的那个class文件；3. 打开dos界面开始-〉运行-〉cmd-〉这个是命令行模式,选择D盘，如图
python是动态语言，是不是弱类型语言
不是。python是强类型语言，一个变量不经过强制转换，它永远是这个数据类型，不允许隐式的类型转换。例如：1+"2" 在python中会报错，因为一个数字，一个是字符串，python是强类型语言，不会默认进行转换，所以报
应用程序已被JAVA安全阻止怎么办
应用程序已被阻止java在访问含有java程序的页面时，出现如图应用程序已被阻止的问题对话框，提示您的安全设置已阻止不可信应用程序运行。点击确定后，在含有java的页面中会出现“错误。请单击以获取详细信息”。java应用程序已被阻止的问题并
一文读懂Python 高阶函数
将函数作为参数传入，这样的函数称为高阶函数。函数式编程就是指这种高度抽象的编程范式。变量可以指向函数，函数的参数能接收变量，那么一个函数就可以接收另一个函数作为参数，这种函数就称之为高阶函数。如下所示： map(fun
Java函数式编程语言是什么？
函数式编程语言的核心是它以处理数据的方式处理代码。这意味着函数应该是第一等级（First-class）的值，并且能够被赋值给变量，传递给函数等等。事实上，很多函数式语言比这走得更远，将计算和算法看得比它们操作的数据更重要。其中有些语言想分离
Windows系统中如何安装Python扩展模块
Python是非常灵活的语言，我们可以在它的基础上安装很多的扩展模块。那么如何在Windows系统中安装Python扩展模块呢？下面我给大家分享一下。工具材料CMD命令行自定义安装首先我们需要自己手动下载Python扩展
Python中的“ @”（@）符号有什么作用？
【@】符号在python中是装饰器的意思。装饰器对一个可调用对象（函数、方法、类等等）进行装饰，它返回的也是一个可调用对象。一般情况下，装饰器是对被装饰对象的修饰与增强。用现实事物类比的话，可以类比为中间商：中间商不生产产品，它将工厂生产的
C语言格式化输入输出（关于日期）
写下这篇文章，主要是记载自己的学习心得，同时也分享给所有正在学习c语言的小白们。关于日期的输出呢，看起来是挺简单的，但当题目要求输入比如：2019--10--01或者2019--09--10，正在学习c语言的人（包括我）就会卡在这，如

推荐阅读

热门文章

最新发布

标签列表

用python网页爬虫怎么获取到okcoin的历史数据

给您推荐相同类型的内容：