[求助] python 如何爬取 网页上调用JS函数打开的视频链接

Python010

[求助] python 如何爬取 网页上调用JS函数打开的视频链接,第1张

selenium + phantomjs 模拟点击按钮,或者另写代码实现js函数openVideo();

顺着第一步再去解析新页面,看看能否找到视频的原始地址;

假设视频的原始地址第二步找到了,在通过视频的原始地址下载视频就OK啦。

思路如下:

使用urllib2库,打开页面,获取页面内容,再用正则表达式提取需要的数据就可以了。

下面给你个示例代码供参考,从百度贴吧抓取帖子内容,并保存在文件中。

# -*- coding:utf-8 -*-

import urllib2

import re

url='

page=urllib2.urlopen(url).read().decode('gbk')

none_re=re.compile('<a href=.*?>|</a>|<img.*?>')

br_re=re.compile('<br>')

title_re=re.compile('<h1 class="core_title_txt  " title="(.*?)"')

content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')

title=re.search(title_re,page)

title=title.group(1).replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')  

content=re.findall(content_re,page)

with open('%s.txt'%title,'w') as f:

    for i in content:

        i=re.sub(none_re, '', i)

        i=re.sub(br_re, '\n', i)        

        f.write(i.encode('utf-8').strip()+'\n')

1:可以使用opencv读取。

2:其代码如下:

#includehighgui.h

#includecv.h

//从摄像头中读入数据

int main(int argc,char** argv)

{

cvNamedWindow(Example1,CV_WINDOW_AUTOSIZE)

CvCapture* capture//初始化一个CvCapture结构的指针

if(argc==1)

{

capture=cvCaptureFromCAM(0)//如果参数为1,则从摄像头中读入数据,并返回一个CvCapture的指针

} //注:《学习OpenCV》中此处用cvCreateCameraCapture为错

else

{

capture=cvCreateFileCapture(argv[1])

}

assert(capture!=NULL)//断言(assert)使用,检查capture是否为空指针,为假时程序退出,并打印错误消息

IplImage* frame

while(1)

{

frame=cvQueryFrame(capture)//用于将下一帧视频文件载入内存(实际是填充和更新CvCapture结构中),返回一个对应当前帧的指针

if(!frame)

break

cvShowImage(Example1,frame)

char c=cvWaitKey(33)

if(c==27) break//出发ESC键退出循环,读入数据停止

}

cvReleaseCapture(capture)//释放内存

cvDestroyWindow(Example1)

}