selenium + phantomjs 模拟点击按钮,或者另写代码实现js函数openVideo();
顺着第一步再去解析新页面,看看能否找到视频的原始地址;
假设视频的原始地址第二步找到了,在通过视频的原始地址下载视频就OK啦。
思路如下:
使用urllib2库,打开页面,获取页面内容,再用正则表达式提取需要的数据就可以了。
下面给你个示例代码供参考,从百度贴吧抓取帖子内容,并保存在文件中。
# -*- coding:utf-8 -*-import urllib2
import re
url='
page=urllib2.urlopen(url).read().decode('gbk')
none_re=re.compile('<a href=.*?>|</a>|<img.*?>')
br_re=re.compile('<br>')
title_re=re.compile('<h1 class="core_title_txt " title="(.*?)"')
content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')
title=re.search(title_re,page)
title=title.group(1).replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')
content=re.findall(content_re,page)
with open('%s.txt'%title,'w') as f:
for i in content:
i=re.sub(none_re, '', i)
i=re.sub(br_re, '\n', i)
f.write(i.encode('utf-8').strip()+'\n')
1:可以使用opencv读取。2:其代码如下:
#includehighgui.h
#includecv.h
//从摄像头中读入数据
int main(int argc,char** argv)
{
cvNamedWindow(Example1,CV_WINDOW_AUTOSIZE)
CvCapture* capture//初始化一个CvCapture结构的指针
if(argc==1)
{
capture=cvCaptureFromCAM(0)//如果参数为1,则从摄像头中读入数据,并返回一个CvCapture的指针
} //注:《学习OpenCV》中此处用cvCreateCameraCapture为错
else
{
capture=cvCreateFileCapture(argv[1])
}
assert(capture!=NULL)//断言(assert)使用,检查capture是否为空指针,为假时程序退出,并打印错误消息
IplImage* frame
while(1)
{
frame=cvQueryFrame(capture)//用于将下一帧视频文件载入内存(实际是填充和更新CvCapture结构中),返回一个对应当前帧的指针
if(!frame)
break
cvShowImage(Example1,frame)
char c=cvWaitKey(33)
if(c==27) break//出发ESC键退出循环,读入数据停止
}
cvReleaseCapture(capture)//释放内存
cvDestroyWindow(Example1)
}