python 爬虫 CSS 出现错误IndexError: list index out of range

html-css012

python 爬虫 CSS 出现错误IndexError: list index out of range,第1张

Traceback (most recent call last):

File "D:\Program Files (x86)\JetBrains\PyCharm Educational Edition 1.0.1\helpers\pydev\pydev_run_in_console.py", line 66, in <module>

globals = run_file(file, None, None)

File "D:\Program Files (x86)\JetBrains\PyCharm Educational Edition 1.0.1\helpers\pydev\pydev_run_in_console.py", line 28, in run_file

pydev_imports.execfile(file, globals, locals) # execute the script

File "D:/python/xpth/xpathPractice.py", line 51, in <module>

results = pool.map(spider, page)

File "D:\anzhuang\Anaconda\lib\multiprocessing\pool.py", line 251, in map

return self.map_async(func, iterable, chunksize).get()

File "D:\anzhuang\Anaconda\lib\multiprocessing\pool.py", line 558, in get

raise self._value

IndexError: list index out of range123456789101112123456789101112

出现如上所示的错误:

IndexError 下标索引超出序列边界,比如当x只有三个元素,却试图访问x[5]

报错:

NotImplementedError: Cannot execute CSS selectors because the soupsieve package is not installed.

是这个函数

def fetch_city_weather_url_list(url):

    city_url_list = []

    resp = requests.get(url)

    resp.encoding = 'utf-8'

    bs = BeautifulSoup(resp.text,'lxml')

    # a_s = bs.find('a')

    a_s = bs.select('div.conMidtab a')

因为是自学,有些知识不系统,在网上搜索很久没找到答案,后来回朋友才知道

网络站点爬取

爬取网络站点的库Scrapy – 一个快速高级的屏幕爬取及网页采集框架。cola – 一个分布式爬虫框架。Demiurge – 基于PyQuery 的爬虫微型框架。feedparser – 通用 feed 解析器。Grab – 站点爬取框架。MechanicalSoup – 用于自动和网络站点交互的 Python 库。portia – Scrapy 可视化爬取。pyspider – 一个强大的爬虫系统。RoboBrowser – 一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。

交互式解析器

交互式 Python 解析器。

IPython – 功能丰富的工具,非常有效的使用交互式 Python。

bpython- 界面丰富的 Python 解析器。

ptpython – 高级交互式Python解析器, 构建于python-prompt-toolkit 之上。

图像处理

用来操作图像的库.

pillow – Pillow 是一个更加易用版的 PIL。

hmap – 图像直方图映射。

imgSeek – 一个使用视觉相似性搜索一组图片集合的项目。

nude.py – 裸体检测。

pyBarcode – 不借助 PIL 库在 Python 程序中生成条形码。

pygram – 类似 Instagram 的图像滤镜。

python-qrcode – 一个纯 Python 实现的二维码生成器。

Quads – 基于四叉树的计算机艺术。

scikit-image – 一个用于(科学)图像处理的 Python 库。

thumbor – 一个小型图像服务,具有剪裁,尺寸重设和翻转功能。

wand – MagickWand的Python 绑定。MagickWand 是 ImageMagick的 C API 。

HTTP

使用HTTP的库。

requests – 人性化的HTTP请求库。

grequests – requests 库 + gevent ,用于异步 HTTP 请求.

httplib2 – 全面的 HTTP 客户端库。

treq – 类似 requests 的Python API 构建于 Twisted HTTP 客户端之上。

urllib3 – 一个具有线程安全连接池,支持文件 post,清晰友好的 HTTP 库。

数据库

Python实现的数据库。

pickleDB – 一个简单,轻量级键值储存数据库。

PipelineDB – 流式 SQL 数据库。

TinyDB – 一个微型的,面向文档型数据库。

ZODB – 一个 Python 原生对象数据库。一个键值和对象图数据库。

Web 框架

全栈 web 框架。

Django – Python 界最流行的 web 框架。

awesome-django系列

Flask – 一个 Python 微型框架。

https://github.com/humiaozuzu/awesome-flask系列

Pyramid – 一个小巧,快速,接地气的开源Python web 框架。

awesome-pyramid系列

Bottle – 一个快速小巧,轻量级的 WSGI 微型 web 框架。

CherryPy – 一个极简的 Python web 框架,服从 HTTP/1.1 协议且具有WSGI 线程池。

TurboGears – 一个可以扩展为全栈解决方案的微型框架。

web.py – 一个 Python 的 web 框架,既简单,又强大。

web2py – 一个全栈 web 框架和平台,专注于简单易用。

Tornado – 一个web 框架和异步网络库。

HTML处理

处理 HTML和XML的库。

BeautifulSoup – 以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。

bleach – 一个基于白名单的 HTML 清理和文本链接库。

cssutils – 一个 Python 的 CSS 库。

html5lib – 一个兼容标准的 HTML 文档和片段解析及序列化库。

lxml – 一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。

MarkupSafe – 为Python 实现 XML/HTML/XHTML 标记安全字符串。

pyquery – 一个解析 HTML 的库,类似 jQuery。

untangle – 将XML文档转换为Python对象,使其可以方便的访问。

xhtml2pdf – HTML/CSS 转 PDF 工具。

xmltodict – 像处理 JSON 一样处理 XML。

游戏开发

超赞的游戏开发库。

Cocos2d – cocos2d 是一个用来开发 2D 游戏, 示例和其他图形/交互应用的框架。基于 pyglet。

Panda3D – 由迪士尼开发的 3D 游戏引擎,并由卡内基梅陇娱乐技术中心负责维护。使用C++编写, 针对 Python 进行了完全的封装。

Pygame – Pygame 是一组 Python 模块,用来编写游戏。

PyOgre – Ogre 3D 渲染引擎的 Python 绑定,可以用来开发游戏和仿真程序等任何 3D 应用。

PyOpenGL – OpenGL 的 Python 绑定及其相关 APIs。

PySDL2 – SDL2 库的封装,基于 ctypes。

RenPy – 一个视觉小说(visual novel)引擎。