linux怎么过滤html标签

html-css09

linux怎么过滤html标签,第1张

第一个函数:将一个字段中的刮号去除

第二个函数:将html中的所有标签去除

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import MySQLdb

import sys

import re

我一般使用BeautifulSoup,还是比较简单的

soup=BeaitifulSoup(html,'html.parser')

要找到某各元素使用find_all方法就行

for div in soup.find_all('div'):

但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行