首先,你去爬取一个网站,
你会清楚这个网站是属于什么类型的网站(新闻,论坛,贴吧等等)。
你会清楚你需要哪部分的数据。
你需要去想需要的数据你将如何编写表达式去解析。
你会碰到各种反爬措施,无非就是各种百度各种解决。当爬取成本高于数据成本,你会选择放弃。
你会利用你所学各种语言去解决你将要碰到的问题,利用各种语言的client组件去请求你想要爬取的URL,获取到HTML,利用正则,XPATH去解析你想要的数据,然后利用sql存储各类数据库。
python新手代码是:
1、shuizitiqu.py——————数字提取。
2、socker_ping.py——————长ping 检测网络状态。
3、spider_tieba.py——————爬取百度贴吧图片。
4、tianqi.py——————微信自动回复天气。
5、ticket_searchTrain.py——————12306火车票查询。
6、ticket_stations.py——————12306火车站点。
7、txt.py——————txt文件抽取。
8、weixinhuifu.py——————微信自动回复天气。
9、xlsfile.py——————xls文件提取。