如何用r语言爬取json的数据

Python012

如何用r语言爬取json的数据,第1张

如果以后抓取网页碰到动态加载的数据,可以考虑使用 phantomjs 如果想更暴力直接开出一个有界面的浏览器做各式各样的操作,达到ajax无阻碍的,可以用Selenium + Beautifulsoup

处理和响应JSON数据

使用 HTTP POST 方法传到网站服务器的数据格式可以有很多种,比如「获取POST方法传送的数据」课程中讲到的name=Loen&password=loveyou这种用过&符号分割的key-value键值对格式。我们也可以用JSON格式、XML格式。相比XML的重量、规范繁琐,JSON显得非常小巧和易用。

如果POST的数据是JSON格式,request.json会自动将json数据转换成Python类型(字典或者列表)。

编写server.py:

from flask import Flask, request

app = Flask("myapp")

@app.route('/add', methods=['POST'])

def add():

    print(request.headers)

    print(type(request.json))

    print(request.json)

    result = request.json['n1'] + request.json['n2']

    return str(result)

if __name__ == '__main__':

    app.run(host='127.0.0.1', port=5000, debug=True)

编写client.py模拟浏览器请求:

import requests

json_data = {'n1': 5, 'n2': 3}

r = requests.post("http://127.0.0.1:5000/add", json=json_data)

print(r.text)

运行server.py,然后运行client.py,client.py 会在终端输出:

注意,请求头中Content-Type的值是application/json。

响应JSON

响应JSON时,除了要把响应体改成JSON格式,响应头的Content-Type也要设置为application/json。

编写server.py:

from flask import Flask, request, Response

import json

app = Flask("myapp")

@app.route('/add', methods=['POST'])

def add():

    result = {'sum': request.json['n1'] + request.json['n2']}

    return Response(json.dumps(result),  mimetype='application/json')

if __name__ == '__main__':

    app.run(host='127.0.0.1', port=5000, debug=True)

修改后运行。

编写client.py:

import requests

json_data = {'n1': 5, 'n2': 3}

r = requests.post("http://127.0.0.1:5000/add", json=json_data)

print(r.headers)

print(r.text)

运行client.py,将显示:

client终端返回的第一段内容是服务器的响应头,第二段内容是响应体,也就是服务器返回的JSON格式数据。

另外,如果需要服务器的HTTP响应头具有更好的可定制性,比如自定义Server,可以如下修改add()函数:

@app.route('/add', methods=['POST'])

def add():

    result = {'sum': request.json['n1'] + request.json['n2']}

    resp = Response(json.dumps(result),  mimetype='application/json')

    resp.headers.add('Server', 'python flask')

    return resp

client.py运行后会输出:

{'Content-Type': 'application/json', 'Content-Length': '10', 'Server': 'python flask', 'Date': 'Wed, 11

Sep 2019 09:09:18 GMT'}

{"sum": 8}

响应JSON

使用 jsonify 工具函数。

from flask import Flask, request, jsonify

app = Flask("myapp")

@app.route('/add', methods=['POST'])

def add():

    result = {'sum': request.json['n1'] + request.json['n2']}

    return jsonify(result)

if __name__ == '__main__':

    app.run(host='127.0.0.1', port=5000, debug=True)

运行结果: