自学Python:网络爬虫引发的三个问题

Python015

自学Python:网络爬虫引发的三个问题,第1张

网络爬虫是指是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本

爬虫很方便,但是也会引发三个问题,如果使用不好,或许会导致法律风险。

01.骚扰问题

就好比骚扰电话一样,服务器本来是给用户访问的,但是爬虫的访问可以带来快速上万次的访问,影响服务器的性能,给本来想访问的用户带来卡顿。不过服务器这边也会有响应的防爬技术限制。

02.法律风险

不是任何数据你都可以爬取的,如果你违规获取了一些信息,是要受到法律惩罚的。想要完全出入自由的黑客还是很少的。

03.隐私泄露

爬取的很多信息可能是用户私人的内容,就会造成很多隐私泄露导致的问题,比如照片门之类的后果。

基于此,所以有了Robots协议,是每个人都要遵守的,但是也可以不遵守,就可能有法律风险。就好比红绿灯,你可以遵守也可以不遵守,你要考虑为自己的行为负责。

_______________END______________

1. 找不到文件

您已设置完毕并准备好运行分析,但是在从 Minitab 命令行(或通过单击工具栏中的按钮)调用脚本时,Minitab 的输出窗格中显示错误:

打开凤凰新闻,查看更多高清图片

首先,请确保已按照文档在您的计算机上安装了 Python 和 mtbpy 模块。

通常,设置 Python 脚本的默认文件位置即可解决此问题。使用 Minitab 中的以下菜单路径:文件 >选项,然后单击第一个字段右侧的“...”按钮浏览至 Python 脚本的保存位置:

单击确定保存更改。请注意,默认文件位置也是保存和打开 Minitab 文件的默认文件夹;保存后,Minitab 将使用此位置作为默认设置,直到您在此窗口中再次更改此选项。更改后,请再次尝试运行脚本,应该会马到成功!

如果仍出现相同的消息,则可能是 Minitab无法找到 Python 安装。要解决此问题,可能需要将 Python 添加到系统环境变量,此项更改可能需要求助于您的 IT 团队。

2. Python脚本未创建任何 Minitab 输出

假设您从 Minitab 调用脚本后,输出窗格中显示了另一条您意料之外的消息:

出现此条消息的原因有两种。可能是因为您执行的 Python 脚本未包括将结果发送回 Minitab 的命令。或者,如果脚本的结果为输出文件(例如 .CSV),则您可能需要在 Minitab 中手动打开此文件。无论是哪种原因,解决方案都一样:检查在 Minitab 中设为默认文件位置的文件夹:

在上面的示例中,我需要的 Python 脚本结果是一个 CSV 文件。我在 Minitab 默认文件位置中找到该文件,然后通过鼠标单击文件并将其拖动到 Minitab 中。