python一直在扫描文件索引,怎么办?

Python018

python一直在扫描文件索引,怎么办?,第1张

这个索引的目的是为了更新目录中的文件情况,便于平时快速定位,但有些目录中可能有太多文件并且我们不会用着,所以这时需要将某些文件太多的目录排除在索引之外,具体步骤如下:(IDE是pycharm)

1、选择file/settings

2、选择project structure,在右侧会出现你项目中的目录结构,选中某个目录,然后点击上方的excluded,该目录则会被添加到最右侧的列表中,只要出现在此列表中,则不会进行索引。

应项目需求需要获取PDF扫描文件的内容,但寻遍整个网络能达到这种功能的产品,都要会员充值。苦于囊中羞涩也只好编写功能代码来实现了。

如PDF中表格图片图-1效果生成图-2

整个步骤为:读取PDF文件->生成图片->ORC获取图片内容->写入Excel

我这里是获取JRT 0197-2020金融数据安全 数据安全分级指南.pdf扫描文件,将内部表格数据写入到excel文件。

没有仔细看这个代码。这的确算得是黑客手段了。但是也有可能是人家网站自己的维护程序。

主要是根据网站上的一些备份习惯,先猜出网站的zip文件的文件名。然后再将这个zip文件下载下来。这样就避免了一个网页一个网页的去下载。

但是如果网站里设置了zip文件不能下载。则这个下载方法是行不通的。

这里excavate_zip,从字面意思看应该是处理zip中的网页。到底是下载呢,还是到根目录去扫描。从权限从安全管理看。

除非网站设置了统一的跨服务器的维护权限(应该有这个权限),否则是没有办法扫描目录的。所以从这个角度看。这个程序应该是网站自己的维护程序。

那么下载文件呢,通常也是有严格权限管理的。直接下这种ZIP真还没有试验过。网站通常用目录有访问权限设置。除非是维护人员自己留下的后门,否则也不可能。

另外既然你拿出来问了,就应该不是黑客程序。