pdftools——提取PDF文本内容

Python09

pdftools——提取PDF文本内容,第1张

因工作需要,希望快速提取pdf中的文本内容,但是又不想用pdf转换工具(容易乱码),因此搜索了R语言有没有能够实现PDF文本提取的包,发现了pdftools包用来提取pdf指定页码的text文本,分享一下!

亲测效果还不错,如果担心有乱码的话,就运行到

这一步,print一下,然后复制粘贴好了,直接导出到word我还不怎么会,有会的小伙伴留言哦!

首先打开R语言的命令行编辑窗口

先以简单数据为例,在R命令行窗口输入如下代码

data_test<-data.frame(c1<-c(7,8,9,10,11,12),c2<-c(23,36,87,54,15,98),c3<-c(400,325,567,212,698,555));

attach(data_test);

pdf("c:/four.pdf",family="GB1");

plot(c1,c2);

dev.off();

detach(data_test);

完成上述代码后,会在对应的输入路径(这里是C:/)下生产此pdf格式文件(这里命名为one.pdf)。使用pdf阅读器打开此文件查看。

完成上述代码后,会在对应的输入路径(这里是C:/)下生产此pdf格式文件(这里命名为two.pdf)。使用pdf阅读器打开此文件查看。