pdftools——提取PDF文本内容

2023-02-27 00:35:02Python09

pdftools——提取PDF文本内容,第1张

因工作需要，希望快速提取pdf中的文本内容，但是又不想用pdf转换工具（容易乱码），因此搜索了R语言有没有能够实现PDF文本提取的包，发现了pdftools包用来提取pdf指定页码的text文本，分享一下！

亲测效果还不错，如果担心有乱码的话，就运行到

这一步，print一下，然后复制粘贴好了，直接导出到word我还不怎么会，有会的小伙伴留言哦！

首先打开R语言的命令行编辑窗口

先以简单数据为例，在R命令行窗口输入如下代码：

data_test<-data.frame(c1<-c(7,8,9,10,11,12),c2<-c(23,36,87,54,15,98),c3<-c(400,325,567,212,698,555))；

attach(data_test)；

pdf("c:/four.pdf",family="GB1")；

plot(c1,c2)；

dev.off()；

detach(data_test)；

完成上述代码后，会在对应的输入路径（这里是C:/）下生产此pdf格式文件（这里命名为one.pdf）。使用pdf阅读器打开此文件查看。

完成上述代码后，会在对应的输入路径（这里是C:/）下生产此pdf格式文件（这里命名为two.pdf）。使用pdf阅读器打开此文件查看。

文本会在代码乱码阅读器

# 上一篇：Ruby转换文件编码的问题

# 下一篇：什么是java源代码怎么查看

给您推荐相同类型的内容：

Go语言——sync.Map详解
sync.Map是1.9才推荐的并发安全的map，除了互斥量以外，还运用了原子操作，所以在这之前，有必要了解下 Go语言——原子操作go1.10srcsyncmap.go entry分为三种情况：从read中读取k
R语言学习由浅入深路线图
R语言学习由浅入深路线图_数据分析师考试现在对R感兴趣的人越来越多，很多人都想快速的掌握R语言，然而，由于目前大部分高校都没有开设R语言课程，这就导致很多人不知道如何着手学习R语言。对于初学R语言的人，最常见的方式是：遇到不会的地方，就
java中两个字符串如何比较大小？
int1 int2 long t1="= result 20131011"IntegerSimpleDateFormat("有三种方法实现第一种直接用字符串类的compareTo方法t1int yyyyM
六星教育：Python和go语言都很火，我要怎么选？
python和go语言有区别：1、Python语法使用缩进来指示代码块；Go语法基于打开和关闭括号；2、Python是基于面向对象编程的多范式语言；Go是基于并发编程范式的过程编程语言。3、Python是动态类型语言，Go是静态类型语言
求分布式对象存储原理架构及Go语言实现 pdf
分布式存储架构由三个部分组成：客户端、元数据服务器和数据服务器。客户端负责发送读写请求，缓存文件元数据和文件数据。元数据服务器负责管理元数据和处理客户端的请求，是整个系统的核心组件。数据服务器负责存放文件数据，保证数据的可用性和完整性。该架
Go语言常用正则表达式
https:oktools.netregex https:github.comcdococommon-regex https:blog.csdn.netzfy1355articledetails529598
ruby如何替换字符串的多个
"abcdefghijklmnopqrstuvwxyz".slice(9, 6)找第10个字符开始的6个字符也就是第10到第15个索引从0开始所以是9, 6当然因为这是 ruby 所以我们还可以这么写"a
rubywoo是什么颜色
ruby woo是雾面正红色。mac ruby woo上色效果极好，由于质地比较干，在涂唇膏时需要打底。mac ruby woo持久度简直堪称完美，所以不用担心掉色、粘杯等现象。这个系列其它色号还有BRONX、RUNWAY HIT、DANG
C语言指针方法？
#include&ltstdio.h&gtint main(){int a,b,c,s[3],tint *x,*y,*z定义指针变量x=&ampa将a的地址赋给指针x，下同y=&ampbz=&am
怎么在linux中编写c语言程序
首先需要有一个安装好gcc的Linux系统，然后进行代码的编写进行测试演示工具：Ubuntu12.04步骤进入Linux系统后，启动一个shell命令终端，在Ubuntu的三键启动终端方法是同时按下Ctrl键+Alt键+t 启动后如下
讲讲go语言的结构体
作为C语言家族的一员，go和c一样也支持结构体。可以类比于java的一个POJO。在学习定义结构体之前，先学习下定义一个新类型。新类型 T1 是基于 Go 原生类型 int 定义的新自定义类型，而新类型 T2 则是基于
r语言中flare包中sqrt函数怎么用
R里的函数如果有输出的话要在最后单独把输出写一下（或者用return）。你那个函数就应该最后加一行w或者return(w)MATLAB基本上天生就比R快，尤其是矩阵计算（个人感觉for循环也快很多）。人家是商业软件嘛，还是以矩阵计算起家的；
倪妮拍片真招摇，趴在桌子上凹造型，侧身曲线接近S型，你爱了吗？
娱乐圈中有很多女演员都拥有出色的表演技巧，但我个人一直很喜欢倪妮这个女演员，观看倪妮的拍摄不仅是一次洗礼，而且是一场视觉盛宴倪妮的表演技巧不需要太赞，她获得的与表演相关的奖项是最好的证明，倪妮的首演时间很长，她曾出现在许多影视作品中，屏幕上
Java类的命名规则是什么
1．使用完整描述符来准确地描述变量、字段或类。例如，使用的名称可以是 FirstName、GrandTotal 或 Corporate Customer。虽然像 x1、y1 或 fn 这样的名称较短容易输入，但是它们并不提供任何信息指出它
少儿编程要用什么书籍
核桃编程|少儿编程书籍|等级考试资料百度网盘免费资源在线学习链接: https:pan.baidu.coms1mITMqMgVTYv1scJFV9hZjA提取码: njr2 核桃编程少儿编程书籍等级考试资料 L4阶段
R语言常用函数整理（基础篇）
R语言常用函数整理本篇是基础篇，即R语言自带的函数。 vector：向量 numeric：数值型向量 logical：逻辑型向量 character；字符型向量 list：列表 data.frame：数据框 c：
r语言reg是什么意思
reg英 [redʒ]美 [rɛdʒ]n. 汽车牌照更多释义&gt&gt[网络短语]Reg 国王,雷哲,面域REG regulate 控制,校准,节制Reg Thomas 托马斯首先声明，用R来处理字符串数据并不是一个很好的
什么是java源代码怎么查看
你说的java源代码是指编译成的class文件前的java文件。当我们运行.java文件时，它会被系统编译成.class文件，例如Test.java编译之后就是Test.class，源文件就是指Test.java文件，一般部署项目时，有.c
R中实现行列的重命名
reference：《数据科学：R语言实现》——3.2　重命名数据变量https:yq.aliyun.comarticles119507?spm=a2c4e.11153940.blogcont119506.12.65ff47
Python的就业前景怎么样？
Python未来的前景怎么样？就业岗位多不多bai？薪资高不高？今天就来看一下详细分析。1、为什么这么多人学Python呢？很多初学者都听说python很火，可是为啥要学Python，下面谈谈我的感悟。Python语言是我目前为止用的
java里的awt是什么意思？
awt是（AbstractWindowToolkit）的缩写，它是java一个抽象窗口工具包，提供了很多图形界面组件类。例如Button、TextField等。jdk1.2中新加了一个swing包，也是用来做图形界面的，功能和awt一样，不
面试问题总结（一）Golang
使用go语言的好处: go语言的设计是务实的, go在针对并发上进行了优化, 并且支持大规模高并发, 又由于单一的码格式, 相比于其他语言更具有可读性, 在垃圾回收上比java和Python更有效, 因为他是和程序同时执行的.1.
怎么用C语言读取PDF文件
1.pdf（PortableDocumentFormat的简称，意为“便携式文档格式”），是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图象模型为基础
Python中的单例模式与反弹机制
一。单例模式一般情况下,类可以生成任意个实例,而单例模式只生成一个实例我们先用单例模式设计一个Rectangle类然后用__new__方法设计单例模式，代码如下然后我们来验证下，单例模式下是否只能生成
color2 redmi 区别
color2 redmi 区别如下。1、屏幕外观color2手表采用圆形表盘，搭载1.39英寸AMOLED屏幕，屏幕分辨率466x466像素。Redmi Watch采用方形表盘，配备1.41英寸AMOLED屏幕，屏幕分辨率320x36
c语言用户注册代码
C语言编程实现用户的注册和登录#include "stdafx.h"#include "string.h"#define n 20void zhuce()void denglu()char yhm[n
C语言编程：实现用户的注册和登录
模拟用户注册和登陆可以用文件来保存用户名和密码。注册就是向文件里写，用if判断两次密码是否一致。连续三次，可以有一个变量，每次输入加一，变量大于三就提示登陆不成功。用户名不对，那你就把你输入的用户名和文件里的用户名是否一致。#include
C语言中怎么编写一个让用户注册登陆并将其注册的信息密码保存的程序模块？
#include "stdafx.h"x0dx0a#include "string.h"x0dx0a#define n 20x0dx0ax0dx0avoid zhuce()x0dx
c语言编程中怎么用文件存储数据？具体一点，谢谢
1、新建一个文件夹，并在文件夹中建立一个文档。2、打开自己的C语言编辑器。3、新建一个源文件。4、写好C语言基本的框架。5、将文件保存到新建的文件夹中。6、保存的文件名一定要加.c，在点击保存。7、输入下面的代码。8、点击文档，输入的内容就
C语言最基础的知识
auto ：声明自动变量一般不使用 double ：声明双精度变量或函数 int：声明整型变量或函数 struct：声明结构体变量或函数 break：跳出当前循环 else ：条件语句否定分支（与 if 连用） long ：声明长整型变

推荐阅读

热门文章

最新发布

标签列表

pdftools——提取PDF文本内容

给您推荐相同类型的内容：