java 解析pdf表格

2023-05-01 23:31:01Python057

java 解析pdf表格,第1张

最近在帮公司做工具，需要读取PDF中表格的数据。网上查了，大部分PDFBox读取的代码都大致相同，一行一行从头读到尾。尝试读取PDF表格的人可能会遇到表格有空数据时，列与列就会对不齐，这样就不能很好地进行数据的处理了。网上看到一个例子，用iText坐标精确读取的例子，参考以后出现了亚洲语种字体不支持，添加了语言包iTextAsian.jar导入字体后，结果发现打印的都是空格无法处理。后找到了PDFBox坐标读取的方法，相当给力。在此过程中了解到有很多人遇到了我这样的问题。所以写下来望对现在还未解决问题还有以后遇到此问题的人提供帮助。

上代码：

package com.pdfbox.util.test

import org.apache.pdfbox.exceptions.InvalidPasswordException

import org.apache.pdfbox.pdmodel.PDDocument

import org.apache.pdfbox.pdmodel.PDPage

import org.apache.pdfbox.util.PDFTextStripperByArea

import java.awt.Rectangle

import java.util.List

public class ExtractTextByArea

{

ITEXT插件方法

/**

* @param pdf PDF文件路径

* @param txt 输出文本文件路径

* @throws IOException

public void parsePdf(String pdf, String txt) throws IOException {

PdfReader reader = new PdfReader(pdf)

PrintWriter out = new PrintWriter(new FileOutputStream(txt))

Rectangle rect = new Rectangle(70, 80, 490, 580)

RenderFilter filter = new RegionTextRenderFilter(rect)

TextExtractionStrategy strategy

for (int i = 1i <= reader.getNumberOfPages()i++) {

strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), filter)

out.println(PdfTextExtractor.getTextFromPage(reader, i, strategy))

}

out.flush()

out.close()

reader.close()

}

PDFBOX插件方法PDDocument document = PDDocument.load( args[0] )

if( document.isEncrypted() )

{

document.decrypt( "" )

}

PDFTextStripperByArea stripper = new PDFTextStripperByArea()

stripper.setSortByPosition( true )

Rectangle rect = new Rectangle( 10, 280, 275, 60 )

stripper.addRegion( "class1", rect )

List allPages = document.getDocumentCatalog().getAllPages()

PDPage firstPage = (PDPage)allPages.get( 0 )

stripper.extractRegions( firstPage )

System.out.println( "Text in the area:" + rect )

System.out.println( stripper.getTextForRegion( "class1" ) )

的人表格方法数据坐标

# 上一篇：【R语言】--- 散点图

# 下一篇：学电脑可以学什么呢？

给您推荐相同类型的内容：

js中的null
Null类型是第二个只有一个值的数据类型，这个特殊的值是null，从逻辑角度来看，null值表示一个空对象指针，而这也正是使用typeof操作符检测null值会返回“object”的原因，如下面的例子所示：如果定义的变量准备在将来用户
学电脑可以学什么呢？
您好，选择电脑技术的话要选择就业前景好的，只有自己喜欢才有学习的动力。那么针对适合学习的专业有以下几个可以参考下：第一，互联网应用技术基于逻辑思维能力与实践动手能力，让IT技术的学习变得游刃有余。而且如今的计算机是一个基础学科，万金油，哪行
电脑上红警怎么下载?
红色警戒电脑版可以在红警之家官网处下载，进入网站后，点击共和国之辉专题，最后点击下载即可，需要注意的是win10系统是无法运行红色警戒的，玩家需下载可以兼容win10的版本。【拓展内容】红色警戒（Red Alert）是美国EA游戏公司为PC
pythonr如何引入复数
数学中复数有a+bi表示，python中复数是由一个实数和一个虚数组合构成，表示为：x+yj一个复数有一对有序浮点数 (x,y)，其中 x 是实数部分，y 是虚数部分。我们可以通过help(a)命令来查看复数的帮助文档。Help on co
魔兽世界 TSM插件怎么安装啊
魔兽世界TSM插件直接复制在WOW文件夹的INTERFACE文件夹内即可。《魔兽世界》是由著名游戏公司暴雪娱乐所制作的第一款网络游戏，属于大型多人在线角色扮演游戏。游戏以该公司出品的即时战略游戏《魔兽争霸》的剧情为历史背景，依托魔兽争霸的
c语言x的含义是什么?
c语言x的含义是转义字符，告诉编译器需要用特殊的方式进行处理。x表示后面的字符是十六进制数，表示后面的字符是八进制数。C语言简介：C语言是一门面向过程的、抽象化的通用程序设计语言，广泛应用于底层开发。C语言能以简易的方式编译、处理低级
【CSS动画】饿了么加入购物车抛物线动画实现
每次吃饭点外卖的时候（暴露了自己是个死肥宅，手动滑稽），或者在淘宝购物的时候，将商品加入购物车时会有一个很炫酷的动画，如下图饿了么点餐动画：所以百度了一下前端使用css实现这个效果，然后就自己就照葫芦画瓢的写了一个小小的demo，完
深入理解 Daze.js 之 IoC 容器原理
Daze.js 底层通过容器的模式设计，所有功能都是基于这个容器进行构建，通过容器，我们可以实现解耦、依赖注入等功能我们创建一个普通的类然后再创建一个可能会被依赖的类第一个类依赖了第二个类这种形式就是我们最常见的模式
ts 自学笔记
就是强制转换的类型，人为的类型强制转换第一种使用尖括号(&ltstring&gtsomeValue).length 第二种使用as关键字 (someValue as string).length ts中使用
日本jd和jk是什么意思
“JK”是“女高中生”的意思。“JD”是“女大学生”。“JK”是JoshiKousei的简称，即女高中生。“JK”作为“女高中生”的用法如下：JKとは女子高校生（JoshiKoukousei）。または女子高生（JoshiKousei）
JS操作如何从后台获取图片并显示在<img>
&ltimg src="a" onclick="changeValidateImage()"&gtsrc指向的后台方法a，让它的返回response.getWriter().writ
零基础Python学习路线图，Python初学者必须要了解，让你
近几年Python的受欢迎程度可谓是扶摇直上，当然了学习的人也是愈来愈多。一些学习Python的小白在学习初期，总希望能够得到一份Python学习路线图，小编经过多方汇总为大家汇总了一份Python学习路线图。对于一个零基础的想学习pyth
r语言编写九九乘法表
mat =as.data.frame(diag(9))for( i in 1:9){for(j in 1:9)if(i&gt=j){mat[i,j]=paste(i,'x',j,'=',i*
零基础学习python编程好不好?
【导语】零基础是可以学python的，未来前景也是非常不错的，当然想要学python最好具备一定的计算机专业知识，如果想要学得特别精通，需要报辅导班，跟着专业的工程师去学习，下面就来给大家分享一下零基础学习python编程的要点，一起来了解
css中虚线长度的设置
&lt!DOCTYPE HTML&gt&lthtml&gt&ltmeta charset="UTF-8" &gt&lthead&gt&lt
防火墙能过滤 CSS、JS文件吗
可以过滤，防火墙就相当于闸门，对于试图通过的任何数据有分析判断的能力，亦有权拒绝或放行，对于文件，可以通过文件类型的甄别进行过滤，拒绝高风险的对话。当然，这些文件类型都可以由管理员设定。我封装成了函数，直接调用就可以了 function D
C语言中b--与--b有什么区别，举例说明？
b--是先运算再减--b是先减再运算b=2a=b--printf("%d %dn",a,b)a=2,b=1 先赋值再自减b=2a=--bprintf("%d %dn",a,b)a=1,b=1 先自
如何采用Python读取一个图像
我们可以用python实现很多功能，那么如何用python读取一个图像呢？下面我给大家分享一下。工具材料CMD命令行 01首先按下Win+R组合键打开运行界面，输入CMD，如下图所示02接下来在弹出的CMD界面中导入
python如何做界面
PyQt，一个基于Qt的Python接口包，可以直接使用Qt的控件，还可以使用QSS进行界面美化，下面我简单介绍一下这个包的安装和使用，实验环境Win7+Python3.6+PyCharm5.0，主要内容如下：1.首先，安装PyQt，这个
用蚂蚁算法来实现公交线网优化，谁有源代码？
我只告诉你什么是蚂蚁算法：蚁群算法(ant colony optimization, ACO)，又称蚂蚁算法，是一种用来在图中寻找优化路径的机率型技术。它由Marco Dorigo于1992年在他的博士论文中引入，其灵感来源于蚂蚁在寻
JS里添加样式
JS里添加样式的方法：1、首先，要创建标签，使用document.createElement函数，如图创建div标签。使用其className设置class，id设置id，style设置样式。2、样式的设置也可以分项进行。如图是分项设置其
R开头的英文网名，要告诉我是什么意思，越多越好
Remembe 回忆remnant 遗迹,残馀remote 遥远,隐蔽的renaissance 复兴,复活renounce 放弃,否认renowned 著名的replica 复制品,复制reprobate 拒绝resplendent 华
C语言基础知识
C语言具有简洁紧凑，灵活方便，运算符丰富，数据类型丰富，表达方式灵活实用等特点，所以C语言程序设计更主动、灵活。很多人从C语言入门编程，下面整理了一些C语言基础知识，希望对大家有所帮助!1.C语言中，变量必须先声明后使用，即一个程序块(
加载js时，很容易导致js的堵塞，该怎么处理？
无阻塞加载js浏览器加载静态资源和js的方式都是线性加载，所以一般情况可以将js放到&ltbody&gt前，防止UI线程的阻塞。而某些时候我们既希望js在整个网页的头部就加载，又担心js阻塞导致网站加载缓慢，就可以用到无阻
js 验证是否有效日期
function check(date){ return (new Date(date).getDate()==date.substring(date.length-2))}参数date可以格式化为xx-xx-xx或xxxx-xx
CSS中的嵌入，内联，外联式都是什么形式？用在什么情况下？
外联式样式（属于外部样式表）。特征：1、有一个单独的CSS文件存在！[如：001.css]2、通过【格式】→【样式表连接】与CSS文件[001.css]建立连接！3、在合适的地方使用 class="样式名" 调用
什么是函数响应式编程
函数响应式编程(Functional Reactive Programming:FRP)是一种和事件流有关的编程方式，其角度类似EventSoucing，关注导致状态值改变的行为事件，一系列事件组成了事件流。FRP是更加有效率地处理事件流，
R语言 > pairs(iris[,1:4]) > pairs(iris[1:4]) 这俩语句画的图一样，，那个逗号是干嘛的？？
这个我查了下觉得应该是这么回事：iris首先是个数据框，数据框可以看做是矩阵的推广，也可以看成是特殊的列表。在你这里通过调用iris[,1:4]和iris[,1:4]得到一个数据结果，我觉得是在调用iris[,1:4]的时候吧iris当成了
MT和OT各是什么意思？
MT是Master Tank的缩写，是坦克类英雄，通常是战士和圣骑等。OT是Over Taunt的缩写，是因为其他玩家输出导致怪的仇恨值高过坦克。.若队中非MT人员OT，则需要MT尽力拉住仇恨，同时需要OT人员迅速控制输出，以此降低仇恨
学习python有什么好的视频教程?
[python视频教程] lets python视频教程免费下载链接:https:pan.baidu.coms1YYn_vepCtq3CcKBD-vfnuw提取码:dxpn[python视频教程] lets python 视频教

推荐阅读

热门文章

最新发布

标签列表

java 解析pdf表格

给您推荐相同类型的内容：