最新发布

# 2023-02-09
华为harmonyos是什么系统
演示机型：华为P50 系统版本：HarmonyOS 2华为harmonyos是鸿蒙系统。鸿蒙系统一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多
# 2023-02-09
p50HarmonyOS新桌面有哪些功能？
HarmonyOS 提供服务卡片、大文件夹和小艺建议，让您把重要信息放在眼前，操作更快捷，屏幕也更个性化。P50手机系统为HarmonyOS 2，具体功能如下：状态栏：通过顶部状态栏查看手机状态、通知消息。大文件夹：无需展开文件夹，可一步打
# 2023-02-09
华为harmonyos 3有哪些特性?
华为harmonyos 3的特性：1、HarmonyOS 3体验更安全、更流畅HarmonyOS3系统会进一步打通各个设备之间的协同性，并且在系统性能表现和隐私安全上有所加强。HarmonyOS 3在安全性方面，新增了剪切板隐私保护、模糊
# 2023-02-09
鸿蒙系统网页捷径怎么关闭
在华为浏览器设置中进行关闭。具体步骤：1.打开华为浏览器点击右下角更多。2.打开按键设置，选择主页设置。3.选择自定义主页，接下来选择自定义网址，就可以让捷径这个功能消失了。首先，您需要了解升级Harmony OS前的准备工作：1.升级前，
# 2023-02-09
HarmonyOS——Ability和AbilitySlice生命周期(一)
HarmonyOS 中的页面会用到Ability和AbilitySlice。Ability是提供与用户交互的能力。AbilitySlice是一个页面及其逻辑的总和。两者的关系可以是一对多。也就是一个Ability中可以包含多个不同的A
# 2023-02-09
HarmonyOs 网络安全配置，允许应用使用明文流量传输
"deviceConfig": { "default": { "process": "xxx", "directLaunch":
# 2023-02-09
华为的鸿蒙系统是是什么语言开发的？
根据华为公布的方舟编译器资料，可以得知鸿蒙系统是用C、C++语言编写。鸿蒙系统和方舟编译器的思路是一样：直接使用机器语言编写app，取消安卓系统的ART虚拟机，直接编译为二进制机器码；这样的好处是：不需要中转，执行速度快；劣势是：必须要
# 2023-02-09
magicos和鸿蒙os区别
magicos和鸿蒙os区别：两者定位不同，技术架构不同。两者定位不同：HarmonyOS旨在替换安卓、最终实现跨平台多设备分布式操作。MagicOS则是在安卓系统、Windows系统以及其它操作系统上叠加荣耀的核心能力，从而让不同生态实
# 2023-02-09
华为harmonyos是什么手机
华为harmonyos是华为手机的操作系统，简称为鸿蒙系统。华为鸿蒙系统（HUAWEI Harmony OS），是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。华为鸿蒙系统是一款全新的面向全
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选

java读取doc,pdf问题。

2023-04-28 16:06:02Python017

java读取doc,pdf问题。,第1张

PDFBox是一个开源的对pdf文件进行操作的库。 PDFBox-0.7.3.jar加入classpath。同时FontBox1.0.jar加入classpath，否则报错

import java.io.FileInputStream

import java.io.FileNotFoundException

import java.io.IOException

import org.pdfbox.pdfparser.PDFParser

import org.pdfbox.pdmodel.PDDocument

import org.pdfbox.util.PDFTextStripper

public class PdfReader {

/**

* simply reader all the text from a pdf file.

* You have to deal with the format of the output text by yourself.

* 2008-2-25

* @param pdfFilePath file path

* @return all text in the pdf file

*/

public static String getTextFromPDF(String pdfFilePath)

{

String result = null

FileInputStream is = null

PDDocument document = null

try {

is = new FileInputStream(pdfFilePath)

PDFParser parser = new PDFParser(is)

parser.parse()

document = parser.getPDDocument()

PDFTextStripper stripper = new PDFTextStripper()

result = stripper.getText(document)

} catch (FileNotFoundException e) {

// TODO Auto-generated catch block

e.printStackTrace()

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace()

} finally {

if (is != null) {

try {

is.close()

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace()

}

}

if (document != null) {

try {

document.close()

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace()

}

}

}

return result

}

public static void main(String[] args)

{

String str=PdfReader.getTextFromPDF("C:\\Read.pdf")

System.out.println(str)

}

}

代码2：

import java.io.File

import java.io.FileOutputStream

import java.io.OutputStreamWriter

import java.io.Writer

import java.net.MalformedURLException

import java.net.URL

import org.pdfbox.pdmodel.PDDocument

import org.pdfbox.util.PDFTextStripper

public class PDFReader {

public void readFdf(String file) throws Exception {

boolean sort = false

String pdfFile = file

String textFile = null

String encoding = "UTF-8"

int startPage = 1

int endPage = Integer.MAX_VALUE

Writer output = null

PDDocument document = null

try {

try {

// 首先当作一个URL来装载文件，如果得到异常再从本地文件系统//去装载文件

URL url = new URL(pdfFile)

//注意参数已不是以前版本中的URL.而是File。

document = PDDocument.load(pdfFile)

// 获取PDF的文件名

String fileName = url.getFile()

// 以原来PDF的名称来命名新产生的txt文件

if (fileName.length() > 4) {

File outputFile = new File(fileName.substring(0, fileName

.length() - 4)

+ ".txt")

textFile = outputFile.getName()

}

} catch (MalformedURLException e) {

// 如果作为URL装载得到异常则从文件系统装载

//注意参数已不是以前版本中的URL.而是File。

document = PDDocument.load(pdfFile)

if (pdfFile.length() > 4) {

textFile = pdfFile.substring(0, pdfFile.length() - 4)

+ ".txt"

}

}

output = new OutputStreamWriter(new FileOutputStream(textFile),

encoding)

PDFTextStripper stripper = null

stripper = new PDFTextStripper()

// 设置是否排序

stripper.setSortByPosition(sort)

// 设置起始页

stripper.setStartPage(startPage)

// 设置结束页

stripper.setEndPage(endPage)

// 调用PDFTextStripper的writeText提取并输出文本

stripper.writeText(document, output)

} finally {

if (output != null) {

// 关闭输出流

output.close()

}

if (document != null) {

// 关闭PDF Document

document.close()

}

}

}

/**

* @param args

*/

public static void main(String[] args) {

// TODO Auto-generated method stub

PDFReader pdfReader = new PDFReader()

try {

// 取得E盘下的SpringGuide.pdf的内容

pdfReader.readFdf("C:\\Read.pdf")

} catch (Exception e) {

e.printStackTrace()

}

}

}

2、抽取支持中文的pdf文件－xpdf

xpdf是一个开源项目，我们可以调用他的本地方法来实现抽取中文pdf文件。

http://www.java-cn.com/technology/tech_downs/1880_004.zip

补丁包：

http://www.java-cn.com/technology/tech_downs/1880_005.zip

按照readme放好中文的patch，就可以开始写调用本地方法的java程序了。

下面是一个如何调用的例子：

import java.io.*

/**

* <p>Title: pdf extraction</p>

* <p>Description: email:[email protected]</p>

* <p>Copyright: Matrix Copyright (c) 2003</p>

* <p>Company: Matrix.org.cn</p>

* @author chris

* @version 1.0,who use this example pls remain the declare

*/

public class PdfWin {

public PdfWin() {

}

public static void main(String args[]) throws Exception

{

String PATH_TO_XPDF="C:Program Filesxpdfpdftotext.exe"

String filename="c:a.pdf"

String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"}

Process p = Runtime.getRuntime().exec(cmd)

BufferedInputStream bis = new BufferedInputStream(p.getInputStream())

InputStreamReader reader = new InputStreamReader(bis, "UTF-8")

StringWriter out = new StringWriter()

char [] buf = new char[10000]

int len

while((len = reader.read(buf))>= 0) {

//out.write(buf, 0, len)

System.out.println("the length is"+len)

}

reader.close()

String ts=new String(buf)

System.out.println("the str is"+ts)

}

}

WordExtractor的用法错了，你用下面的方法试试： ...... File file = new File(doc)FileInputStream fileInputStream = getFileInputStream(file)WordExtractor wordExtractor = new WordExtractor(fileInputStream)String text = wordExtractor.getText() ......

是一个文件中文方法文件系统

# 上一篇：求计算机C语言中“栈”的基本概念，希望各个方面都有，全一点。最好和教科书介绍的一样详细

# 下一篇：js 如何把ASCII字符转换为16进制数字？？？