怎样用Java把html转为pdf

html-css014

怎样用Java把html转为pdf,第1张

java中利用第三方jar包iText 5.4.2就可以实现html转为pdf。

比如有如下index.html文件:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<html>

<head>

<title>HTML to PDF</title>

<link href="style.css" rel="stylesheet" type="text/css" />

</head>

<body>

<h1>HTML to PDF</h1>

<p>

<span class="itext">itext</span>5.4.2 <span class="description">converting HTML to PDF</span>

</p>

<table>

<tr>

<th class="label">Title</th>

<td>iText - Java HTML to PDF</td>

</tr>

<tr>

<th>URL</th>

<td>http://hmkcode.com/itext-html-to-pdf-using-java</td>

</tr>

</table>

</body>

</html>

样式文件:

h1 {

color:#ccc

}

table tr td{

text-align:center

border:1px solid gray

padding:4px

}

table tr th{

background-color:#84C7FD

color:#fff

width: 100px

}

.itext{

color:#84C7FD

font-weight:bold

}

.description{

color:gray

}

后台转换的接口:

package com.hmkcode

import java.io.FileInputStream

import java.io.FileOutputStream

import java.io.IOException

import com.itextpdf.text.Document

import com.itextpdf.text.DocumentException

import com.itextpdf.text.pdf.PdfWriter

import com.itextpdf.tool.xml.XMLWorkerHelper

public class App

{

public static void main( String[] args ) throws DocumentException, IOException

{

// step 1

Document document = new Document()

// step 2

PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream("pdf.pdf"))

// step 3

document.open()

// step 4

XMLWorkerHelper.getInstance().parseXHtml(writer, document,

new FileInputStream("index.html"))

//step 5

document.close()

System.out.println( "PDF Created!" )

}

}

转换结果:

  最近公司有一个中的需求,是将html表单转换成pdf 。   无非方式就只有两种,前端的方式咱就不说了,您能看到这里,必然是采用了市场占有率最高的wkhtmltopdf。   优缺点都很明显,废话不多说,直接说我踩过的坑和填过的坑。   No1.  有登陆权限验证的页面需要打印为pdf 。如果你要打印的页面是基于权限认证的,那你打印出来,必然是跳转到认证页面的pdf。            看到这里,不要懵逼。           wkhtmltopdf 支持账号密码和验证码登陆,同时也支持采用cookie 的方式进行登陆。大部分时候采用cookies 登陆即可。           具体的实现方式如下: ProcessStartInfo psi = new ProcessStartInfo() psi.FileName = "wkhtmltopdf.exe" string cookieArgs = "" var cookies = HttpContext.Current.Request.Cookiesif (cookies != null) {     var sb = new System.Text.StringBuilder()     // you probably only need the ".ASPXFORMSAUTH"     // and "ASP.NET_SessionId" cookies     // but I pass everything just in case     foreach (string key in cookies.AllKeys)     {         string value = cookies[key].Value         sb.AppendFormat("--cookie {0} {1} ", key, value)                        }     cookieArgs = sb.ToString() } psi.Arguments = urlToPrint + " -q " + cookieArgs + " -" Process.Start(psi)  No2.打印的内容不全。  这时候要分析具体原因,在wkhtmltopdf 里有一个参数是--window-status ,这个参数可以支持ajax异步请求 的。 做法是: 在调用wkhtmltopdf 时,传入参数 ,比如 传入 “   --window-status  completed”   ,然后在ajax 完成回调时 ,也将document 的window.status = "completed",这样的话,就会完全支持异步调用。有两点需要注意:1.每个参数之间必须有空格,不然一定会出现你想到的问题。2.window.status 的值必须与传入的参数值一样,否则的话,就会一直处于等待状态。 No3. 空白页面,网页显示完好无损,但打印出来的却是空白页面。            这是最大的一个坑,我研究了一天才踩平了。到现在还有一些疑问的地方,等到时候我在去重新踩 。说一下坑在哪里哈.       wkhtmltopdf 的工具是基于qt webkit 的。所以基本上目前的流行玩法都是支持的。但特么的也有例外,由于官网已经很久没有更新,我去github上看到的更新也是很久之前的。      如果是普通的mvc 和html 页面是完全没有问题的。但单页面应用程序的坑就大了。     我当时用的版本是angular js ,在页面显示完美,但在pdf 打印出来确实空白的。      起初我认为问题出现在wkhtmltopdf ,它并不支持单页面应用程序。但我用vue 测试的没有问题。于是我重新测试angular js ,我在github 看了每一个提问者的问题。发现一个提问者讲到,他用的angular js  1.4的版本出现了问题,回撤到1.3.5 则正常。于是我发现新大陆一样,将angular js 的版本也回车到了1.3.5 ,发现打印出来的页面不在是空白页面,是有内容的页面。由于我头一次接触angluar js ,我问同事才得知,angluar js 1.4版本跨度比较大,改变了好多的内容,包括请求方式都发生了很大的变化。这也就解释了,为啥使用angular js 打印的是空白页,因为angular js 1.4以上的版本,你用wkhtmltopdf 根本就调用不到后台的内容,压根就不会发起请求。       别急,到这里,坑还没结束,虽然能请求后端了,但是我发现,打印出来的内容却缺少了很多东西,这时候就尴尬了,angular js 1.4 以上的 渲染的内容没有问题,但不能向后台发起请求,angular js 1.3.5能发起请求,但问题是打印的时候渲染不出内容。 经过我和同事的一步步调试,发现问题竟然在css ,一个叫overflow 的标签直接影响内容。 具体详情请参考前辈的: https://www.jianshu.com/p/57c897cfaa27    周六折腾了一天,总算是搞定了。希望对大家能有所帮助,如果有什么问题,大家及时留言。我会尽快的帮助大家解决。