java中利用第三方jar包iText 5.4.2就可以实现html转为pdf。
比如有如下index.html文件:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>HTML to PDF</title>
<link href="style.css" rel="stylesheet" type="text/css" />
</head>
<body>
<h1>HTML to PDF</h1>
<p>
<span class="itext">itext</span>5.4.2 <span class="description">converting HTML to PDF</span>
</p>
<table>
<tr>
<th class="label">Title</th>
<td>iText - Java HTML to PDF</td>
</tr>
<tr>
<th>URL</th>
<td>http://hmkcode.com/itext-html-to-pdf-using-java</td>
</tr>
</table>
</body>
</html>
样式文件:
h1 {
color:#ccc
}
table tr td{
text-align:center
border:1px solid gray
padding:4px
}
table tr th{
background-color:#84C7FD
color:#fff
width: 100px
}
.itext{
color:#84C7FD
font-weight:bold
}
.description{
color:gray
}
后台转换的接口:
package com.hmkcode
import java.io.FileInputStream
import java.io.FileOutputStream
import java.io.IOException
import com.itextpdf.text.Document
import com.itextpdf.text.DocumentException
import com.itextpdf.text.pdf.PdfWriter
import com.itextpdf.tool.xml.XMLWorkerHelper
public class App
{
public static void main( String[] args ) throws DocumentException, IOException
{
// step 1
Document document = new Document()
// step 2
PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream("pdf.pdf"))
// step 3
document.open()
// step 4
XMLWorkerHelper.getInstance().parseXHtml(writer, document,
new FileInputStream("index.html"))
//step 5
document.close()
System.out.println( "PDF Created!" )
}
}
转换结果:
最近公司有一个中的需求,是将html表单转换成pdf 。 无非方式就只有两种,前端的方式咱就不说了,您能看到这里,必然是采用了市场占有率最高的wkhtmltopdf。 优缺点都很明显,废话不多说,直接说我踩过的坑和填过的坑。 No1. 有登陆权限验证的页面需要打印为pdf 。如果你要打印的页面是基于权限认证的,那你打印出来,必然是跳转到认证页面的pdf。 看到这里,不要懵逼。 wkhtmltopdf 支持账号密码和验证码登陆,同时也支持采用cookie 的方式进行登陆。大部分时候采用cookies 登陆即可。 具体的实现方式如下: ProcessStartInfo psi = new ProcessStartInfo() psi.FileName = "wkhtmltopdf.exe" string cookieArgs = "" var cookies = HttpContext.Current.Request.Cookiesif (cookies != null) { var sb = new System.Text.StringBuilder() // you probably only need the ".ASPXFORMSAUTH" // and "ASP.NET_SessionId" cookies // but I pass everything just in case foreach (string key in cookies.AllKeys) { string value = cookies[key].Value sb.AppendFormat("--cookie {0} {1} ", key, value) } cookieArgs = sb.ToString() } psi.Arguments = urlToPrint + " -q " + cookieArgs + " -" Process.Start(psi) No2.打印的内容不全。 这时候要分析具体原因,在wkhtmltopdf 里有一个参数是--window-status ,这个参数可以支持ajax异步请求 的。 做法是: 在调用wkhtmltopdf 时,传入参数 ,比如 传入 “ --window-status completed” ,然后在ajax 完成回调时 ,也将document 的window.status = "completed",这样的话,就会完全支持异步调用。有两点需要注意:1.每个参数之间必须有空格,不然一定会出现你想到的问题。2.window.status 的值必须与传入的参数值一样,否则的话,就会一直处于等待状态。 No3. 空白页面,网页显示完好无损,但打印出来的却是空白页面。 这是最大的一个坑,我研究了一天才踩平了。到现在还有一些疑问的地方,等到时候我在去重新踩 。说一下坑在哪里哈. wkhtmltopdf 的工具是基于qt webkit 的。所以基本上目前的流行玩法都是支持的。但特么的也有例外,由于官网已经很久没有更新,我去github上看到的更新也是很久之前的。 如果是普通的mvc 和html 页面是完全没有问题的。但单页面应用程序的坑就大了。 我当时用的版本是angular js ,在页面显示完美,但在pdf 打印出来确实空白的。 起初我认为问题出现在wkhtmltopdf ,它并不支持单页面应用程序。但我用vue 测试的没有问题。于是我重新测试angular js ,我在github 看了每一个提问者的问题。发现一个提问者讲到,他用的angular js 1.4的版本出现了问题,回撤到1.3.5 则正常。于是我发现新大陆一样,将angular js 的版本也回车到了1.3.5 ,发现打印出来的页面不在是空白页面,是有内容的页面。由于我头一次接触angluar js ,我问同事才得知,angluar js 1.4版本跨度比较大,改变了好多的内容,包括请求方式都发生了很大的变化。这也就解释了,为啥使用angular js 打印的是空白页,因为angular js 1.4以上的版本,你用wkhtmltopdf 根本就调用不到后台的内容,压根就不会发起请求。 别急,到这里,坑还没结束,虽然能请求后端了,但是我发现,打印出来的内容却缺少了很多东西,这时候就尴尬了,angular js 1.4 以上的 渲染的内容没有问题,但不能向后台发起请求,angular js 1.3.5能发起请求,但问题是打印的时候渲染不出内容。 经过我和同事的一步步调试,发现问题竟然在css ,一个叫overflow 的标签直接影响内容。 具体详情请参考前辈的: https://www.jianshu.com/p/57c897cfaa27 周六折腾了一天,总算是搞定了。希望对大家能有所帮助,如果有什么问题,大家及时留言。我会尽快的帮助大家解决。