js,nodejs如何判断文件是什么编码格式

JavaScript0198

js,nodejs如何判断文件是什么编码格式,第1张

nodejs编码只支持utf8的编码方式,无论是打开某个文件或者写.js脚本都得以utf8的编码方式保存,不然程序无法运行,读出来的文件是乱码。如果是在前台,读取文件是通过FileReader或者FileReaderSync这两个webAPI和input[type='file']标签来配合来完成,但是这个两个API已经包涵了判断文件的编码方式的功能,无论是GBK还是utf8编码的文件都能正确打开不出现乱码,但是nodejs就会出现这样的问题,读取gbk和unicode编码的文件出现奇怪的乱码,有一个模块iconv-lite可以解决编码问题,但是前提是你得知道这个文件的编码方式,举个例子:有一个gkb的文件叫gbk.txt正确查看它的方式如下:var icon=require('iconv-lite')var fs=require('fs')fs.readFile('gbk.txt',function(err,buffer){var str=iconv.decode(buffer,'gbk')console.log(str)//得到无乱码的内容})但是如果不知道文件的编码方式,那有该怎么办呢?那就来聊一聊编码方式,首先UNICODE编码,UNICODE编码的文件无论内容是什么,前两个字节要不是FF FE 或者 FE FF,utf-8头两个字节是EF BB,至于gbk吧,目前我没找到判断方法,只能粗略的判断如果不是unicode和utf8就认为是GBK,代码如下:var fs=require('fs')fs.readFile('code.txt',function(err,buffer){if(buffer[0]==0xff&&buffer[1]==0xfe){console.log('unicode')}else if(buffer[0]==0xfe&&buffer[1]==0xff){console.log('unicode')}else if(buffer[0]==0xef&&buffer[1]==0xbb){console.log('utf8')}else{console.log('else')}})

js输出乱码优化:1、如果是ajax:首先要看看后台进行response输出时,设置的头文件格式是不是utf-8,并且要保证输出的类型为text/html2、判断浏览器解析的是不是utf-8:看看网页展示的中文是不是乱码,如果是,那么就有可能是没指定解析编码,指定方式如楼上所说,<meta http-equiv="Content-Type" content="text/htmlcharset=utf-8" />3、没有说明具体语言,以java为例,看看是否加字符过滤器,进行请求过滤,这个简单,tomcat安装的时候就可以选择安装实例,里面就有现成的,拷过来加进去就行。另外网上到处都是。4、可以打开 源文件看看是不是源码本身是乱码,这是由于开发工具本身设置的编码格式引起的,如Eclipse、MyEclipse中都有这方面的设置

JS对文字进行编码涉及3个函数:escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decodeURIComponent

下面简单介绍一下它们的区别

1 escape()函数

定义和用法 

escape() 函数可对字符串进行编码,这样就可以在所有的计算机上读取该字符串。

语法 

escape(string)

参数  描述 

string  必需。要被转义或编码的字符串。

返回值 

已编码的 string 的副本。其中某些字符被替换成了十六进制的转义序列。

说明 

该方法不会对 ASCII 字母和数字进行编码,也不会对下面这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。其他所有的字符都会被转义序列替换。

2 encodeURI()函数 

定义和用法 

encodeURI() 函数可把字符串作为 URI 进行编码。

语法 

encodeURI(URIstring)

参数  描述 

URIstring  必需。一个字符串,含有 URI 或其他要编码的文本。

返回值 

URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。

说明 

该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。

该方法的目的是对 URI 进行完整的编码,因此对以下在 URI 中具有特殊含义的 ASCII 标点符号,encodeURI() 函数是不会进行转义的:/?:@&=+$,#

3 encodeURIComponent() 函数

定义和用法 

encodeURIComponent() 函数可把字符串作为 URI 组件进行编码。

语法 

encodeURIComponent(URIstring)

参数  描述 

URIstring  必需。一个字符串,含有 URI 组件或其他要编码的文本。

返回值 

URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。

说明 

该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。

其他字符(比如 :/?:@&=+$,# 这些用于分隔 URI 组件的标点符号),都是由一个或多个十六进制的转义序列替换的。

提示和注释 

提示:请注意 encodeURIComponent() 函数 与 encodeURI() 函数的区别之处,前者假定它的参数是 URI 的一部分(比如协议、主机名、路径或查询字符串)。因此 encodeURIComponent() 函数将转义用于分隔 URI 各个部分的标点符号。

4 总结:

 通过对三个函数的分析,我们可以知道:escape()除了 ASCII 字母、数字和特定的符号外,对传进来的字符串全部进行转义编码,因此如果想对URL编码,最好不要使用此方法。而encodeURI() 用于编码整个URI,因为URI中的合法字符都不会被编码转换。encodeURIComponent方法在编码单个URIComponent(指请求参数)应当是最常用的,它可以讲参数中的中文、特殊字符进行转义,而不会影响整个URL。

1、   传递参数时需要使用encodeURIComponent,这样组合的url才不会被#等特殊字符截断。 

例如:document.write(' 退出

2、   进行url跳转时可以整体使用encodeURI

例如:Location.href=encodeURI("http://cang.baidu.com/do/s?word=百度&ct=21")

3、   js使用数据时可以使用escape

例如:搜藏中history纪录。

4、   escape对0-255以外的unicode值进行编码时输出%u****格式,其它情况下escape,encodeURI,encodeURIComponent编码结果相同。

最多使用的应为encodeURIComponent,它是将中文、韩文等特殊字符转换成utf-8格式的url编码,所以如果给后台传递参数需要使用encodeURIComponent时需要后台解码对utf-8支持(form中的编码方式和当前页面编码方式相同)

escape不编码字符有69个:*,+,-,.,/,@,_,0-9,a-z,A-Z

encodeURI不编码字符有82个:!,#,$,&,',(,),*,+,,,-,.,/,:,,=,?,@,_,~,0-9,a-z,A-Z

encodeURIComponent不编码字符有71个:!, ',(,),*,-,.,_,~,0-9,a-z,A-Z

示例(摘自 W3School):

1 escape()

document.write(escape("Visit W3School!") + "

")

document.write(escape("?!=()#%&"))

输出结果:

Visit%20W3School%21

%3F%21%3D%28%29%23%25%26

2 encodeURI()

document.write(encodeURI("http://www.w3school.com.cn")+ "

")

document.write(encodeURI("http://www.w3school.com.cn/My first/")+ "

")

document.write(encodeURI(",/?:@&=+$#"))

输出结果:

http://www.w3school.com.cn

http://www.w3school.com.cn/My%20first/

,/?:@&=+$#

对整个URL进行编码,而URL的特定标识符不会被转码。

3  encodeURIComponent()

例1:

document.write(encodeURIComponent("http://www.w3school.com.cn"))

document.write("

")

document.write(encodeURIComponent("http://www.w3school.com.cn/p 1/"))

document.write("

")

document.write(encodeURIComponent(",/?:@&=+$#"))

输出结果:

http%3A%2F%2Fwww.w3school.com.cn

http%3A%2F%2Fwww.w3school.com.cn%2Fp%201%2F

%2C%2F%3F%3A%40%26%3D%2B%24%23

对URL中的参数进行编码,因为参数也是一个URL,如果不编码会影响整个URL的跳转。