去除用style加入乱码的网页

2023-03-14 00:35:02html-css039

去除用style加入乱码的网页,第1张

看这篇文章，讲的很清楚

UNICODE环境设置

在安装Visual Studio时，在选择VC++时需要加入unicode选项，保证相关的库文件可以拷贝到system32下。

UNICODE编译设置：

C/C++, Preprocessor difinitions 去除_MBCS，加_UNICODE,UNICODE

在ProjectSetting/link/output 中设置Entry为wWinMainCRTStartup

反之为MBCS（ANSI）编译。

Unicode ：宽字节字符集

1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数？

可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节（既包括单字节也包括双字节）字符串。

调用strlen函数，无法真正了解字符串中究竟有多少字符，它只能告诉你到达结尾的0之前有多少个字节。

size_t strlen( const char *string )

size_t wcslen( const wchar_t *string )

size_t _mbslen( const unsigned char *string )

size_t _mbstrlen( const char *string )

2. 如何对DBCS（双字节字符集）字符串进行操作？

函数描述

PTSTR CharNext （ LPCTSTR ）返回字符串中下一个字符的地址

PTSTR CharPrev （ LPCTSTR, LPCTSTR ）；返回字符串中上一个字符的地址

BOOL IsDBCSLeadByte( BYTE )；如果该字节是DBCS字符的第一个字节，则返回非0值

3. 为什幺要使用Unicode？

（1）可以很容易地在不同语言之间进行数据交换。

（2）使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。

（3）提高应用程序的运行效率。

Windows 2000是使用Unicode从头进行开发的，如果调用任何一个Windows函数并给它传递一个ANSI字符串，那幺系统首先要将字符串转换成Unicode，然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串，系统就会首先将Unicode字符串转换成ANSI字符串，然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序，就能够使你的应用程序更加有效地运行。

Windows CE 本身就是使用Unicode的一种操作系统，完全不支持ANSI Windows函数

Windows 98 只支持ANSI，只能为ANSI开发应用程序。

Microsoft公司将COM从16位Windows转换成Win32时，公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。

4. 如何编写Unicode源代码？

Microsoft公司为Unicode设计了WindowsAPI，这样，可以尽量减少代码的影响。实际上，可以编写单个源代码文件，以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏（UNICODE和_UNICODE），就可以修改然后重新编译该源文件。

_UNICODE宏用于C运行期头文件，而UNICODE宏则用于Windows头文件。当编译源代码模块时，通常必须同时定义这两个宏。

5. Windows定义的Unicode数据类型有哪些？

数据类型说明

WCHAR Unicode字符

PWSTR 指向Unicode字符串的指针

PCWSTR 指向一个恒定的Unicode字符串的指针

对应的ANSI数据类型为CHAR，LPSTR和LPCSTR。

ANSI/Unicode通用数据类型为TCHAR，PTSTR,LPCTSTR。

6. 如何对Unicode进行操作？

字符集特性实例

ANSI 操作函数以str开头 strcpy

Unicode 操作函数以wcs开头 wcscpy

MBCS 操作函数以_mbs开头 _mbscpy

ANSI/Unicode 操作函数以_tcs开头 _tcscpy（C运行期库）

ANSI/Unicode 操作函数以lstr开头 lstrcpy（Windows函数）

所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示；Unicode版本函数结尾以W表示。Windows会如下定义：

#ifdef UNICODE

#define CreateWindowEx CreateWindowExW

#else

#define CreateWindowEx CreateWindowExA

#endif // !UNICODE

7. 如何表示Unicode字符串常量？

字符集实例

ANSI “string”

Unicode L“string”

ANSI/Unicode T(“string”)或_TEXT(“string”)

if( szError[0] == _TEXT(‘J’) ){ }

8. 为什幺应当尽量使用操作系统函数？

这将有助于稍稍提高应用程序的运行性能，因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。由于这些函数使用得很多，因此，在应用程序运行时，它们可能已经被装入RAM。

如：StrCat，StrChr，StrCmp和StrCpy等。

9. 如何编写符合ANSI和Unicode的应用程序？

（1）将文本串视为字符数组，而不是chars数组或字节数组。

（2）将通用数据类型（如TCHAR和PTSTR）用于文本字符和字符串。

（3）将显式数据类型（如BYTE和PBYTE）用于字节、字节指针和数据缓存。

（4）将TEXT宏用于原义字符和字符串。

（5）执行全局性替换（例如用PTSTR替换PSTR）。

（6）修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小，而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递（sizeof(szBuffer)/sizeof(TCHAR)。另外，如果需要为字符串分配一个内存块，并且拥有该字符串中的字符数目，那幺请记住要按字节来分配内存。这就是说，应该调用

malloc(nCharacters *sizeof(TCHAR)),而不是调用malloc(nCharacters)。

10. 如何对字符串进行有选择的比较？

通过调用CompareString来实现。

int CompareString(

LCID Locale, // locale identifier

DWORD dwCmpFlags, // comparison-style options

LPCTSTR lpString1, // pointer to first string

int cchCount1, // size, in bytes or characters, of first string

LPCTSTR lpString2, // pointer to second string

int cchCount2 // size, in bytes or characters, of second string

)

Locale 本地比较的定义

LOCALE_USER_DEFAULT

LOCALE_SYSTEM_DEFAULT

标志含义

NORM_IGNORECASE 忽略字母的大小写

NORM_IGNOREKANATYPE 不区分平假名与片假名字符

NORM_IGNORENONSPACE 忽略无间隔字符

NORM_IGNORESYMBOLS 忽略符号

NORM_IGNOREWIDTH 不区分单字节字符与作为双字节字符的同一个字符

SORT_STRINGSORT 将标点符号作为普通符号来处理

11. 如何判断一个文本文件是ANSI还是Unicode？

判断如果文本文件的开头两个字节是0xFF和0xFE，那幺就是Unicode，否则是ANSI。

12. 如何判断一段字符串是ANSI还是Unicode？

用IsTextUnicode进行判断。IsTextUnicode使用一系列统计方法和定性方法，以便猜测缓存的内容。由于这不是一种确切的科学方法，因此 IsTextUnicode有可能返回不正确的结果。

13. 如何在Unicode与ANSI之间转换字符串？

Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串；函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。

14. Unicode和DBCS之间的区别

Unicode使用（特别在C程序设计语言环境里）“宽字符集”。「Unicode中的每个字符都是16位宽而不是8位宽。」在Unicode中，没有单单使用8位数值的意义存在。相比之下，在“双位组字符集”中我们仍然处理8位数值。有些位组自身定义字符，而某些位组则显示需要和另一个位组共同定义一个字符。

处理DBCS字符串非常杂乱，但是处理Unicode文字则像处理有秩序的文字。您也许会高兴地知道前128个Unicode字符（16位代码从0x0000到0x007F）就是ASCII字符，而接下来的128个Unicode字符（代码从0x0080到0x00FF）是ISO 8859-1对ASCII的扩展。Unicode中不同部分的字符都同样基于现有的标准。这是为了便于转换。希腊字母表使用从0x0370到0x03FF的代码，斯拉夫语使用从0x0400到0x04FF的代码，美国使用从0x0530到0x058F的代码，希伯来语使用从0x0590到0x05FF的代码。中国、日本和韩国的象形文字（总称为CJK）占用了从0x3000到0x9FFF的代码。Unicode的最大好处是这里只有一个字符集，没有一点含糊。

15.衍生标准

Unicode是一个标准。UTF-8是其概念上的子集，UTF-8是具体的编码标准。而UNICODE是所有想达到世界统一编码标准的标准。UTF-8标准就是Unicode（ISO10646）标准的一种变形方式，

UTF的全称是：Unicode/UCS Transformation Format，其实有两种UTF，一种是UTF-8，一种是UTF-16，

不过UTF-16使用较少，其对应关系如下：

在Unicode中编码为 0000 - 007F 的 UTF-8 中编码形式为: 0xxxxxxx

在Unicode中编码为 0080 - 07FF 的 UTF-8 中编码形式为: 110xxxxx 10xxxxxx

在Unicode中编码为 0000 - 007F 的 UTF-8 中编码形式为: 1110xxxx 10xxxxxx 10xxxxxx

utf-8是unicode的一个新的编码标准,其实unicode有过好几个标准.我们知道一直以来使用的unicode字符内码都是16位,它实际上还不能把全世界的所有字符编在一个平面系统,比如中国的藏文等小语种,所以utf-8扩展到了32位,也就是说理论在utf-8中可容纳二的三十二次方个字符. UNICODE的思想就是想把所有的字符统一编码,实现一个统一的标准.big5、gb都是独立的字符集,这也叫做远东字符集,把它拿到德文版的WINDOWS上可能将会引起字符编码的冲突....早期的WINDOWS默认的字符集是ANSI.notepad中输入的汉字是本地编码,但在NT/2000内部是可以直接支持UNICODE的。notepad.exe在WIN95和98中都是ANSI字符,在NT中则是UNICODE.ANSI和UNICODE可以方便的实现对应映射,也就是转换 ASCII是8位范围内的字符集，对于范围之外的字符如汉字它是无法表达的。unicode是16位范围内的字符集，对于不同地区的字符分区分配，unicode是多个IT巨头共同制定的字符编码标准。如果在unicode环境下比如WINDOWS NT上，一个字符占两字节16位，而在ANSI环境下如WINDOWS98下一个字符占一个字节8位.Unicode字符是16位宽，最多允许65,535字符，数据类型被称为WCHAR。

对于已有的ANSI字符，unicode简单的将其扩展为16位：比如ANSI"A"=0x43,则对应的UNICODE为

"A"= 0x0043

而ASCII用七存放128个字符,ASCII是一个真正的美国标准,所以它不能满足其他国家的需要,例如斯拉夫语的字母和汉字于是出现了Windows ANSI字符集,是一种扩展的ASCII码,用8位存放字符,低128位仍然存放原来的ASCII码,

而高128位加入了希腊字母等

if def UNICODE

TCHAR = wchar

else

TCHAR = char

你需要在Project\Settings\C/C++\Preprocesser definitions中添加UNICODE和_UNICODE

UINCODE,_UNICODE都要定义。不定义_UNICODE的话，用SetText(HWND,LPCTSTR),将被解释为SetTextA(HWND,LPTSTR),这时API将把你给的Unicode字符串看作ANSI字符串，显示乱码。因为windows API是已经编译好存在于dll中的，由于不管UNICODE还是ANSI字符串，都被看作一段buffer,如"0B A3 00 35 24 3C 00 00"如果按ANSI读，因为ANSI字串是以'\0'结束的，所以只能读到两字节"0B A3 \0"，如果按UNICODE读，将完整的读到'\0\0'结束。

由于UNICODE没有额外的指示位，所以系统必须知道你提供的字串是哪种格式。此外，UNICODE好象是ANSI C++规定的，_UNICODE是windows SDK提供的。如果不编写windows程序，可以只定义UNICODE。

开发过程：

围绕着文件读写、字符串处理展开。文件主要有两种：.txt和.ini文件

在unicode和非unicode环境下字符串做不同处理的，那么需要参考以上9，10两条，以适应不同环境得字符串处理要求。

对文件读写也一样。只要调用相关接口函数时，参数中的字符串前都加上_TEXT等相关宏。如果写成的那个文件需要是unicode格式保存的，那么在创建文件时需要加入一个字节头。

CFile file

WCHAR szwBuffer[128]

WCHAR *pszUnicode = L"Unicode string\n"// unicode string

CHAR *pszAnsi = "Ansi string\n"// ansi string

WORD wSignature = 0xFEFF

file.Open(TEXT("Test.txt"), CFile::modeCreate|CFile::modeWrite)

file.Write(&wSignature, 2)

file.Write(pszUnicode, lstrlenW(pszUnicode) * sizeof(WCHAR))

// explicitly use lstrlenW function

MultiByteToWideChar(CP_ACP, 0, pszAnsi, -1, szwBuffer, 128)

file.Write(szwBuffer, lstrlenW(szwBuffer) * sizeof(WCHAR))

file.Close()

//以上这段代码在unicode和非unicode环境下都有效。这里显式的指明用Unicode来进行操作。

在非unicode环境下，缺省调用的都是ANSI格式的字符串，此时TCHAR转换为CHAR类型的，除非显式定义WCHAR。所以在这个环境下，如果读取unicode文件，那么首先需要移动2个字节，然后读取得字符串需要用MultiByteToWideChar来转换，转换后字符串信息才代表unicode数据。

在unicode环境下，缺省调用得都是unicode格式得字符串，也就是宽字符，此时TCHAR转换为WCHAR，相关得API函数也都调用宽字符类型的函数。此时读取unicode文件也和上面一样，但是读取得数据是WCHAR的，如果要转换成ANSI格式，需要调用WideCharToMultiByte。如果读取ANSI的，则不用移动两个字节，直接读取然后视需要转换即可。

某些语言（如韩语）必须在unicode环境下才能显示，这种情况下，在非unicode环境下开发，就算用字符串函数转换也不能达到显示文字的目的，因为此时调用得API函数是用ANSI的（虽然底层都是用UNICODE处理但是处理结果是按照程序员调用的API来显示的）。所以必须用unicode来开发。

首先肯定一点,统计源期刊属于核心期刊,虽然核心期刊的种类很多,SIC, EI,ISTP, CSSCI(南大), 中文核心(北大),统计源等,但对于评职称有些核心期刊未必在您单位目录内,所以说,如进职称还需要跟相关科研处室(如:科教科,医教科等)问取详细目录或确定哪些种核心期刊可用,(浙江省目录要求相比国内其他省份较高)

<!--

'===== 算世界时间

Function TimeAdd(UTC,T)

Dim PlusMinus, DST, y,tSave

If Left(T,1)="-" Then PlusMinus = -1 Else PlusMinus = 1

UTC=Right(UTC,Len(UTC)-5)

UTC=Left(UTC,Len(UTC)-4)

y = Year(UTC)

TimeAdd=DateAdd("n", (Cint(Mid(T,2,2))*60 + Cint(Mid(T,4,2))) * PlusMinus, UTC)

'美国日光节约期间: 4月第一个星日00:00 至 10月最后一个星期日00:00

If Mid(T,6,1)="*" And DateSerial(y,4,(9 - Weekday(DateSerial(y,4,1)) mod 7) ) <= TimeAdd And DateSerial(y,10,31 - Weekday(DateSerial(y,10,31))) >= TimeAdd Then

TimeAdd=CStr(DateAdd("h", 1, TimeAdd)) &"<FONT STYLE='font-size:18ptfont-family:Wingdingscolor:red'>R</FONT>"

Else

End If

TimeAdd = CStr(TimeAdd)

End Function

'-->

</SCRIPT>

<STYLE>.todyaColor {

BACKGROUND-COLOR: aqua

}

</STYLE>

<!--

if(navigator.appName == "Netscape" || parseInt(navigator.appVersion) <4)

document.write("<h1>你的浏览器无法执行此程序。</h1>此程序在 IE4 以后的版本才能执行!!")

//-->

</SCRIPT>

lck=0

function r(hval)

{

if ( lck == 0 )

{

document.bgColor=hval

}

</SCRIPT>

<TABLE>

<TBODY>

<TR>

<FONT id=Clock face=Arial color=#000080 size=4

align="center"></FONT>

<P><FONT style="FONT-SIZE: 9pt" size=2><SELECT

style="FONT-SIZE: 9pt" onchange=changeTZ() name=TZ><OPTION

value="-1200 安尼威土克、瓜甲兰" selected>国际换日线<OPTION

value="-1100 中途岛、萨摩亚群岛">萨摩亚<OPTION value="-1000 夏威夷">夏威夷<OPTION

value=-0900*阿拉斯加>阿拉斯加<OPTION value=-0800*太平洋时间(美加)、提亚纳>太平洋<OPTION

value=-0700*亚历桑那>美国山区<OPTION value=-0700*山区时间(美加)>美加山区<OPTION

value=-0600*萨克其万(加拿大)>加拿大中部<OPTION value=-0600*墨西哥市、塔克西卡帕>墨西哥<OPTION

value=-0600*中部时间(美加)>美加中部<OPTION value=-0500*波哥大、里玛>南美洲太平洋<OPTION

value=-0500*东部时间(美加)>美加东部<OPTION value=-0500*印第安纳(东部)>美东<OPTION

value=-0400*加拉卡斯、拉帕兹>南美洲西部<OPTION value="-0400*大西洋时间加拿大)">大西洋<OPTION

value="-0330 新岛(加拿大东岸)">纽芬兰<OPTION value="-0300 波西尼亚">东南美洲<OPTION

value="-0300 布鲁诺斯爱丽斯、乔治城">南美洲东部<OPTION value=-0200*大西洋中部>大西洋中部<OPTION

value=-0100*亚速尔群岛、维德角群岛>亚速尔<OPTION

value="+0000 格林威治时间、都柏林、爱丁堡、伦敦">英国夏令<OPTION

value="+0000 莫洛维亚(赖比瑞亚)、卡萨布兰卡">格林威治标准<OPTION

value="+0100 巴黎、马德里">罗马<OPTION value="+0100 布拉格, 华沙, 布达佩斯">中欧<OPTION

value="+0100 柏林、斯德哥尔摩、罗马、伯恩、布鲁赛尔、维也纳">西欧<OPTION

value="+0200 以色列">以色列<OPTION value=+0200*东欧>东欧<OPTION

value=+0200*开罗>埃及<OPTION value=+0200*雅典、赫尔辛基、伊斯坦堡>GFT<OPTION

value=+0200*赫拉雷、皮托里>南非<OPTION

value=+0300*巴格达、科威特、奈洛比(肯亚)、里雅德(沙乌地)>沙乌地阿拉伯<OPTION

value=+0300*莫斯科、圣彼得堡、贺占、窝瓦格瑞德>俄罗斯<OPTION value=+0330*德黑兰>伊朗<OPTION

value=+0400*阿布达比(东阿拉伯)、莫斯凯、塔布理斯(乔治亚共和)>阿拉伯<OPTION

value=+0430*喀布尔>阿富汗<OPTION value="+0500 伊斯兰马巴德、克洛奇、伊卡特林堡、塔须肯">西亚<OPTION

value="+0530 孟买、加尔各答、马垂斯、新德里、可伦坡">印度<OPTION

value="+0600 阿马提、达卡">中亚<OPTION value="+0700 曼谷、亚加达、胡志明市">曼谷<OPTION

value="+0800 北京、重庆、黑龙江">中国<OPTION value="+0800 台湾、香港、新加坡">台北<OPTION

value="+0900 东京、大阪、扎幌、汉城、亚库兹(东西伯利亚)">东京<OPTION

value="+0930 达尔文">澳洲中部<OPTION value="+1000 布里斯本、墨尔本、席德尼">席德尼<OPTION

value="+1000 霍巴特">塔斯梅尼亚<OPTION value="+1000 关岛、莫斯比港、海威">西太平洋<OPTION

value=+1100*马哥大、所罗门群岛、新卡伦多尼亚>太平洋中部<OPTION

value="+1200 威灵顿、奥克兰">纽西兰<OPTION

value="+1200 斐济、肯加塔、马歇尔群岛">斐济</OPTION></SELECT>时间 </FONT><BR><FONT

id=Clock2 face=Arial color=#000080 size=4 align="center"></FONT><BR>

<BR>

<FONT

id=CITY

style="FONT-SIZE: 9ptWIDTH: 150pxCOLOR: blueFONT-FAMILY: '新细明体'"></FONT></P></TD>

<DIV style="Z-INDEX: -1POSITION: absoluteTOP: 30px"><FONT id=YMBG

style="FONT-SIZE: 90ptCOLOR: #f0f0f0FONT-FAMILY: 'Arial Black'"> 0000<BR> JUN</FONT>

</DIV>

<TBODY>

<TR>

<TD bgColor=#000080 colSpan=7><FONT style="FONT-SIZE: 9pt"

color=#ffffff size=2>公历<SELECT style="FONT-SIZE: 9pt"

onchange=changeCld() name=SY>

<SCRIPT language=JavaScript><!--

for(i=1900i<2050i++) document.write('<option>'+i)

//--></SCRIPT>

</SELECT>年<SELECT style="FONT-SIZE: 9pt" onchange=changeCld()

name=SM>

<SCRIPT language=JavaScript><!--

for(i=1i<13i++) document.write('<option>'+i)

//--></SCRIPT>

</SELECT>月 </FONT><FONT id=GZ face=标楷体 color=yellow

size=3></FONT><BR></TD></TR>

<SCRIPT language=JavaScript><!--

var gNum

for(i=0i<6i++) {

document.write('<tr align=center>')

for(j=0j<7j++) {

gNum = i*7+j

document.write('<td id="GD' + gNum +'" onMouseOver="mOvr(' + gNum +')" onMouseOut="mOut()"><font id="SD' + gNum +'" size=5 face="Arial Black"')

if(j == 0) document.write(' color=red')

if(j == 6)

if(i%2==1) document.write(' color=red')

else document.write(' color=green')

document.write(' TITLE=""></font><br><font id="LD' + gNum + '" size=2 style="font-size:9pt"></font></td>')

}

document.write('</tr>')

}

//--></SCRIPT>

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：如何查电脑上的电源的信息，比如电源是多少W的？

# 下一篇：求助，golang怎样二进制转十六进制和十六进制转二进制

推荐阅读

热门文章

最新发布

标签列表

去除用style加入乱码的网页

给您推荐相同类型的内容：