nodejs使用Jieba分词

JavaScript021

nodejs使用Jieba分词,第1张

应该是由于更新后的原因,网上别人的教程出现了问题,自己摸索了一下,现在把所得拿出来分享

npm install node-jieba

文档

说说我安装时遇到的问题,刚开始一直报错,后来还是不行,又把centos6.3的python2.6.6升到了文档中的2.7.3,把pip也升级到对应版本(1.3.1),后来就安装好了

安装好之后进到项目目录的node_modules下的node-jieba目录运行install.sh,语句如下:

cd ./node_modules/node-jieba

sudo bash ./install.sh

具体使用方法文档说的很清楚了,还有要注意的点是当运行到

var analyzer = Jieba({

  debug: true

})

时,就会启动这个插件的python程序,使用完后可以用

analyzer.close()

关闭python程序,但是启动需要时间,尤其是在性能低的机子上(我的是阿里云最低配置的服务器,9.9一个月的那种),如果每次要用打开用完关闭的话,大概会有1秒左右的延迟,使用体验就有影响;但是一直开着又怕影响服务器性能。所以就自己试试看,选择合适自己的方式

因为取到的a的值是"...px",不是整数,而是一个字符串

<script defer="defer">

window.onload=function(){

var a = document.getElementById("con1_right").style.offsetHeight

var b = document.getElementById("con1_left").style.height

if (parseInt(a,10)>500)

b=parseInt(a,10)-2

}

</script>

不客气,parseInt()是js的一个转换整数函数。

parseInt(a,10)的意思是,a是一个字符串,把a转换为10进制整数;第二个参数的10,是表示a是一个10进制数的字符串,js比较智能,比如说"123abc45",用parseInt的话,结果是123,自动取最前面的数字。

再举个例子:

a="C0"

b=parseInt(a,16)//b的结果是192。参数里的16,表示a是一个16进制数的字符串。

智能ABC是形与音结合的编码,以音为主,以形为辅。

一. 特殊用键

[Space] 空格键:结束一次汉字输入过程。在‘标准’和‘双打’方式下,同时具有按词变换的功能。

[Backspace]退格键:用于逐个删除输入信息或者变换结果,此键是人为干预分词构词过程。中华人民共和国

[‘+’或‘Page Down’] 翻页键:当一页不能显示所要的内容时,翻页键就可以起作用了。按一次该键往后翻一页,若往前翻则按‘—’键。

二. 基本输入规则简介

1、['] 隔音符号 如:xian (先),xi'an(西安)

中华(Zhognhua)的简拼为z'h,不为zh,因为 zh是一个声母

2、ü的代替键为‘v’如‘女’的拼音为‘nv’。

三. 输入方法

1、全拼和简拼

词组全拼简拼:取

每个汉字对应拼音的声母

计算机 jisuanjijsj

培训 peixun px

2、混拼:有的音节全拼,有的音节简拼

金沙江 jinshajiang jinsj

3、音形输入法

笔形代码

笔形

笔形名称

例一

输入一

例二

输入二

1

一 ╱

横 提

Y1

C13

2

T2

S23

3

丿

D3

R3

4

、 \

点 捺

M42

Y4

5

┒顺时针

D5

Y5

6

└逆时针

B36

线

X6

7

十 ╳

C7

X71

8

G8

Y82

规则:

(拼音+[笔形描述])+(拼音+[笔形描述])+……+(拼音+[笔形描述])

[笔形描述]项可有可无,最多不超过2笔。

四. 用退格键[Backspace]干预分词

系统虽然具有自动分词的功能,但分词的结果往往不尽人意,可有用退格键来进行干预,使分词达到预期效果。

例如想输入‘军事技术学习’,当输入‘JSJSXX’,按空格键后显示‘计算机SXX’,这说明系统按‘JSJ’分词,我们希望按‘JS’分词,故按退格键干预,干预后用翻页选择‘军事’,再分词时显示‘军事介绍信X’,这说明系统按‘JSX’分词,按退格键干预,使之按‘JS’分词,用翻页选择‘技术’,此时显示‘军事技术XX’,按空格分词出现‘学习’。请大家练习输入‘南京大学’(NJDX)和‘南京玄武湖’(NJXWH)。

五. 中文数量词的简化输入

1.‘i’ 为输入小写中文数字标记。

2.‘I’为输入大写中文数字标记字母的含义:

G(个) S(十、拾) B(百、佰) Q(仟) W(万) E(亿)

Z(兆) D(第) N(年)Y(月) R(日) T(吨)

K(克) $ (元) F(分) L(里) M(米) J(斤)

注意:$ 之前必须要有数字

中文数量词的简化输入实例:

输入 输出

i 1986n4ys5r 一九八六年四月十五日

i 3b7s2k 三百七十二克

I8q6b2s$ 捌仟陆佰贰拾元

i8q6b2s$ 八千六百二十元

六. 中英文切换

1). 按一下CAPS LOCK 键(灯亮),此时输入大写英文。

再按一下CAPS LOCK 键(灯灭),此时输入中文。

2) 用CTRL+空格键在某种中文输入方法和英文输入之间切换。

Shift+空格为各种输入方法之间切换。(包括英文输入)

3) 用’v’作为标志符,后面跟随要输入的英文,再按空格。

例:vWindows

七. 定义新词和新词的输入

l右击输入法状态→定义新词→在‘新词’对话框中输入新词→在‘外码’对话框中输入新词的编码→‘添加’ →‘关闭’输入新词时在外码前加’u’

八. 智能ABC练习

一 中文数字小、大写输入

一、二、三、四、五、六、七、八、九、十

1 i2 i3 i4 i5 i6 i7 i8 i9 is

壹、 壹、贰、叁、肆、伍、陆、柒、捌、玖、拾

1 I2 I3 I4 I5 I6 I7 I8 I9 IS

二 常用词组输入例

安定、爱护、爱国、安排、按照、安全

部分、变化、包括、必须、不要、比如

出版、充分、产品、传统、初期、成为

答案、代表、大家、打开、多么、单位