最新发布

# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
LIO一AN00是怎样截滚动长屏？
一、使用隔空手势截取屏幕1.进入设置 &gt辅助功能 &gt智慧感知 &gt隔空截屏，确保隔空截屏开关已开启。2.将手掌朝向屏幕，放在在距离屏幕半臂的位置稍作停顿，待屏幕上方出现后小手后，握拳截屏。二、指关节截取屏
# 2023-02-09
鸿蒙系统的官网是什么?
鸿蒙系统的官网是Harmonyos.com。华为鸿蒙系统是一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多种智能终端实现极速发现、极速连接、硬件互助、资
# 2023-02-09
harmonyos忘记密码如何解锁？
如果您确认遗忘自己的手机密码需要解锁，我们可以帮助您将手机强制恢复出厂设置。但是手机中的数据也会被清除，且无法恢复，建议您再回忆一下是否通过云备份或其他方式备份过手机数据。也建议您再仔细回忆一下是否自己设置修改了密码，如果确定无法回忆起密
# 2023-02-09
华为手机开机显示Harmony OS怎么解决
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
华为三款新机上市：预装HarmonyOS系统，但不支持5G，3699元起
大家都知道现在的手机市场主要还以5G手机为主，但深受芯片限制的华为也不得不再把4G手机拿出来“炒冷饭”。今日零点，华为多款4G新机正式开售，分别是华为Mate40 Pro 4G、Mate40E 4G以及nova8 Pro 4G。在5G
# 2023-02-09
harmonyos花式字体怎么调节
1、首先，打开harmonyos手机，然后点击打开设置，点击显示。2、其次，在显示页面中，点击字体大小和粗细。3、最后，在字体大小和粗细中点击字体样式，然后选择花式字体即可调节。华为鸿蒙系统已经上线，那么对于这个系统而言，华为在其他的配套方
# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒

java 中文分词为什么用 ik

2023-02-23 20:59:02Python010

java 中文分词为什么用 ik,第1张

为什么呢？因为Lucene自带的分词器比较适合英文的分词，而IK首先是一个中文的分词器。

具体的优点先不细说，单说分词的结果来看：

1 比如说我爱北京

使用自带的分词我/爱/北/京

IK分词我/爱/北京

2 可以自己扩展词典

有很多分词器是不能够进行自己扩展词典的，有自己的词典，导致分词的结果才是自己想要的结果。

3 可以自己定义停用词字典

4 和Lucene结合比较高，有很多封装好的模块。用来检索非常顺手。

当然，IK自2012年已经不再维护了。后面有出现了很多其他的分词器。

参考如下

1、快速体验

运行项目根目录下的脚本demo-word.bat可以快速体验分词效果

用法: command [text] [input] [output]

命令command的可选值为：demo、text、file

demo

text 杨尚川是APDPlat应用级产品开发平台的作者

file d:/text.txt d:/word.txt

exit

2、对文本进行分词

移除停用词：List<Word>words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者")

保留停用词：List<Word>words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者")

System.out.println(words)

输出：

移除停用词：[杨尚川, apdplat, 应用级, 产品, 开发平台, 作者]

保留停用词：[杨尚川, 是, apdplat, 应用级, 产品, 开发平台, 的, 作者]

3、对文件进行分词

String input = "d:/text.txt"

String output = "d:/word.txt"

移除停用词：WordSegmenter.seg(new File(input), new File(output))

保留停用词：WordSegmenter.segWithStopWords(new File(input), new File(output))

4、自定义配置文件

默认配置文件为类路径下的word.conf，打包在word-x.x.jar中

自定义配置文件为类路径下的word.local.conf，需要用户自己提供

如果自定义配置和默认配置相同，自定义配置会覆盖默认配置

配置文件编码为UTF-8

5、自定义用户词库

自定义用户词库为一个或多个文件夹或文件，可以使用绝对路径或相对路径

用户词库由多个词典文件组成，文件编码为UTF-8

词典文件的格式为文本文件，一行代表一个词

可以通过系统属性或配置文件的方式来指定路径，多个路径之间用逗号分隔开

类路径下的词典文件，需要在相对路径前加入前缀classpath:

指定方式有三种：

指定方式一，编程指定（高优先级）：

WordConfTools.set("dic.path", "classpath:dic.txt，d:/custom_dic")

DictionaryFactory.reload()//更改词典路径之后，重新加载词典

指定方式二，Java虚拟机启动参数（中优先级）：

java -Ddic.path=classpath:dic.txt，d:/custom_dic

指定方式三，配置文件指定（低优先级）：

使用类路径下的文件word.local.conf来指定配置信息

dic.path=classpath:dic.txt，d:/custom_dic

如未指定，则默认使用类路径下的dic.txt词典文件

6、自定义停用词词库

使用方式和自定义用户词库类似，配置项为：

stopwords.path=classpath:stopwords.txt，d:/custom_stopwords_dic

7、自动检测词库变化

可以自动检测自定义用户词库和自定义停用词词库的变化

包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径

如：

classpath:dic.txt，classpath:custom_dic_dir,

d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt

classpath:stopwords.txt，classpath:custom_stopwords_dic_dir，

d:/stopwords_more.txt，d:/STOPWORDS_DIR，d:/STOPWORDS2_DIR，stopwords_dir，remove.txt

8、显式指定分词算法

对文本进行分词时，可显式指定特定的分词算法，如：

WordSegmenter.seg("APDPlat应用级产品开发平台", SegmentationAlgorithm.BidirectionalMaximumMatching)

SegmentationAlgorithm的可选类型为：

正向最大匹配算法：MaximumMatching

逆向最大匹配算法：ReverseMaximumMatching

正向最小匹配算法：MinimumMatching

逆向最小匹配算法：ReverseMinimumMatching

双向最大匹配算法：BidirectionalMaximumMatching

双向最小匹配算法：BidirectionalMinimumMatching

双向最大最小匹配算法：BidirectionalMaximumMinimumMatching

全切分算法：FullSegmentation

最少分词算法：MinimalWordCount

最大Ngram分值算法：MaxNgramScore

9、分词效果评估

运行项目根目录下的脚本evaluation.bat可以对分词效果进行评估

评估采用的测试文本有253 3709行，共2837 4490个字符

评估结果位于target/evaluation目录下：

corpus-text.txt为分好词的人工标注文本，词之间以空格分隔

test-text.txt为测试文本，是把corpus-text.txt以标点符号分隔为多行的结果

standard-text.txt为测试文本对应的人工标注文本，作为分词是否正确的标准

result-text-***.txt，***为各种分词算法名称，这是word分词结果

perfect-result-***.txt，***为各种分词算法名称，这是分词结果和人工标注标准完全一致的文本

wrong-result-***.txt，***为各种分词算法名称，这是分词结果和人工标注标准不一致的文本

现可以提供两种思路:

1.String或是StringBuffer(建议用) 中的indexOf("中华")方法，查找给定的的字符串中是否有给定词表中的词。

2.借鉴编译原理中的状态装换的思想。

先编写一个状态机，用于测试给定字符串中的词是否满足词表中的内容。

写在最后：1)建议使用第一种方法，因为在java 内部实现的查找操作其实和你想得思路是相同的，不过他的效率会高些。

2)如果个人的编程能力比较强或是不考虑效率只是想实现专有的分词算法。可以使用第二种方法。

3)以上的两种方法都可以使用多线程来提高程序的效率。

分词算法自定义路径词库

# 上一篇：Python3环境激活与退出

# 下一篇：C语言符号常量定义