β

Jcseg 2.3.0 发布,Java 轻量级开源自然语言处理包

Harries Blog™ 16 阅读

Jcseg是基于mmseg算法的一个轻量级 中文分词 器,同时集成了关键字提取,关键短语提取,关键句子提取和 文章 自动摘要等功能,并且提供了一个基于Jetty的 web 服务器 ,方便各大语言直接 http 调用,同时提供了最新版本的lucene, solr 和elasticsearch的分词接口!

jcseg 2.3.0更新如下:

1,NLP切分部分 时间 实体没有使用空格隔开的 bug ,例如:“2017年大年初三”,应该结果:“2017年 大年初三”。

2,检索模式重复输出的bug。report at https :// git ee.com/lionsoul/jcseg/issues/IEZLN

3,自动摘要自定义输出的长度失效bug。

4,修复英文同义词追加 token .offset尚未继承的bug

5,修复NLP模式对类“五月天”等datetime词条的拆分优先级,以词库中的词条优先级最高

6,修复增加对lucene单字段多值 索引 的offset支持,例如elasticsearch的Array字段

7,jcseg-server会打包为一个完整项目,增加jvm.options对jvm 配置 调整支持:

, config: 配置目录,jcseg-server.properties管理服务器和词库的配置,jvm.options管理jvm的参数,例如内存分配等,默认1.5G
, lib: 全部依赖的jar包目录
, lexicon: jcseg词库目录,在此更改管理词库即可
, jcseg-server: 启动管理脚本, 仅限linux 增加-d参数可以后台启动

jcseg-server使用:

# 将jcseg-server/target/jcseg-server整个目录拷贝到安装目录,设为$JS_DIR

cd $JS_DIR

# 初次运行给jcseg-server增加+x权限
# 同步运行
./jcseg-server

# 后台运行
./jcseg-server -d

备注:本次更新大部分修改都是针对“ 原语 智能 ”AI平台的版本,已经经过长期 测试

2.3.0版本 下载 地址:

: https://gitee.com/lionsoul/jcseg/tree/v2.3.0-release

github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.3.0-release

maven 仓库:已经同步

原文

https://www.oschina.net/news/96518/jcseg-2-3-0-released

本站部分文章源于互联网,本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供。如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。 PS:推荐一个微信公众号: askHarries 或者qq群:474807195,里面会分享一些资深架构师录制的视频录像:有Spring,MyBatis,Netty源码分析,高并发、高性能、分布式、微服务架构的原理, JVM 性能优化这些成为架构师必备的知识体系。还能领取免费的学习资源,目前受益良多

转载请注明原文出处: Harries Blog™ » Jcseg 2.3.0 发布,Java 轻量级开源自然语言处理包

作者:Harries Blog™
追心中的海,逐世界的梦

发表评论