本文介绍: 你有时候可能除了上述的两种分词方式,会有更加适合自己业务的分词实现。Opencc4j 支持自定义分词实现,只需要实现分词接口Segment接口内容/*** 分词* @param original 原始信息* @return 分词后的列表*//*** 一个最简单的分词实现。* 注意:仅仅做演示,不可实际使用。*/@Overridereturn Arrays.asList(original, “测试”);不同的地区,对应的转换规则是不同的。具体参考一下台湾地区的使用方式即可。
Opencc4j
Opencc4j 支持中文繁简体转换,考虑到词组级别。
Features 特点
创作缘由
OpenCC 的思想非常优秀,做的也特别棒。但是没有特别为 java 提供的工具。
jopencc 没有提供分词功能。
快速开始
maven 引入
api 概览
核心工具列表如下:
所有的工具类方法具有相同的方法设计,便于记忆。
核心方法如下:
繁简体转换
转为简体 toSimple
转为繁体 toTraditional
繁简体判断
是否为简体 isSimple
是否包含简体 containsSimple
是否为繁体 isTraditional
是否包含繁体 containsTraditional
句子中包含的繁简体列表返回
简体列表 simpleList
繁体列表 traditionalList
单个汉字对应的繁简体列表
繁体字列表
简体字列表
中文工具方法
是否为中文 isChinese
是否包含中文 containsChinese
中国台湾繁简体转换
工具类
测试用例
配置引导类
引导类说明
默认配置
中国台湾地区配置
中文分词策略
系统内置分词方式
花瓣结巴分词
自定义
测试代码
自定义分词实现类
分词测试
数据接口自定义
接口说明
自定义说明
NLP 开源矩阵
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。