Opencc4j 开源中文繁简体使用介绍

本文介绍: 你有时候可能除了上述的两种分词方式，会有更加适合自己业务的分词实现。Opencc4j 支持自定义分词实现，只需要实现分词接口Segment接口内容/*** 分词* @param original 原始信息* @return 分词后的列表*//*** 一个最简单的分词实现。* 注意：仅仅做演示，不可实际使用。*/@Overridereturn Arrays.asList(original, “测试”);不同的地区，对应的转换规则是不同的。具体参考一下台湾地区的使用方式即可。

Opencc4j 支持中文繁简体转换，考虑到词组级别。

OpenCC 的思想非常优秀，做的也特别棒。但是没有特别为 java 提供的工具。

jopencc 没有提供分词功能。

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>opencc4j</artifactId>
    <version>1.8.1</version>
</dependency>

核心工具列表如下：

序号	工具类	简介
1	ZhConverterUtil	基础的繁简体转换
2	ZhTwConverterUtil	台湾地区的繁简体转换

所有的工具类方法具有相同的方法设计，便于记忆。

核心方法如下：

序号	api 方法	简介
1	toSimple(String)	转为简体
2	toTraditional(String)	转为繁体
3	simpleList(String)	返回包含的简体列表
4	traditionalList(String)	返回包含的繁体列表
5	toSimple(char)	返回单个汉字对应的所有简体字列表
6	toTraditional(char)	返回单个汉字对应的所有繁体字列表
7	isSimple(String)	是否全部为简体
8	isSimple(char)	单个字符是否为简体
9	containsSimple(String)	字符中是否为包含简体
10	isTraditional(String)	是否全部为繁体
11	isTraditional(char)	单个字符是否为繁体
12	containsTraditional(String)	字符中是否为包含繁体
13	isChinese(String)	是否全部为中文
14	isChinese(char)	单个字符是否为中文
15	containsChinese(char)	字符串中是否包含中文

String original = "生命不息，奮鬥不止";
String result = ZhConverterUtil.toSimple(original);
Assert.assertEquals("生命不息，奋斗不止", result);

String original = "生命不息，奋斗不止";
String result = ZhConverterUtil.toTraditional(original);
Assert.assertEquals("生命不息，奮鬥不止", result);

Assert.assertTrue(ZhConverterUtil.isSimple('奋'));
Assert.assertTrue(ZhConverterUtil.isSimple("奋"));
Assert.assertTrue(ZhConverterUtil.isSimple("奋斗"));

Assert.assertFalse(ZhConverterUtil.isSimple('奮'));
Assert.assertFalse(ZhConverterUtil.isSimple("奮"));
Assert.assertFalse(ZhConverterUtil.isSimple("奮鬥"));
Assert.assertFalse(ZhConverterUtil.isSimple("奮斗"));
Assert.assertFalse(ZhConverterUtil.isSimple("beef"));

Assert.assertTrue(ZhConverterUtil.containsSimple("奋"));
Assert.assertTrue(ZhConverterUtil.containsSimple("奋斗"));
Assert.assertTrue(ZhConverterUtil.containsSimple("奋斗2023"));

Assert.assertFalse(ZhConverterUtil.containsSimple("編"));
Assert.assertFalse(ZhConverterUtil.containsSimple("編號"));

Assert.assertTrue(ZhConverterUtil.isTraditional('編'));
Assert.assertTrue(ZhConverterUtil.isTraditional("編"));
Assert.assertTrue(ZhConverterUtil.isTraditional("編號"));

Assert.assertFalse(ZhConverterUtil.isTraditional('编'));
Assert.assertFalse(ZhConverterUtil.isTraditional("编"));
Assert.assertFalse(ZhConverterUtil.isTraditional("编号"));
Assert.assertFalse(ZhConverterUtil.isTraditional("编號"));

Assert.assertTrue(ZhConverterUtil.containsTraditional("編"));
Assert.assertTrue(ZhConverterUtil.containsTraditional("編號"));
Assert.assertTrue(ZhConverterUtil.containsTraditional("編號2023"));

Assert.assertFalse(ZhConverterUtil.containsTraditional("号"));
Assert.assertFalse(ZhConverterUtil.containsTraditional("编号"));

final String original = "生命不息奋斗不止";
final List<String> resultList = ZhConverterUtil.simpleList(original);

Assert.assertEquals("[生, 命, 不, 息, 奋斗, 不, 止]", resultList.toString());

final String original = "生命不息奮鬥不止";
final List<String> resultList = ZhConverterUtil.traditionalList(original);

Assert.assertEquals("[生, 命, 不, 息, 奮, 鬥, 不, 止]", resultList.toString());

Assert.assertEquals("[幹, 乾, 干]", ZhConverterUtil.toTraditional('干').toString());
Assert.assertEquals("[發, 髮]", ZhConverterUtil.toTraditional('发').toString());

Assert.assertEquals("[测]", ZhConverterUtil.toSimple('測').toString());

Assert.assertTrue(ZhConverterUtil.isChinese("你"));
Assert.assertTrue(ZhConverterUtil.isChinese("你好"));
Assert.assertTrue(ZhConverterUtil.isChinese('你'));

Assert.assertFalse(ZhConverterUtil.isChinese("你0"));
Assert.assertFalse(ZhConverterUtil.isChinese("10"));
Assert.assertFalse(ZhConverterUtil.isChinese('0'));
Assert.assertFalse(ZhConverterUtil.isChinese(""));
Assert.assertFalse(ZhConverterUtil.isChinese(null));

Assert.assertTrue(ZhConverterUtil.containsChinese("你"));
Assert.assertTrue(ZhConverterUtil.containsChinese("你好"));
Assert.assertTrue(ZhConverterUtil.containsChinese("你0"));

Assert.assertFalse(ZhConverterUtil.containsChinese("10"));
Assert.assertFalse(ZhConverterUtil.containsChinese(""));
Assert.assertFalse(ZhConverterUtil.containsChinese(null));

为保证方法的一致性，引入 ZhTwConverterUtil 工具类，支持方法和 ZhConverterUtil 保持一致。

String original = "使用互联网";
String result = ZhTwConverterUtil.toTraditional(original);
Assert.assertEquals("使用網際網路", result);

String original = "使用網際網路";
String result = ZhTwConverterUtil.toSimple(original);
Assert.assertEquals("使用互联网", result);

ZhConvertBootstrap.newInstance()
                .segment(Segments.defaults())
                .dataMap(DataMaps.defaults());

ZhConvertBootstrap.newInstance()
                .segment(Segments.defaults())
                .dataMap(DataMaps.taiwan());

你可以通过 Segments 工具类获取系统内置的分词实现。

序号	方法	准确性	性能	备注
1	defaults()	高	高	默认分词形式，暂时为 `fastForward` 策略
2	fastForward()	较高	高	fast-forward 分词策略
3	chars()	低	高	将字符串转换为单个字符列表，一般不建议使用
4	huaBan()	高	一般	花瓣的结巴分词策略

<dependency>
    <groupId>com.huaban</groupId>
    <artifactId>jieba-analysis</artifactId>
    <version>1.0.2</version>
</dependency>

public interface Segment {

    /**
     * 分词
     * @param original 原始信息
     * @return 分词后的列表
     */
    List<String> seg(final String original);

}

/**
 * 一个最简单的分词实现。
 * 注意：仅仅做演示，不可实际使用。
 */
public class FooSegment implements Segment {
    @Override
    public List<String> seg(String original) {
        return Arrays.asList(original, "测试");
    }
}

final String original = "寥落古行宫，宫花寂寞红。白头宫女在，闲坐说玄宗。";
final Segment segment = new FooSegment();

final String result = ZhConvertBootstrap.newInstance()
        .segment(segment)
        .toTraditional(original);

Assert.assertEquals("寥落古行宮，宮花寂寞紅。白頭宮女在，閒坐說玄宗。測試", result);

/**
 * 数据 map 接口
 * @author binbin.hou
 * @since 1.5.2
 */
public interface IDataMap {

    /**
     * 繁体=》简体 词组
     * @return 结果
     * @since 1.5.2
     */
    Map<String, List<String>> tsPhrase();

    /**
     * 繁体=》简体 单个字
     * @return 结果
     * @since 1.5.2
     */
    Map<String, List<String>> tsChar();

    /**
     * 简体=》繁体 词组
     * @return 结果
     * @since 1.5.2
     */
    Map<String, List<String>> stPhrase();

    /**
     * 简体=》繁体 单个字
     * @return 结果
     * @since 1.5.2
     */
    Map<String, List<String>> stChar();

    /**
     * 繁体字所有字符
     * @return 繁体字所有字符
     * @since 1.6.2
     */
    Set<String> tChars();

    /**
     * 简体字所有字符
     * @return 繁体字所有字符
     * @since 1.8.0
     */
    Set<String> sChars();

}

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

openccj 分词繁简体

Opencc4j

Features 特点

创作缘由

快速开始

maven 引入

api 概览

繁简体转换

转为简体 toSimple

转为繁体 toTraditional

繁简体判断

是否为简体 isSimple

是否包含简体 containsSimple

是否为繁体 isTraditional

是否包含繁体 containsTraditional

句子中包含的繁简体列表返回

简体列表 simpleList

繁体列表 traditionalList

单个汉字对应的繁简体列表

繁体字列表

简体字列表

中文工具方法

是否为中文 isChinese

是否包含中文 containsChinese

中国台湾繁简体转换

工具类

测试用例

配置引导类

引导类说明

默认配置

中国台湾地区配置

中文分词策略

系统内置分词方式

花瓣结巴分词

自定义

测试代码

自定义分词实现类

分词测试

数据接口自定义

接口说明

自定义说明

NLP 开源矩阵

相关文章

发表回复 取消回复

发表回复取消回复