本文介绍: Apache Tika一个内容分析工具包。该工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测提取数据文本。所有这些文件类型都可以通过一个接口进行解析,这使得Tika搜索引擎索引内容分析翻译等方面非常有用。

Apache Tika什么?能干什么

Apache Tika是一个内容分析工具包

工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测提取数据文本

所有这些文件类型都可以通过一个接口进行解析,这使得Tika在搜索引擎索引内容分析翻译等方面非常有用。

基于Apache License 2.0

Apache Tika releases are available under thApache License, Version 2.0

Apache Tika的安装

Apache Tika支持多种方式业务集成

Build artifacts说明

tikacore/target/tikacore-*.jar
Tika核心库。包含Tika的核心接口和类,但没有解析器实现

tikaparsers/tikaparsersstandard/tikaparsersstandardpackage/target/tikaparsersstandardpackage-*.jar

Tika解析器基于各种外部解析器库实现Tika Parser接口的类集合。这包括最常用的解析器。用户可能希望添加tikaparsersqlite3-packagetika-parserscientificpackage科学包或其他解析模块

tikaapp/target/tikaapp-*.jar

Tika应用程序。将上述组件标准解析器库组合一个具有GUI和命令行接口的可运行jar

tika-server/tika-serverstandard/target/tika-serverstandard-*.jar

Tika JAX-RS REST应用程序。这是一个Jetty web服务器运行Tika REST服务

tika-bundles/tika-bundle-standard/target/tika-bundle-standard-*.jar

Tika捆绑包。一个OSGi捆绑包,它将tika解析器与非OSGified解析器库相结合,使它们易于在OSGi环境部署

tika-eval/tika-evalapp/target/tika-eval-app-*.jar

Tika评估模块命令行工具用于评估Tika的输出比较两个不同版本的Tika或其他文本提取包的输出

试用建议app模式命令行直接运行下载地址

https://dlcdn.apache.org/tika/2.9.1/tika-app-2.9.1.jar​​​​​​​

Apache Tika试用

java -jar tika-app-2.9.1.jargui

启动图形界面

直接拖拽一个文件进去

若文件较大,或内容复杂(包括图,表)等,处理过程比较慢。

GUI会卡主,没关系,等一会就好了

可以切换不同模式显示输出内容

​​​​​​​

原文地址:https://blog.csdn.net/hugo_lei/article/details/134488150

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_20916.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注