Apache Tika是什么?能干什么?
该工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测并提取元数据和文本。
所有这些文件类型都可以通过同一个接口进行解析,这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。
基于Apache License 2.0
Apache Tika releases are available under the Apache License, Version 2.0
Apache Tika的安装
Build artifacts说明
tika–core/target/tika–core-*.jar
Tika核心库。包含Tika的核心接口和类,但没有解析器实现。
tika–parsers/tika–parsers–standard/tika–parsers–standard–package/target/tika–parsers–standard–package-*.jar
Tika解析器。基于各种外部解析器库实现Tika Parser接口的类集合。这包括最常用的解析器。用户可能希望添加tika–parser–sqlite3-package和tika-parser–scientific–package科学包或其他解析器模块。
Tika应用程序。将上述组件和标准解析器库组合成一个具有GUI和命令行接口的可运行jar。
tika-server/tika-server–standard/target/tika-server–standard-*.jar
Tika JAX-RS REST应用程序。这是一个Jetty web服务器,运行Tika REST服务。
tika-bundles/tika-bundle-standard/target/tika-bundle-standard-*.jar
Tika捆绑包。一个OSGi捆绑包,它将tika解析器与非OSGified解析器库相结合,使它们易于在OSGi环境中部署。
Tika评估模块。命令行工具,用于评估Tika的输出或比较两个不同版本的Tika或其他文本提取包的输出。
https://dlcdn.apache.org/tika/2.9.1/tika-app-2.9.1.jar
Apache Tika试用
GUI会卡主,没关系,等一会就好了
原文地址:https://blog.csdn.net/hugo_lei/article/details/134488150
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_20916.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!