本文介绍如何在Ubuntu 18.04或者Ubuntu 16.04操作系统上安装Apache Tika 1.20,安装所需要的条件是Java运行时环境(JRE)和Apache Maven。
简介 Apache Tika是一个开源工具包,可以从超过一千种不同的文件类型(如PPT,XLS和PDF)中检测和提取元数据和文本。Tika对于搜索引擎索引,内容分析,翻译e.t.c非常有用。 附Apache Tika 1.20版本的新功能: 1、升级到POI 4.0.1。 2、升级到PDFBox 2.0.13。 3、集成/参数化新角度处理。 4、阻止<style>和<script/>元素中的内容写入ToTextContentHandle。 5、在tika-server的spawnChild模式中将子进程切换到父进程通信到共享内存映射文件。 6、批量升级依赖项。 7、升级jaxb-runtime和javax.activation。 8、提高tika-eval的语言效率。 9、删除PPT幻灯片中的重复备注。 10、将sqlite提供依赖项升级到3.25.2。
下载链接
在Ubuntu 18.04系统上安装Apache Tika 1.20的步骤 第一步、更新Ubuntu 18.04系统 首先确保运行的是最新的Ubuntu桌面/服务器版本: sudo apt update sudo apt -y upgrade sudo apt -y intall wget curl vim 第二步、在Ubuntu 18.04或Ubuntu 16.04系统上安装Java 1、从Tika 1.19开始,支持从Java 11构建,请参考在Ubuntu 18.04系统上安装Java 11的方法。 2、如果要使用Java 8版本,请在终端中执行以下命令: sudo add-apt-repository ppa:webupd8team/java sudo apt update sudo apt install oracle-java8-set-default 3、确认已安装的Java版本: $ java --version java 11.0.1 Java(TM) SE Runtime Environment 18.9 (build 11.0.1+13-LTS) Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.1+13-LTS, mixed mode) 注意:需要Java 8或更高版本才能构建Tika。 第三步、安装Apache Maven 请参考在Ubuntu 18.04.1系统中搭建Java环境及创建Maven项目一文。 第四步、下载并安装Apache Tika 1、请从上面的下载链接中下载最新的Apache Tika: wget https://archive.apache.org/dist/tika/tika-1.20-src.zip 注:最新版本的下载地址为https://archive.apache.org/dist/tika/tika-${VER}-src.zip,把${VER}替换成版本号即可,比如上面的export VER="1.20"。 2、解压缩下载的文件: unzip tika-1.20-src.zip 3、切换到新文件夹并运行mvn install: cd tika-1.20 mvn install 4、正常情况下返回以下信息:
5、等待安装完成,然后在其目录中测试Tika,通常情况下就可以正常使用了。
相关主题 |