云网牛站
所在位置:首页 > Linux云服务器 > 在Ubuntu 18.04系统上安装Apache Tika 1.20的步骤

在Ubuntu 18.04系统上安装Apache Tika 1.20的步骤

2018-12-30 21:07:56作者:戴进稿源:云网牛站

本文介绍如何在Ubuntu 18.04或者Ubuntu 16.04操作系统上安装Apache Tika 1.20,安装所需要的条件是Java运行时环境(JRE)和Apache Maven。

 

简介

Apache Tika是一个开源工具包,可以从超过一千种不同的文件类型(如PPT,XLS和PDF)中检测和提取元数据和文本。Tika对于搜索引擎索引,内容分析,翻译e.t.c非常有用。

附Apache Tika 1.20版本的新功能:

1、升级到POI 4.0.1。

2、升级到PDFBox 2.0.13。

3、集成/参数化新角度处理。

4、阻止<style>和<script/>元素中的内容写入ToTextContentHandle。

5、在tika-server的spawnChild模式中将子进程切换到父进程通信到共享内存映射文件。

6、批量升级依赖项。

7、升级jaxb-runtime和javax.activation。

8、提高tika-eval的语言效率。

9、删除PPT幻灯片中的重复备注。

10、将sqlite提供依赖项升级到3.25.2。

 

下载链接

Apache Tika网站

Apache Tika下载地址

 

在Ubuntu 18.04系统上安装Apache Tika 1.20的步骤

第一步、更新Ubuntu 18.04系统

首先确保运行的是最新的Ubuntu桌面/服务器版本:

sudo apt update

sudo apt -y upgrade

sudo apt -y intall wget curl vim

第二步、在Ubuntu 18.04或Ubuntu 16.04系统上安装Java

1、从Tika 1.19开始,支持从Java 11构建,请参考在Ubuntu 18.04系统上安装Java 11的方法

2、如果要使用Java 8版本,请在终端中执行以下命令:

sudo add-apt-repository ppa:webupd8team/java

sudo apt update 

sudo apt install oracle-java8-set-default

3、确认已安装的Java版本:

$ java --version

java 11.0.1

Java(TM) SE Runtime Environment 18.9 (build 11.0.1+13-LTS)

Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.1+13-LTS, mixed mode)

注意:需要Java 8或更高版本才能构建Tika。

第三步、安装Apache Maven

请参考在Ubuntu 18.04.1系统中搭建Java环境及创建Maven项目一文。

第四步、下载并安装Apache Tika

1、请从上面的下载链接中下载最新的Apache Tika:

wget https://archive.apache.org/dist/tika/tika-1.20-src.zip

注:最新版本的下载地址为https://archive.apache.org/dist/tika/tika-${VER}-src.zip,把${VER}替换成版本号即可,比如上面的export VER="1.20"。

2、解压缩下载的文件:

unzip tika-1.20-src.zip

3、切换到新文件夹并运行mvn install:

cd tika-1.20

mvn install

4、正常情况下返回以下信息:

在Ubuntu 18.04系统上安装Apache Tika 1.20的步骤

5、等待安装完成,然后在其目录中测试Tika,通常情况下就可以正常使用了。

 

相关主题

Ubuntu 18.04系统中使用Apache搭建简单的web服务器

精选文章
热门文章