linux下使用tess4j实现图片OCR功能

原创

linux下使用tess4j实现图片OCR功能

作者：cndz 围观群众：1604 更新于 2023-05-05 20:05:30 标签：tess4jocr图片文字识别linux 下文字识别

前言

在做工具站的时候想给网站添加个图片OCR功能，最终选择tess4j来实现。在使用过程中遇到了一些问题。在此记录下。

Java 代码实例

1.引入maven

 <dependency>
     <groupId>net.sourceforge.tess4j</groupId>
     <artifactId>tess4j</artifactId>
     <version>5.3.0</version>
</dependency>

工具类代码

package util;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.Tesseract1;
import net.sourceforge.tess4j.TesseractException;

import java.io.File;

/**
 * @author:zzy
 * @date:Created in 2023/4/14 21:32
 * @modified By:zzy
 */
public class JavaOcrUtil {

    public static String doOcr(String filePath,String language){
        // 执行OCR识别
        File file = new File(filePath);

        Tesseract1 instance = new Tesseract1();
        // 设置语言
        instance.setLanguage(language);
        try {
            String result = instance.doOCR(file);
            return result;
        } catch (TesseractException e) {
            throw new IllegalArgumentException("ocr出错");
        }
    }

    public static void main(String[] args) {
        System.out.println(doOcr("d://test/test.jpg","jpn"));
    }
}

tessdata模型文件下载地址 https://github.com/tesseract-ocr/tessdata

问题与解决办法。

1.在windows下添加环境变量。模型文件存放位置。

2.Tess4j 不是夸平台的。只对windows开箱即用。
打包部署到linux系统。突然发现调用工具类方法的时候突然报错了。在查询一些资料后发现tess4j本身并不是跨平台的。我的服务器使用的是linux系统。所以需要进行单独配置。

安装gcc g++ 环境
```
yum install gcc gcc-c++ make
```

安装 autoconf automake libtool和libjpeg-devel libpng-devel libtiff-devel zlib-devel

yum install autoconf automake libtool
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

安装依赖的Leptonica库，依次执行以下命令安装，leptonca版本可以根据实际情况更换，资源地址

wget https://github.com/DanBloomberg/leptonica/releases/download/1.82.0/leptonica-1.82.0.tar.gz
tar -xzvf leptonica-1.82.0.tar.gz
cd leptonica-1.82.0
./configure
make && make install

加入环境变量

vim /etc/profile
在最后插入
export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
保存退出后执行下面命令 让配置生效
source /etc/profile

安装Tesseract-OCR，依次执行以下命令完成安装

wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.2.0.tar.gz
重名名下压缩包
mv 5.2.0.tar.gz tesseract-5.2.0.tar.gz
tar -xzvf tesseract-5.2.0.tar.gz 
cd tesseract-5.2.0/
./autogen.sh
./configure
make && make install
sudo ldconfig

复制tess4j要的一些so文件复制到 lib64下。
```
cp /usr/local/lib/*.so.* /usr/lib64/
```
检查下是否安装成功
也可以使用下面命令直接进行ocr。查看结果验证程序是否安装完成。
```
tesseract card.jpg c -l chi_sim
```

3.第二步执行完毕后。发现调用程序还是报错。甚至会把整个程序宕掉。提示信息如下。将环境变量TESSDATA_PREFIX配置到/etc/profile中刷新配置文件发现并没有作用。

Note: further occurrences of this error will be logged at DEBUG level.
Error opening data file ./chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi_sim'
Tesseract couldn't load any languages!

解决办法:在工具类中指定模型文件所在位置。

public class JavaOcrUtil {

    public static String doOcr(String filePath,String language){
        // 执行OCR识别
        File file = new File(filePath);

        Tesseract1 instance = new Tesseract1();
        // 设置语言
        instance.setLanguage(language);
        instance.setDatapath("/usr/tessocr/tesseract-5.2.0/tessdata");
        try {
            String result = instance.doOCR(file);
            return result;
        } catch (TesseractException e) {
            throw new IllegalArgumentException("ocr出错");
        }
    }

    public static void main(String[] args) {
        System.out.println(doOcr("d://test/test.jpg","jpn"));
    }
}

第三点问题到最终也不知道为什么。如果有哪位大佬知道原因。可以在评论指导下。

最后希望这篇文章能给需要的朋友们提供一点点帮助吧。

4 min
张三

这是评论的一层。
2022-12-11 10:01:09 回复
- 李四回复 张三: 这是评论第二层
  2022-12-11 10:01:09 回复
  
  王八回复 李四: 这是评论第二层
  2022-12-11 10:01:09
  
  张三回复 李四: 这是回复评论第二层
  2022-12-11 10:01:09
  
  照旧回复 李四: 第三层不能再缩进了。
  2022-12-11 10:01:09
- 张三回复 李四: 这是回复评论第二层
  2022-12-11 10:01:09 回复
- 周五回复 张三: 第三层不能再缩进了。
  2022-12-11 10:01:09 回复

今天是 2026-04-26 , 星期日 , 农历三月初十,今年已经过去了116天（31.78%）,希望大家莫负时光，莫负自己。在最美的一天，光芒万丈！

加入收藏

The artist is the lover of Nature, therefore he is her slave and her master.
艺术家是自然的情人，所以他是自然的奴隶，也是自然的主人。 - 《飞鸟集》