Tesseract 据说是开源里做 OCR 最厉害的工具之一,安装和使用都很简单。当要做一些训练的时候,需要自己从源码编译。这里记录下一些遇到的坑。

1 代码环境

  • Macbook Air 10.14.1
  • Ubuntu 18.04

2 遇到的坑

2.1 Mac下的编译

我是根据 Wiki 上的 HomeBrew 教程走,遇到两个麻烦。一个是 -lpango 库文件找不到,另一个是 -lgobject 找不到。首先确保安装了相应的程序:

brew install pango glib

然后把相应的库文件在 ./configure 的时候链接上去即可。最终的 ./configure 命令如下:

./configure CC=gcc-8 CXX=g++-8 CPPFLAGS=-I/usr/local/opt/icu4c/include LDFLAGS="-L/usr/local/opt/icu4c/lib -L/usr/local/Cellar/pango/1.42.4/lib -L/usr/local/lib"