Tesseract4のコンパイル・インストール手順

2019年10月26日

当サイトのリンクには広告が含まれています。

tesseractが準備しているモデル(tessdata_best)に対して追加学習させるためには、githubから落としてきたリポジトリを決まった手順に従って、コンパイルしインストールまで実行する必要があります。

そこでこの記事ではtesseractをgithubからのクローンするところからコンパイル、インストールするところまでの手順を解説します。

なお以下の公式サイトを参考に記述しています。英語が得意という人はこのサイトも確認してください。

※ rootユーザーでやるとすんなり進みやすいです。

コンパイルに必要なパッケージをインストール

sudo apt-get install g++ # or clang++ (presumably)
sudo apt-get install autoconf automake libtool
sudo apt-get install pkg-config
sudo apt-get install libpng-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev

leptonicaのインストール

tesseractは学習の際、内部でleptonicaというパッケージを使っています。そのためtesseractをインストールする前にleptonicaをインストールします。

sudo apt-get install libleptonica-dev

tesseractリポジトリのクローン

tesseractのリポジトリをgithubからcloneします。

git clone --depth 1 https://github.com/tesseract-ocr/tesseract.git

本来git cloneをすると過去の履歴を含めた元のリポジトリを丸ごと持ってきますが、今回はリポジトリの操作をすることはなくtesseractをインストールすることが目的なので、"–depth 1″というオプションをつけて最新のコードだけを取ってきます。
参考ページ:git リポジトリの最新の履歴だけを取得する shallow clone

tesseractのコンパイルとインストール

参考ページ:https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md

cd tesseract
./autogen.sh
./configure
make
sudo make install
sudo ldconfig
make training
sudo make training-install

上記のコマンド実行時、何かしらエラーらしき表示が出ることがありますが、実行結果の出力の最終行の方がエラーとなっていなければ、tesseractのインストールは完了です。

Viewerのインストール

Viewerという、画像認識の途中経過をイメージで確認できるツールのインストール方法も載せておきます。

このインストールをしておかないとtesseractの公式ページにあるTessTutorialのlstmtraingでエラーが発生してしまうので、TessTutorialをやる人は必須です。

# javaファイルをコンパイルするために必要なパッケージをインストール
$ sudo apt install openjdk-11-jre
# 正常にインストールできたか確認
$ javac --version
$ cd tesseract
$ make ScrollView.jar
# path/to/tesseract/javaの箇所はtesseractをクローンしてできたディレクトリの
# 一階層下にあるjavaというディレクトリを指定する。
$ export SCROLLVIEW_PATH="path/to/tesseract/java"

まとめ

以上でtesseractの再学習のために必要なインストール作業は完了しました。

それでは学習してみましょう。

参考にした記事

直近でおすすめの本

直近十数冊読んだ中で一番おすすめの本です。

人が行動をするに至るまでのステップを科学的に分析した上で、その結果を習慣と紐付けて解説してくれている本です。

悪い習慣を断ち、良い習慣を継続する方法を詳細に説明してくれています。習慣が人を作っているので、この本の内容を実践できれば人生を大きく好転させられる気がしました。

この本の最初の方に説明があるのですが、複利という考え方があり毎日1パーセントだけの増加でもそれが続くととてつもない倍率になります。これは投資でよく用いられる概念ですが、良い習慣は未来への投資なので習慣にもあてはまります。良い習慣を身に付けるのは早ければ早いほど良いです。

私はまず長時間YouTubeを見てしまう習慣を断って、直近の業務に役立つITの勉強を習慣として身に付けよう思います。