Tesseract5のコンパイル・インストール手順
tesseractが準備しているモデル(tessdata_best)に対して追加学習させるためには、githubから落としてきたリポジトリを決まった手順に従って、コンパイルしインストールまで実行する必要があります。
そこでこの記事ではtesseractをgithubからのクローンするところからコンパイル、インストールするところまでの手順を解説します。
なお以下の公式サイトを参考に記述しています。英語が得意という人はこのサイトも確認してください。
- https://tesseract-ocr.github.io/tessdoc/Compiling.html
- tesseract-ocr.github.io/tessdoc/Compiling-–-GitInstallation.md
※ rootユーザーでやるとすんなり進みやすいです。
コンパイルに必要なパッケージをインストール
sudo apt-get install -y automake ca-certificates g++ git libtool libleptonica-dev make pkg-config
sudo apt-get install -y --no-install-recommends asciidoc docbook-xsl xsltproc
sudo apt-get install -y libpango1.0-dev libicu-dev libcairo2-dev
tesseractリポジトリのクローン
tesseractのリポジトリをgithubからcloneします。
※ “Tesseract5の再学習・追加学習手順まとめ"から来た方はtesstutorial/tesseractにすでにクローン済みなのでこの手順は不要です。
cd ~ # どこでもOK
git clone --depth 1 https://github.com/tesseract-ocr/tesseract.git
本来git cloneをすると過去の履歴を含めた元のリポジトリを丸ごと持ってきますが、今回はリポジトリの操作をすることはなくtesseractをインストールすることが目的なので、"–depth 1″というオプションをつけて最新のコードだけを取ってきます。
参考ページ:git リポジトリの最新の履歴だけを取得する shallow clone
tesseractのコンパイルとインストール
参考ページ:https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md
cd tesseract
./autogen.sh
./configure
make
sudo make install
sudo ldconfig
make training
sudo make training-install
上記のコマンド実行時、何かしらエラーらしき表示が出ることがありますが、実行結果の出力の最終行の方がエラーとなっていなければ、tesseractのインストールは完了です。
プロンプト上でtesseractコマンドが利用可能な状態になっています。実行結果例
$ tesseract
Usage:
tesseract --help | --help-extra | --version
tesseract --list-langs
tesseract imagename outputbase [options...] [configfile...]
OCR options:
-l LANG[+LANG] Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.
Single options:
--help Show this help message.
--help-extra Show extra help for advanced users.
--version Show version information.
--list-langs List available languages for tesseract engine.
まとめ
以上でtesseractの再学習のために必要なインストール作業は完了しました。
それでは学習してみましょう。