Tesseract5のコンパイル・インストール手順

2019年10月26日

当サイトはPR広告を利用しています。

tesseractが準備しているモデル(tessdata_best)に対して追加学習させるためには、githubから落としてきたリポジトリを決まった手順に従って、コンパイルしインストールまで実行する必要があります。

そこでこの記事ではtesseractをgithubからのクローンするところからコンパイル、インストールするところまでの手順を解説します。

なお以下の公式サイトを参考に記述しています。英語が得意という人はこのサイトも確認してください。

※ rootユーザーでやるとすんなり進みやすいです。

コンパイルに必要なパッケージをインストール

sudo apt-get install -y automake ca-certificates g++ git libtool libleptonica-dev make pkg-config
sudo apt-get install -y --no-install-recommends asciidoc docbook-xsl xsltproc
sudo apt-get install -y libpango1.0-dev libicu-dev libcairo2-dev

tesseractリポジトリのクローン

tesseractのリポジトリをgithubからcloneします。

※ “Tesseract5の再学習・追加学習手順まとめ"から来た方はtesstutorial/tesseractにすでにクローン済みなのでこの手順は不要です。

cd ~ # どこでもOK
git clone --depth 1 https://github.com/tesseract-ocr/tesseract.git

本来git cloneをすると過去の履歴を含めた元のリポジトリを丸ごと持ってきますが、今回はリポジトリの操作をすることはなくtesseractをインストールすることが目的なので、"–depth 1″というオプションをつけて最新のコードだけを取ってきます。
参考ページ:git リポジトリの最新の履歴だけを取得する shallow clone

tesseractのコンパイルとインストール

参考ページ:https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md

cd tesseract
./autogen.sh
./configure
make
sudo make install
sudo ldconfig
make training
sudo make training-install

上記のコマンド実行時、何かしらエラーらしき表示が出ることがありますが、実行結果の出力の最終行の方がエラーとなっていなければ、tesseractのインストールは完了です。

プロンプト上でtesseractコマンドが利用可能な状態になっています。実行結果例

$ tesseract
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.

まとめ

以上でtesseractの再学習のために必要なインストール作業は完了しました。

それでは学習してみましょう。

参考にした記事

直近でおすすめの本

直近十数冊読んだ中で一番おすすめの本です。

ビジネスデザイナーという肩書きを持つイノベーションシンキングの世界的第一人者である濱口秀司さんの書かれた本です。肩書きだけだとどのようなことをしている人か分かりにくいかもしれませんが、USBメモリやマイナスイオンドライヤーなど誰もが知る有名商品の産みの親の方です。

アメリカのコンサルタントの中でも最高額のコンサルティングフィーを受け取っている方で、私の友人から聞いた話だとこの人のコンサルティングを受けるためには1時間でも7桁の額は準備する必要があるとのことでした。

濱口秀司さんは自分の中でイノベーションを起こすための型を持っており、その型について本の中でかなり詳しく教えてくれています。革新的なアイデアを出す方法をここで詳細にはお伝えしませんが、とてもざっくりとまとめると以下の手順になります。

バイアスの特定→バイアスの破壊

革新とは現状の破壊です。現在世の中にあるバイアスを認知するところからアイデアの創出は始まります。この本ではバイアスを認知する方法、そして破壊する方法を詳しく述べてくれています。個人開発をしようとしているけど何を作れば良いか思い浮かばない方やや会社を立ち上げようとしている方に特におすすめの本です。

過去におすすめした本は以下の記事にまとめています。