前回 tesseracrt-ocr のトレーニングをやってみたが、認識率はあまりよくならなかった。もうすこしデータを増やさないといけないのかもしれない。

前回作ったトレーニング用の画像は、Wordを使って等幅の明朝フォント作った文書をキャプチャしたものだったので、同じ文書を等幅ゴシックに変えるだけの画像を追加してみる。 これだとBoxファイルは共通で使えるため、一番手間のかかるBoxファイルの修正が不要となる。ただトレーニングの効果はあまりないかもしれないが。。。

まず、jpn.gothic.exp0.jpg という名前で等幅ゴシックの画像を用意する。Boxファイルの名前は前回明朝フォントで使ったものをコピーして、名前をjpn.gothic.exp0.boxとしておく。

以下、手順3から。説明は省く。

3.トレーニングの実行
>tesseract jpn.mincho.exp0.jpg jpn.gothic.exp0 nobatch box.train.stderr


4.キャラクターセットの計算
>unicharset_extractor jpn.mincho.exp0.box jpn.gothic.exp0.box


5. font_propertiesファイル作成
>del font_properties
>echo mincho 0 0 0 0 0 >>font_properties
>echo gothic 0 0 0 0 0 >>font_properties


6. クラスタリング
>mftraining -F font_properties -U unicharset -O jpn.unicharset jpn.mincho.exp0.tr jpn.gothic.exp0.tr


続けて
>cntraining jpn.mincho.exp0.tr jpn.gothic.exp0.tr


7. 生成されたファイルのリネーム
>del jpn.inttemp
>ren inttemp jpn.inttemp
>del jpn.shapetable
>ren shapetable jpn.shapetable
>del jpn.pffmtable
>ren pffmtable jpn.pffmtable
>del jpn.normproto
>ren normproto jpn.normproto


8. 1ファイルにまとめる
>combine_tessdata jpn.



そして認識結果。。。良くなってないような気がする。
ocr14

以上です。