画像(png・pdf)をOCR処理→文字を埋め込んだpdf作成
メモなのです
環境
・mac OS (スイマセンまだMojaveです) ・冷房の効いた部屋(梅雨がバッチリ明けた8月に作成した記事) ・胃に優しいコーヒー
必要なライブラリ
・pdfをpngに変換するのに必要(対象ファイルがすでにpngなら不要)
$ brew install imagemagick $ brew install poppler
・OCR処理に必要
$ brew install tesseract
gitはこちら github.com ・日本語のOCR用のファイル 以下の2つ(jpn.traineddata、jpn_vert.traineddata)をダウンロード github.com
以下に格納 (バージョンによってフォルダ違うので注意)
$ mv jpn.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/ $ mv jpn_vert.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/
pdfのpng変換(対象ファイルがすでにpngなら不要)
$ pdftoppm -png ファイル名.pdf pngを格納したいフォルダ/page
これで複数ページのpdfファイルは、page-1.png、page-2.png、、、のように分割されてpng化
pngのOCR処理→pdf変換
・pngファイルが1つ
$ tesseract pngを格納したフォルダ/page-1.png out -l jpn pdf
この場合はout.pdfという名前で出来上がり〜〜〜
・pngファイルが複数
$ find "pngを格納したフォルダ" -type f -name "*.png" | sed 's/\.png$//' | xargs -P8 -n1 -I% tesseract %.png % -l jpn pdf
pngを格納したいフォルダ内にpage-1.pdf、page-2.pdf、、が出来上がっています。 あとは結合させれば完成〜〜〜〜