画像（png・pdf）をOCR処理→文字を埋め込んだpdf作成

メモなのです

・mac OS　（スイマセンまだMojaveです）
・冷房の効いた部屋（梅雨がバッチリ明けた8月に作成した記事）
・胃に優しいコーヒー

・pdfをpngに変換するのに必要（対象ファイルがすでにpngなら不要）

$ brew install imagemagick
$ brew install poppler

・OCR処理に必要

$ brew install tesseract

gitはこちら github.com ・日本語のOCR用のファイル以下の２つ（jpn.traineddata、jpn_vert.traineddata）をダウンロード github.com

以下に格納（バージョンによってフォルダ違うので注意）

$ mv jpn.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/
$ mv jpn_vert.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/

$ pdftoppm -png ファイル名.pdf pngを格納したいフォルダ/page

これで複数ページのpdfファイルは、page-1.png、page-2.png、、、のように分割されてpng化

・pngファイルが１つ

$ tesseract pngを格納したフォルダ/page-1.png out -l jpn pdf

この場合はout.pdfという名前で出来上がり〜〜〜

・pngファイルが複数

$ find "pngを格納したフォルダ" -type f -name "*.png" | sed 's/\.png$//' | xargs -P8 -n1 -I% tesseract %.png % -l jpn pdf

pngを格納したいフォルダ内にpage-1.pdf、page-2.pdf、、が出来上がっています。あとは結合させれば完成〜〜〜〜

なんちゃってだよ