なんちゃってだよ

見習いデータアナリストになった元SE→元コンサルによるなんちゃってデータ分析

画像(png・pdf)をOCR処理→文字を埋め込んだpdf作成

メモなのです

環境

・mac OS (スイマセンまだMojaveです)
・冷房の効いた部屋(梅雨がバッチリ明けた8月に作成した記事)
・胃に優しいコーヒー

必要なライブラリ

・pdfをpngに変換するのに必要(対象ファイルがすでにpngなら不要)

$ brew install imagemagick
$ brew install poppler

OCR処理に必要

$ brew install tesseract

gitはこちら github.com ・日本語のOCR用のファイル 以下の2つ(jpn.traineddata、jpn_vert.traineddata)をダウンロード github.com

github.com

以下に格納 (バージョンによってフォルダ違うので注意)

$ mv jpn.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/
$ mv jpn_vert.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/

pdfのpng変換(対象ファイルがすでにpngなら不要)

$ pdftoppm -png ファイル名.pdf pngを格納したいフォルダ/page

これで複数ページのpdfファイルは、page-1.png、page-2.png、、、のように分割されてpng

pngOCR処理→pdf変換

pngファイルが1つ

$ tesseract pngを格納したフォルダ/page-1.png out -l jpn pdf

この場合はout.pdfという名前で出来上がり〜〜〜

pngファイルが複数

$ find "pngを格納したフォルダ" -type f -name "*.png" | sed 's/\.png$//' | xargs -P8 -n1 -I% tesseract %.png % -l jpn pdf

pngを格納したいフォルダ内にpage-1.pdf、page-2.pdf、、が出来上がっています。 あとは結合させれば完成〜〜〜〜