Achtung
Dieser Beitrag ist schon sehr alt, und die Infos hier sind sicherlich hoffnungslos veraltet…
Mehrseitiges PDF in einzelne TIFFs extrahieren
Ubuntu
Ich habe hier die Datei Eingescannt.pdf
, die aus mehreren Seiten besteht. Um eine OCR-Erkennung durchführen zu können, benötige ich die einzelnen Seiten der PDF-Datei jeweils als TIFF-Bild.
Das Aufsplitten der PDF-Datei nehme ich mittels gs
vor, welches einfach per
sudo apt-get install gs
nachinstalliert werden kann.
Der Befehl lautet nun
gs -SDEVICE=tiffg4 -r600x600 -sPAPERSIZE=letter -sOutputFile=ORDNER/PRAEFIX_%04d.tif -dNOPAUSE -dBATCH -- Eingesacannt.pdf
Hierdurch werden die einzelnen Seiten der Datei Eingescannt.pdf
als TIFF-Bild in den Ordner ORDNER
gelegt, wobei die Dateinamen immer mit PRAEFIX
beginnen und dann durchnummeriert werden.