Achtung
Dieser Beitrag ist schon sehr alt, und die Infos hier sind sicherlich hoffnungslos veraltet…
Mehrseitiges PDF in einzelne TIFFs extrahieren
Ubuntu
Ich habe hier die Datei Eingescannt.pdf, die aus mehreren Seiten besteht. Um eine OCR-Erkennung durchführen zu können, benötige ich die einzelnen Seiten der PDF-Datei jeweils als TIFF-Bild.
Das Aufsplitten der PDF-Datei nehme ich mittels gs vor, welches einfach per
sudo apt-get install gs
nachinstalliert werden kann.
Der Befehl lautet nun
gs -SDEVICE=tiffg4 -r600x600 -sPAPERSIZE=letter -sOutputFile=ORDNER/PRAEFIX_%04d.tif -dNOPAUSE -dBATCH -- Eingesacannt.pdf
Hierdurch werden die einzelnen Seiten der Datei Eingescannt.pdf als TIFF-Bild in den Ordner ORDNER gelegt, wobei die Dateinamen immer mit PRAEFIX beginnen und dann durchnummeriert werden.