Inhalt eines PDF mit PHP auslesen

Da ich vor einiger Zeit das automatisierte Auslesen des Textinhalts eines einfachen PDFs mit anschließender Weiterverarbeitung umgesetzt habe, an dieser Stelle mein Lösungsansatz.

Verwendet habe ich:


1. Eine gängige (Ubuntu) Linux Webserver Installation
Das Zauberwort heißt pdftotext und findet sich in den poppler-utils.
Das Paket lässt sich problemlos auf jedem V-Server, Server usw. mit SSH-Zugang mit der Eingabe installieren:


sudo apt-get update
sudo apt-get install poppler-utils


2. pdftotext
pdftotext extrahiert den gesamten Textbereich (Fließtext) eines einfachen PDF-Dokuments. "Einfach" bedeutet in diesem Fall, dass die PDF-Datei größtenteils aus Fließtext bestehen sollte. Umfangreiche PDFs mit vielen Grafiken werden von pdftotext in der Regel nicht sauber gelesen. Reine Text-PDF, die z.B. mit Microsoft Word / Powerpoint / Excel erstellt worden sind, werden zügig und fehlerfrei von pdftotext extrahiert. Befehlsaufruf auf der Konsole:


pdftotext meindokument.pdf ausgabe.txt



3. PHP und ein bißchen HTML
Nun kann das Systemprogramm zum Beispiel wunderbar in Verbindung mit einem Dateiupload genutzt werden:

<form method="post" enctype="multipart/form-data">
<fieldset>
[...usw]
<input type="file" name="pdf">
[...usw]
</form>



um anschließend mit PHP weiter verarbeitet zu werden:

$eingabe=$_FILES['pdf']['tmp_name'];
$ausgabe=$_SERVER[DOCUMENT_ROOT]."/temp/ausgabe.txt";
$command="pdftotext $eingabe $ausgabe";
$output = shell_exec($command);


Damit das Beispiel funktioniert, sollte der Webserver auch in den hier verwendeten temp/ Ordner im Webspace schreiben dürfen, chmod 777 temp also vorher bitte nicht vergessen!


Der Textinhalt des hochgeladenen PDF-Dokuments findet sich, wenn alles sauber durchläuft, innerhalb des Webspace-Stammverzeichnisses in der Datei "/temp/ausgabe.txt" wieder.


« Zurück zur Artikelübersicht

Kommentare (0)

Kommentar verfassen:
(Kommentare werden nach Prüfung veröffentlicht)

*Pflichtfelder bitte ausfüllen, vielen Dank!
**Die E-Mail Adresse wird nicht veröffentlicht.
Startseite Webdesign Suchmaschinenoptimierung Technik Kontakt Referenzen Artikel Impressum AGB