FB18 - Das Forum für Informatik

fb18.de / Off-Topic / Hard- und Softwarefragen

In PHP: PDF-Dateien auslesen

In PHP: PDF-Dateien auslesen 2005-02-14 12:33
nfsweyoun
Hallo Forum,

eine zugegeben sehr spezielle Frage, aber vielleicht hat ja jemand von Euch eine Idee zu meinem Problem. Ich google schon seit 2 Stunden, hab aber irgendwie noch keine zufriedenstellenden Infos gefunden.

Ich würde gerne mit Hilfe von PHP 4.3 nur den reinen Text aus einem oder mehreren PDF-Dokumenten auslesen können. D.h., daß mir dann der komplette Text des PDF als langer String vorliegt (o.ä.), den ich dann mittels PHP weiterverarbeiten kann.

fopen() und dann fread() geht nicht, weil die PDF-Dokumente offensichtlich komprimiert vorliegen, d.h. im Editor geöffnet folgendes Bild abgeben:
%PDF-1.3 %Ç쏢 5 0 obj <</Length 6 0 R/Filter /FlateDecode>> stream xœ½=k³%7q•e±½×[¶e ŽcŸ@ çšÜÃŒÞ IxTªRùñ7œO$PØ)œùûQk¤~H=sÎõ¼U®Ówôlµú- é§å²šÓÿú_z÷Ã_ÆÓoÿ÷®þùôËn?>ÿíÝîÒÅÂõü÷¯?=ýäãR1ŸÖõ²¸ÓÇ¿¹[.9g·l ®'[þ³?Å`Kõôñ§w¿:ÿÙýÃz Ù.éüä~µ›’=åþÁ\\Zâùéýƒ+õüê{Iýù«ð} (und so weiter...)
Meine Vermutung ist, daß man mit Hilfe eines externen Kommandozeilenprogramms, das man aus PHP heraus startet, die PDF in TXT o.ä. konvertiert und dieses Programm dann die TXT an PHP zurückgibt. Ach ja, Serverplattform ist Unix.

Jetzt meine Frage: Kennt irgendjemand da einen Weg? Oder eine Software? Oder hat das gar schonmal jemand gemacht? Irgendwelche Ideen? Ach ja, Perl/CGI wäre auch verfügbar, falls das über diese Schiene einfacher ginge.

Danke schonmal für jegliche Denkanstöße!

Re: In PHP: PDF-Dateien auslesen 2005-02-14 13:41
hannosch
Also ich nutze dazu unter Windows:

http://www.foolabs.com/xpdf/download.html

Da gibt es dann eine PDFtoTEXT.exe. Das Paket gibt's aber auch für Linux.

Damit kannst Du eine pdf-Datei temporär in eine Textdatei umwandeln und dann den Inhalt dieser Textdatei einlesen.

Ich nutze das im Zope/Plone-Umfeld für die automatische Indizierung von pdf-Dateien für die Suchfunktion.

Re: In PHP: PDF-Dateien auslesen 2005-02-15 08:28
nfsweyoun
Hey danke, nach ungefähr solch einem Tool habe ich gesucht. Die pdftotext für Linux kann man ohne X-System wunderbar in der Kommandozeile ausführen. Ich werde mir das mal angucken, danke für den Tip.