In PHP: PDF-Dateien auslesen
2005-02-14 12:33
nfsweyoun
Hallo Forum,
eine zugegeben sehr spezielle Frage, aber vielleicht hat ja jemand von Euch eine Idee zu meinem Problem. Ich google schon seit 2 Stunden, hab aber irgendwie noch keine zufriedenstellenden Infos gefunden.
Ich würde gerne mit Hilfe von PHP 4.3 nur den reinen Text aus einem oder mehreren PDF-Dokumenten auslesen können. D.h., daß mir dann der komplette Text des PDF als langer String vorliegt (o.ä.), den ich dann mittels PHP weiterverarbeiten kann.
fopen() und dann fread() geht nicht, weil die PDF-Dokumente offensichtlich komprimiert vorliegen, d.h. im Editor geöffnet folgendes Bild abgeben:
Meine Vermutung ist, daß man mit Hilfe eines externen Kommandozeilenprogramms, das man aus PHP heraus startet, die PDF in TXT o.ä. konvertiert und dieses Programm dann die TXT an PHP zurückgibt. Ach ja, Serverplattform ist Unix.
Jetzt meine Frage: Kennt irgendjemand da einen Weg? Oder eine Software? Oder hat das gar schonmal jemand gemacht? Irgendwelche Ideen? Ach ja, Perl/CGI wäre auch verfügbar, falls das über diese Schiene einfacher ginge.
Danke schonmal für jegliche Denkanstöße!
eine zugegeben sehr spezielle Frage, aber vielleicht hat ja jemand von Euch eine Idee zu meinem Problem. Ich google schon seit 2 Stunden, hab aber irgendwie noch keine zufriedenstellenden Infos gefunden.
Ich würde gerne mit Hilfe von PHP 4.3 nur den reinen Text aus einem oder mehreren PDF-Dokumenten auslesen können. D.h., daß mir dann der komplette Text des PDF als langer String vorliegt (o.ä.), den ich dann mittels PHP weiterverarbeiten kann.
fopen() und dann fread() geht nicht, weil die PDF-Dokumente offensichtlich komprimiert vorliegen, d.h. im Editor geöffnet folgendes Bild abgeben:
%PDF-1.3
%Çì¢
5 0 obj
<</Length 6 0 R/Filter /FlateDecode>>
stream
xœ½=k³%7q•e±½×[¶e ŽcŸ@çšÜÃŒÞ
IxTªRùñ7œO$PØ)œùûQk¤~H=sÎõ¼U®Ówôlµú-
é§å²šÓÿú_z÷Ã_ÆÓoÿ÷®þùôËn?>ÿíÝîÒÅÂõü÷¯?=ýäãR1ŸÖõ²¸ÓÇ¿¹[.9g·l
®'[þ³?Å`Kõôñ§w¿:ÿÙýÃz Ù.éüä~µ›’=åþÁ\\Zâùéýƒ+õüê{Iýù«ð}
(und so weiter...)
Meine Vermutung ist, daß man mit Hilfe eines externen Kommandozeilenprogramms, das man aus PHP heraus startet, die PDF in TXT o.ä. konvertiert und dieses Programm dann die TXT an PHP zurückgibt. Ach ja, Serverplattform ist Unix.
Jetzt meine Frage: Kennt irgendjemand da einen Weg? Oder eine Software? Oder hat das gar schonmal jemand gemacht? Irgendwelche Ideen? Ach ja, Perl/CGI wäre auch verfügbar, falls das über diese Schiene einfacher ginge.
Danke schonmal für jegliche Denkanstöße!