Avand in vedere ca sunt nou in lumea linux si sincer sa fiu dezvolt cu succes cod PHP in win2k

(cu toate ca trebuie sa fac la un moment dat trecerea la Linux definitiv), am fost nevoit sa fac functional XPDF-ul pe serverul de hosting. Aici nu au fost probleme datorita suportului oferit de cei de la hosting care s-au oferit sa-mi instaleze ei XPDF-ul. Iata si codul de test pe care il rulez pentru a extrage textul din PDF. Sper sa fie util la cineva, mie cu siguranta imi este.
[php]<?php
$file = "lipsum.pdf"; /* numele fisierului pdf (aici se afla in acelasi folder cu scriptul */
$file_name = substr($file,0,-4); /* extragerea rapida a numelui fisierului (fisierele nu pot avea decat extensia PDF) */
$view_encoding = "iso-8859-2"; /* extragerea se face dintr-un fisier pdf care contine diacritice */
exec("pdftotext ".$file); /* pdftotext este unealta din XPDF care extrage textul din fisierul $file si creeaza un fisier txt cu acelasi nume care contine textul*/
$infoDocument = shell_exec("pdfinfo ".$file); /* informatii despre fisierul pdf care pot fi mai tarziu utile */
$theDocument = $file_name.".txt";
/*
- verifica daca fisierul exista si il parcurge afisand rezultatele pe pagini
- am stabilit ca daca pe pagina respectiva exista mai putzin de 30 de caractere pagina este o imagine sau cover sau pur si simplu are sub 30 de caractere
*/
if (file_exists($theDocument)) {
$fp = fopen($theDocument, "rb");
$content = fread($fp, filesize($theDocument));
fclose($fp);
$content = explode(chr(12), $content);
print '
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset='.$view_encoding.'">
<title>PDF Document Text Extract Preview</title>
<style>
body {
font-family:verdana,arial;
font-size:11px;
}
</style>
</head>
<body>';
print '<pre>'.$infoDocument.'</pre>';
print 'Număr de pagini în fişierul PDF <b><a href="'.$file.'" target="_blank">'.$file.'</a></b> - <font color=#ff0000>'.(count($content)-1).'</font><hr><p></p>';
for($i=0; $i<count($content)-1; $i++) {
print '<b>Pagina '.($i+1).'</b>';
if (strlen(ereg_replace(" ","",trim($content[$i])))<30) {
print ' - <font color=#ff0000>posibila imagine sau cover</font>';
}
print '<br>'.$content[$i];
print '<hr>';
}
print '
</body>
</html>';
} else {
print '
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset='.$view_encoding.'">
<title>PDF Document Text Extract Preview</title>
<style>
body {
font-family:verdana,arial;
font-size:11px;
}
</style>
</head>
<body>
<center><font color=#ff0000><b>:: Extragerea textului nu a fost posibilă ::</b></font></center>
</body>
</html>
';
}
?>[/php]