Как из php грабить текст из pdf

dandandan

Мой дом здесь!
Регистрация
7 Авг 2008
Сообщения
1.036
Реакции
292
Есть ли возможность прямой работы из php с pdf? Нужно pdf прайс-лист сграббить ну и занести в бд. Интересует на данный момент именно выдергивание инфы из pdf. Pdf не защищен.
 
Не сказал бы что вы удачно выбрали раздел, т.к. задача точно не для начинающих(ИМХО).
Когда-то читал статью на хабре по разбору PDF документа, не справиться со всеми документами, но с простыми вроде должно:
 
У меня редко возникают стандартные вопросы. Обычно они все с извращениями, одно кто его знает относится ли это к pro или к новичкам. Ведь для мегаГуру это может быть раз плюнуть.

Читаю хабр
Стоит заметить, что никто не отменял $content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -');. Но в данном случае стояла задача чтения PDF под любой платформой и на любой площадке.
Что означает этот путь ? /usr/local/bin/pdftotext '.$filename.' -'
Есть спец прога, которая все в txt переводит?
 
Что означает этот путь ? /usr/local/bin/pdftotext '.$filename.' -'
Есть спец прога, которая все в txt переводит?
Это *nix утилита для перевода з pdf в txt, но работает только под рутом. Автор имел ввиду, что это не удастся сделать на shared и Win хостинге.
 
Потыкался с предложенным вариантом + примерами на php . net вообще выдается пустой лист. Вопрос остался открытым. Пока использую виндовую утилиту pdf2txt или foxit reader. Но не со всеми pdf документами они работают.
 
Есть ли возможность прямой работы из php с pdf? Нужно pdf прайс-лист сграббить ну и занести в бд. Интересует на данный момент именно выдергивание инфы из pdf. Pdf не защищен.
Пробовал анализировать выдачу поисковых систем по ниже изложенному ключевому запросу или смежным запросам?

Вот для начала ознакомься:


Еще можно поковырять выдачу по ключивику:

В обще я пока что только встречал решения на PHP требующий установки дополнительной библиотеки, что то в виде класса пока не видел...
 
перепробывал все приведенные способы. Они подходят для версии файла pdf 1.2 , у меня версия 1.4.

Адоб ридер про пересохраняет мои pdf с потерей знаков препинания.

Качаю php PDFBox. Потом отпишусь о результатах.
 
*** скрытое содержание *** перепробывал все приведенные способы. Они подходят для версии файла pdf 1.2 , у меня версия 1.4.
Адоб ридер про пересохраняет мои pdf с потерей знаков препинания.
Качаю php PDFBox. Потом отпишусь о результатах.

Ну как конечный вариант если не найдешь не чего сам, и средства позволят, можешь тендер на какой нибудь фриланс бирже поднять, может найдется какой нибудь профи по PDF в PHP. Сам пока не имел сильной потребности в плане работы с PDF, так что чего то толкового посоветовать не могу.

О результатах обязательно отпишись, так как может чего нароешь интересного.
 
Из всего предложенного гуглом по запросам больше всего подошло

Однако текст выводится крякозяблами. Как его раскодировать непонятно.


p.s. Что-то похожее было и в скриптах с
 
Попробуй поиграться со сменной кодировки в браузере.

В опере:
Вид -> Кодировка

Если это банальная кодировка то там уже яснее будет.

А вообще сохрани результат в файл функцией file_put_contents() то есть в место вывода на экран сохрани в файл и пришли мен на почту:


Либо залей куда нибудь.
 
Назад
Сверху