Как из php грабить текст из pdf

Тема в разделе "PHP", создана пользователем dandandan, 31 мар 2011.

Модераторы: latteo
  1. dandandan

    dandandan

    Регистр.:
    7 авг 2008
    Сообщения:
    975
    Симпатии:
    255
    Есть ли возможность прямой работы из php с pdf? Нужно pdf прайс-лист сграббить ну и занести в бд. Интересует на данный момент именно выдергивание инфы из pdf. Pdf не защищен.
     
  2. ShoxMaster

    ShoxMaster

    Регистр.:
    3 дек 2008
    Сообщения:
    393
    Симпатии:
    150
    Не сказал бы что вы удачно выбрали раздел, т.к. задача точно не для начинающих(ИМХО).
    Когда-то читал статью на хабре по разбору PDF документа, не справиться со всеми документами, но с простыми вроде должно:
    http://habrahabr.ru/blogs/php/69568/
     
    dandandan нравится это.
  3. dandandan

    dandandan

    Регистр.:
    7 авг 2008
    Сообщения:
    975
    Симпатии:
    255
    У меня редко возникают стандартные вопросы. Обычно они все с извращениями, одно кто его знает относится ли это к pro или к новичкам. Ведь для мегаГуру это может быть раз плюнуть.

    Читаю хабр
    Что означает этот путь ? /usr/local/bin/pdftotext '.$filename.' -'
    Есть спец прога, которая все в txt переводит?
     
  4. ShoxMaster

    ShoxMaster

    Регистр.:
    3 дек 2008
    Сообщения:
    393
    Симпатии:
    150
    Это *nix утилита для перевода з pdf в txt, но работает только под рутом. Автор имел ввиду, что это не удастся сделать на shared и Win хостинге.
    http://en.wikipedia.org/wiki/Pdftotext
     
    dandandan нравится это.
  5. dandandan

    dandandan

    Регистр.:
    7 авг 2008
    Сообщения:
    975
    Симпатии:
    255
    Потыкался с предложенным вариантом + примерами на php . net вообще выдается пустой лист. Вопрос остался открытым. Пока использую виндовую утилиту pdf2txt или foxit reader. Но не со всеми pdf документами они работают.
     
  6. trooll

    trooll PHP кодер

    Регистр.:
    22 дек 2008
    Сообщения:
    503
    Симпатии:
    116
    Пробовал анализировать выдачу поисковых систем по ниже изложенному ключевому запросу или смежным запросам?
    Вот для начала ознакомься:
    http://ru2.php.net/pdf

    Еще можно поковырять выдачу по ключивику:
    В обще я пока что только встречал решения на PHP требующий установки дополнительной библиотеки, что то в виде класса пока не видел...
     
  7. dandandan

    dandandan

    Регистр.:
    7 авг 2008
    Сообщения:
    975
    Симпатии:
    255
    на php.net перепробывал все приведенные способы. Они подходят для версии файла pdf 1.2 , у меня версия 1.4.

    Адоб ридер про пересохраняет мои pdf с потерей знаков препинания.

    Качаю php PDFBox. Потом отпишусь о результатах.
     
  8. trooll

    trooll PHP кодер

    Регистр.:
    22 дек 2008
    Сообщения:
    503
    Симпатии:
    116
    Ну как конечный вариант если не найдешь не чего сам, и средства позволят, можешь тендер на какой нибудь фриланс бирже поднять, может найдется какой нибудь профи по PDF в PHP. Сам пока не имел сильной потребности в плане работы с PDF, так что чего то толкового посоветовать не могу.

    О результатах обязательно отпишись, так как может чего нароешь интересного.
     
  9. dandandan

    dandandan

    Регистр.:
    7 авг 2008
    Сообщения:
    975
    Симпатии:
    255
    Из всего предложенного гуглом по запросам больше всего подошло
    http://community.livejournal.com/php/295413.html
    Однако текст выводится крякозяблами. Как его раскодировать непонятно.
    [​IMG]

    p.s. Что-то похожее было и в скриптах с php.net
     
  10. trooll

    trooll PHP кодер

    Регистр.:
    22 дек 2008
    Сообщения:
    503
    Симпатии:
    116
    Попробуй поиграться со сменной кодировки в браузере.

    В опере:
    Вид -> Кодировка

    Если это банальная кодировка то там уже яснее будет.

    А вообще сохрани результат в файл функцией file_put_contents() то есть в место вывода на экран сохрани в файл и пришли мен на почту:
    trooll88@gmail.com

    Либо залей куда нибудь.