Парсинг pdf файла.

Тема в разделе "Как сделать...", создана пользователем QuZ, 14 янв 2012.

  1. QuZ

    QuZ Постоялец

    Регистр.:
    18 июл 2009
    Сообщения:
    74
    Симпатии:
    49
    Доброе время суток форумчане. Хотел бы узнать, у кого был какой опыт в парсинге пдфок. Скорее всего интересует преобразование в html. Видел пару вариантов, но для моего варианта не подходит.
    По сути - у меня есть табличка в пдф, с явно выраженными границами.
    Able2Extract.Pro 7.0 + - весь текст распознал, а картинку с фотографиями сделал одной. Получилось что систематизация текста с фотографией потерялась.
    ABBYY FineReader 10 PE - я с ним не часто работал, может быть по этому и не вышло. Он распознал все по отдельности, но опять же табличку удалил и из-за этого данные потеряли всю систематизацию.
    В таблице содержится обычно 15-ть ячеек. В каждой ячейке так-же чаще всего соержится фото, и строчки 3-ри текста.
    У меня было несколько идей, как сделать..
    1-Вый вариант ( не самый лучший) - побить всю страничку пдфки сначала на отдельные ячейки, а после этого уже отпарсить без проблем..(Видел такое в Файн-ридере, но получалсоь только вручную бить - не подходит).
    2-ой вариант - порезать по тем-же ячейкам всю страничку пдфки вместе с картинками, а после этого уже распознать отдельно текст и картинку внутри уже самой ячеки. Луше иметь систематизацию этих ячеек в хтмл-ке именно в тегах самой таблицы. Этот подход даст мне возможность пробежаться парсером по таблице и выудить оттуда уже все нужные данные.
    Вот наглядный пример, сильно схожий с моей потребностью.
     

    Вложения:

    • 1.pdf
      Размер файла:
      351,6 КБ
      Просмотров:
      7
  2. puika

    puika

    Регистр.:
    25 ноя 2006
    Сообщения:
    262
    Симпатии:
    277
    ABBYY_PDF_Transformer в rtf пробуй, в аттаче, что вышло
     

    Вложения:

    • 1.rar
      Размер файла:
      765,3 КБ
      Просмотров:
      4
  3. _sokal_

    _sokal_

    Регистр.:
    25 дек 2009
    Сообщения:
    300
    Симпатии:
    139
    если pdf не ихображения,то папродуйте перегнать конвенторам в doc а потом в html или сразу в html, но хороших конвенторав сохраняющих правильно страницы я не видел,может с таблицами получится.
     
  4. QuZ

    QuZ Постоялец

    Регистр.:
    18 июл 2009
    Сообщения:
    74
    Симпатии:
    49
    Путь преобразования не важен. Хоть через txt.. Что пока видел - это то, что на таблицы никакой испробованный парсер не режет... Всеж если есть таблица - тогда тут искуственную логику можно подключать ( В данном случае).. Иначе просто не представляю))))
    Спасибо, глянул. Пока не знаю, что с таким форматом можно сделать..Ртф ни разу не парсил) Визуально лучший вариант, но пока вижу только вручную потом ковырять этот файл) Надеюсь, что данный атач автоматически получился. + логику под это придумать не могу. Вообщем, принял к счету.
     
  5. puika

    puika

    Регистр.:
    25 ноя 2006
    Сообщения:
    262
    Симпатии:
    277
    Автоматически получился
     
  6. QuZ

    QuZ Постоялец

    Регистр.:
    18 июл 2009
    Сообщения:
    74
    Симпатии:
    49
    Больше ни у кого идей нет? Решения есть, предложенное Puika, но хотелось что-то с более выраженной табличкой.
    Спасибо.
     
  7. prof.seo

    prof.seo Постоялец

    Регистр.:
    25 мар 2009
    Сообщения:
    60
    Симпатии:
    20
    All Office Converter Platinum пробовал? мои задачи он решает на ура. на рутрекере есть он
     
  8. unsiker

    unsiker

    Регистр.:
    6 июн 2008
    Сообщения:
    465
    Симпатии:
    172
    ПДФ - это гнилой формат, его просто так никаким конвертером не возьмешь и не найдешь проги способной на 100% преобразовывать все ПДФ в ворд или ХТМЛ. Была у меня задача перевести 300 ПДФ файлов в ХТМЛ, тогда помог ABBYY_PDF_Transformer, но с ручной правкой.
     
  9. QuZ

    QuZ Постоялец

    Регистр.:
    18 июл 2009
    Сообщения:
    74
    Симпатии:
    49
    Сейчас посмотрю. Надеюсь, подойдет.
    Мне главная задача красные ячейки побить на что-то похожее на таблицы)
    Остальная задача примерно знаю, как решается. Кодировка - одна, вообщем - дальше уже все куда проще.