Парсинг pdf файла.

QuZ

Постоялец
Регистрация
18 Июл 2009
Сообщения
86
Реакции
50
Доброе время суток форумчане. Хотел бы узнать, у кого был какой опыт в парсинге пдфок. Скорее всего интересует преобразование в html. Видел пару вариантов, но для моего варианта не подходит.
По сути - у меня есть табличка в пдф, с явно выраженными границами.
Able2Extract.Pro 7.0 + - весь текст распознал, а картинку с фотографиями сделал одной. Получилось что систематизация текста с фотографией потерялась.
ABBYY FineReader 10 PE - я с ним не часто работал, может быть по этому и не вышло. Он распознал все по отдельности, но опять же табличку удалил и из-за этого данные потеряли всю систематизацию.
В таблице содержится обычно 15-ть ячеек. В каждой ячейке так-же чаще всего соержится фото, и строчки 3-ри текста.
У меня было несколько идей, как сделать..
1-Вый вариант ( не самый лучший) - побить всю страничку пдфки сначала на отдельные ячейки, а после этого уже отпарсить без проблем..(Видел такое в Файн-ридере, но получалсоь только вручную бить - не подходит).
2-ой вариант - порезать по тем-же ячейкам всю страничку пдфки вместе с картинками, а после этого уже распознать отдельно текст и картинку внутри уже самой ячеки. Луше иметь систематизацию этих ячеек в хтмл-ке именно в тегах самой таблицы. Этот подход даст мне возможность пробежаться парсером по таблице и выудить оттуда уже все нужные данные.
Вот наглядный пример, сильно схожий с моей потребностью.
 

Вложения

  • 1.pdf
    351,6 KB · Просмотры: 7
ABBYY_PDF_Transformer в rtf пробуй, в аттаче, что вышло
 

Вложения

  • 1.rar
    765,3 KB · Просмотры: 4
если pdf не ихображения,то папродуйте перегнать конвенторам в doc а потом в html или сразу в html, но хороших конвенторав сохраняющих правильно страницы я не видел,может с таблицами получится.
 
если pdf не ихображения,то папродуйте перегнать конвенторам в doc а потом в html или сразу в html, но хороших конвенторав сохраняющих правильно страницы я не видел,может с таблицами получится.
Путь преобразования не важен. Хоть через txt.. Что пока видел - это то, что на таблицы никакой испробованный парсер не режет... Всеж если есть таблица - тогда тут искуственную логику можно подключать ( В данном случае).. Иначе просто не представляю))))
ABBYY_PDF_Transformer в rtf пробуй, в аттаче, что вышло
Спасибо, глянул. Пока не знаю, что с таким форматом можно сделать..Ртф ни разу не парсил) Визуально лучший вариант, но пока вижу только вручную потом ковырять этот файл) Надеюсь, что данный атач автоматически получился. + логику под это придумать не могу. Вообщем, принял к счету.
 
Автоматически получился
 
Больше ни у кого идей нет? Решения есть, предложенное Puika, но хотелось что-то с более выраженной табличкой.
Спасибо.
 
All Office Converter Platinum пробовал? мои задачи он решает на ура. на рутрекере есть он
 
ПДФ - это гнилой формат, его просто так никаким конвертером не возьмешь и не найдешь проги способной на 100% преобразовывать все ПДФ в ворд или ХТМЛ. Была у меня задача перевести 300 ПДФ файлов в ХТМЛ, тогда помог ABBYY_PDF_Transformer, но с ручной правкой.
 
All Office Converter Platinum пробовал? мои задачи он решает на ура. на рутрекере есть он
Сейчас посмотрю. Надеюсь, подойдет.
ПДФ - это гнилой формат, его просто так никаким конвертером не возьмешь и не найдешь проги способной на 100% преобразовывать все ПДФ в ворд или ХТМЛ. Была у меня задача перевести 300 ПДФ файлов в ХТМЛ, тогда помог ABBYY_PDF_Transformer, но с ручной правкой.
Мне главная задача красные ячейки побить на что-то похожее на таблицы)
Остальная задача примерно знаю, как решается. Кодировка - одна, вообщем - дальше уже все куда проще.
 
Назад
Сверху