Парсинг pdf файла.

QuZ · 14 Янв 2012

Доброе время суток форумчане. Хотел бы узнать, у кого был какой опыт в парсинге пдфок. Скорее всего интересует преобразование в html. Видел пару вариантов, но для моего варианта не подходит.
По сути - у меня есть табличка в пдф, с явно выраженными границами.
Able2Extract.Pro 7.0 + - весь текст распознал, а картинку с фотографиями сделал одной. Получилось что систематизация текста с фотографией потерялась.
ABBYY FineReader 10 PE - я с ним не часто работал, может быть по этому и не вышло. Он распознал все по отдельности, но опять же табличку удалил и из-за этого данные потеряли всю систематизацию.
В таблице содержится обычно 15-ть ячеек. В каждой ячейке так-же чаще всего соержится фото, и строчки 3-ри текста.
У меня было несколько идей, как сделать..
1-Вый вариант ( не самый лучший) - побить всю страничку пдфки сначала на отдельные ячейки, а после этого уже отпарсить без проблем..(Видел такое в Файн-ридере, но получалсоь только вручную бить - не подходит).
2-ой вариант - порезать по тем-же ячейкам всю страничку пдфки вместе с картинками, а после этого уже распознать отдельно текст и картинку внутри уже самой ячеки. Луше иметь систематизацию этих ячеек в хтмл-ке именно в тегах самой таблицы. Этот подход даст мне возможность пробежаться парсером по таблице и выудить оттуда уже все нужные данные.
Вот наглядный пример, сильно схожий с моей потребностью.

puika · 14 Янв 2012

ABBYY_PDF_Transformer в rtf пробуй, в аттаче, что вышло

_sokal_ · 14 Янв 2012

если pdf не ихображения,то папродуйте перегнать конвенторам в doc а потом в html или сразу в html, но хороших конвенторав сохраняющих правильно страницы я не видел,может с таблицами получится.

QuZ · 15 Янв 2012

_sokal_ написал(а):
если pdf не ихображения,то папродуйте перегнать конвенторам в doc а потом в html или сразу в html, но хороших конвенторав сохраняющих правильно страницы я не видел,может с таблицами получится.

Путь преобразования не важен. Хоть через txt.. Что пока видел - это то, что на таблицы никакой испробованный парсер не режет... Всеж если есть таблица - тогда тут искуственную логику можно подключать ( В данном случае).. Иначе просто не представляю))))

puika написал(а):
ABBYY_PDF_Transformer в rtf пробуй, в аттаче, что вышло

Спасибо, глянул. Пока не знаю, что с таким форматом можно сделать..Ртф ни разу не парсил) Визуально лучший вариант, но пока вижу только вручную потом ковырять этот файл) Надеюсь, что данный атач автоматически получился. + логику под это придумать не могу. Вообщем, принял к счету.

puika · 15 Янв 2012

Автоматически получился

QuZ · 17 Янв 2012

Больше ни у кого идей нет? Решения есть, предложенное Puika, но хотелось что-то с более выраженной табличкой.
Спасибо.

prof.seo · 17 Янв 2012

All Office Converter Platinum пробовал? мои задачи он решает на ура. на рутрекере есть он

unsiker · 17 Янв 2012

ПДФ - это гнилой формат, его просто так никаким конвертером не возьмешь и не найдешь проги способной на 100% преобразовывать все ПДФ в ворд или ХТМЛ. Была у меня задача перевести 300 ПДФ файлов в ХТМЛ, тогда помог ABBYY_PDF_Transformer, но с ручной правкой.

QuZ · 19 Янв 2012

prof.seo написал(а):
All Office Converter Platinum пробовал? мои задачи он решает на ура. на рутрекере есть он

Сейчас посмотрю. Надеюсь, подойдет.

unsiker написал(а):
ПДФ - это гнилой формат, его просто так никаким конвертером не возьмешь и не найдешь проги способной на 100% преобразовывать все ПДФ в ворд или ХТМЛ. Была у меня задача перевести 300 ПДФ файлов в ХТМЛ, тогда помог ABBYY_PDF_Transformer, но с ручной правкой.

Мне главная задача красные ячейки побить на что-то похожее на таблицы)
Остальная задача примерно знаю, как решается. Кодировка - одна, вообщем - дальше уже все куда проще.

Парсинг pdf файла.

QuZ

Постоялец

Вложения

puika

Мой дом здесь!

Вложения

_sokal_

Постоялец

QuZ

Постоялец

puika

Мой дом здесь!

QuZ

Постоялец

prof.seo

Постоялец

unsiker

Постоялец

QuZ

Постоялец