[Офис] из pdf в html

Тема в разделе "Софт", создана пользователем ertog, 14 янв 2009.

Статус темы:
Закрыта.
  1. ertog

    ertog

    Регистр.:
    2 авг 2007
    Сообщения:
    684
    Симпатии:
    45
    Есть книга в pdf , так вот abbyy finreader 2 часа в html переводила, 37 страниц, есть ли программа которая быстрее это делает, а может быть он-лайн сервис? (бесплатный))
     
  2. Tisa

    Tisa Постоялец

    Регистр.:
    19 мар 2007
    Сообщения:
    142
    Симпатии:
    140
    Если это распознанный ПДФ, т.е. текст можно копировать в самом АкробатРидере - то ФайнРидер распознает его как пулемет, за считаные минуты. Ну и соответственно сохранить в HTML, тоже дело пары минут.

    А если файл называется PDF, но внутри текст не распознанный, а просто содержится в растровом виде, то тут лучще ФайнРидера никто не справится.

    А по сабжу, время какое-то ненормальное, может Вы что-то с настройками перемудрили?
     
  3. ertog

    ertog

    Регистр.:
    2 авг 2007
    Сообщения:
    684
    Симпатии:
    45
    в том то и дело настроек не трогал
    может наоборот стоит что-то оптимизировать

    эта книга имеет много рисунков , но мне нужен только текст, может ли программа тормозить из-за изображений?
     
  4. Tisa

    Tisa Постоялец

    Регистр.:
    19 мар 2007
    Сообщения:
    142
    Симпатии:
    140
    В принципе может, если не верно будет трактовать где изображения а где текст, такое бывает, тогда она пытается "распознавать" элементы изображения как текст.

    В этом случае надо сначала выбрать все и задать "Анализ страницы", а потом просмотреть каждую страницу и проверить правильно ли программа определила области.
    Текст должен быть в зеленых рамках а картинки в красных.
    Если где-то определилось ошибочно - надо это исправить.
    Те области которые распознавать не надо, можно удалить.

    А вообще еще по теме, наткнулся на такую программку AВВYY РDF Тransformer Pro, сам ее не пробовал, поэтому не скажу хороша она или нет.

    Видел здесь:
    http://web-lib.info/2007/09/22/avvyy_rdf_transformer_pro_20_build_1147.html
     
    ertog нравится это.
  5. ozware

    ozware

    Регистр.:
    22 апр 2007
    Сообщения:
    327
    Симпатии:
    42
    программа нормальная, это лучшее из всего, что есть,
    сам использовал для конверта кучи pdf в html
     
  6. ertog

    ertog

    Регистр.:
    2 авг 2007
    Сообщения:
    684
    Симпатии:
    45
    а скороорость обработки лучше?
     
  7. Jacob

    Jacob

    Регистр.:
    18 окт 2006
    Сообщения:
    257
    Симпатии:
    18
    скорость именно распознавания одинакова, движок то один.
     
  8. ozware

    ozware

    Регистр.:
    22 апр 2007
    Сообщения:
    327
    Симпатии:
    42
    100-страничные файлы обрабатываются за несколько минут (проц - дохлый Sempron2500).
    чтобы улучшить качество обработки лучше пройтись руками по каждой странице и правильно указать области (текст, картинка, таблица), т.к. прога часто картинку пытается в таблицу засунуть и наоборот
     
  9. ertog

    ertog

    Регистр.:
    2 авг 2007
    Сообщения:
    684
    Симпатии:
    45
    к сожелению также долго, ужасно,

    проблема осталась

    вопрос открыт
     
Статус темы:
Закрыта.