Ищу Как вытащить текст из електронной книги формата PDF?

Тема в разделе "Софт", создана пользователем hassk, 6 сен 2008.

  1. hassk

    hassk Создатель

    Регистр.:
    26 июн 2008
    Сообщения:
    23
    Симпатии:
    4
    Извените, если не в том разделе создаю тему. Но думаю что в том ;)

    Итак, меня интересует как можно вытянуть текст из електронной книги формата PDF. В некоторых книгах можно выделить и скопировать в буфер текст и потом вставить в любой текстовый редактор. А вот в других некоторых это зделать невозможно. Так же выделяю, копирую, потом вставляю в ворд и получаются непонятные иероглифы. Видимо какая-то защита стоит. Я в этих делах не разбераюсь. Так что прошу совета. Или может есть какая литература по данной теме?

    _________________________________________

    Еще бы не плохо было бы поучится ламать книги в формате .ехе


    Жду ответов и советов ;)
     
  2. fighterjet

    fighterjet

    Регистр.:
    6 фев 2007
    Сообщения:
    263
    Симпатии:
    107
    1) Для pdf cамый простой вариант - загрузи в FineReader и распознай. Работает даже если pdf сделан из картинки - то есть в нем текста собственно нет - выделять нечего.
    2) Для электронных книг многое зависит от типа книги. есть спец программы, которые из большинства типов книг могут текст вытянуть. Но в общем случае используй программу типа Клептомания (прогугли) - чтобы захватить картинку экрана - и потом на эту картинку натрави FineReader - на выходе получишь текст.
     
    rider1203 нравится это.
  3. mrr

    mrr

    Регистр.:
    21 окт 2007
    Сообщения:
    373
    Симпатии:
    390
    "Мастер конвертирования ABBYY PDF Transformer" вам поможет.

    С разделом не ошиблись ли?
     
  4. Mihass

    Mihass Постоялец

    Регистр.:
    11 ноя 2007
    Сообщения:
    77
    Симпатии:
    28
    вроде Nitro PDF поможет. Пошукай в сети.
     
  5. General Fizz

    General Fizz Боевой Генерал :)

    Регистр.:
    11 апр 2007
    Сообщения:
    753
    Симпатии:
    396
    TextPipe Pro или Фотошоп, если документ не защищен.

    Если защищен - снимаешь защиту и см выше.
     
  6. mortu

    mortu

    Регистр.:
    11 авг 2007
    Сообщения:
    406
    Симпатии:
    564
  7. ayden

    ayden Постоялец

    Регистр.:
    21 май 2008
    Сообщения:
    139
    Симпатии:
    126
    Вот, кстати, и он -
    ABBYY_PDF_Transformer_2.0.0.982.rar
     
  8. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    883
    Симпатии:
    540
    Если вдруг на пдф стоит пароль- ничего нельзя скопировать в буфер, но можно выделить- вам поможет
    PDF Password Remover
    http://rapidshare.com/files/38382226/PD3.0.rar
     
  9. allov

    allov

    Регистр.:
    7 июл 2008
    Сообщения:
    156
    Симпатии:
    214
    Совсем не обязательно, что стоит защита. Сталкивался с такой же ситуацией, оказалось, что в PDF документе указан шрифт, который неверно распозновался системой, результат был такой же квадратики и иероглифы вместо русских букв, а цифры и английские слова - правильно.
    Напрямую FineReader не цеплял этот документ. Начал было скрины с него цеплять, но там было под 300 страниц, от этой идеи отказался. Помогло вот что: Распечатал этот же документ на виртуальный принтер (использовался pdfFactory), а затем без проблем распознал новую PDF в FineReader.
     
  10. fighterjet

    fighterjet

    Регистр.:
    6 фев 2007
    Сообщения:
    263
    Симпатии:
    107
    ABBYY Screenshot Reader, кстати, не выход, если текст электронной книги не помещается на один экран - надо будет делать несколько снимков, чтобы захватить одну страницу - долго и неудобно.
    Именно поэтом рекомендую использовать Клептоманию - она захватывает сразу все окно (даже если оно не влазит на экран) - Kleptomania (прогуглить).