Как воспримут поисковики текст в таком виде ? или как его сконверитить ?

Тема в разделе "Русские поисковики", создана пользователем DOKTOR_666, 12 ноя 2010.

Статус темы:
Закрыта.
  1. DOKTOR_666

    DOKTOR_666

    Регистр.:
    14 июн 2006
    Сообщения:
    532
    Симпатии:
    239
    В общем проблема такая
    при конвертации PDF в HTML

    на выходе софт заменяет все русские буквы на их HTML-коды

    т.е. получается вот так примерно ...
    PHP:
    <TR class="tr0">
        <
    TD class="td0"><FONT class="ft14">& #1059;& #1089;& #1086;& #1074;& #1086;& #1077;

    вот хочу узнать как воспримут поисковики странички в таком виде ....
    отображается то оно нормально прям как надо ... а вот внутри ... сплошные коды ни единой русской буквы ...


    или может кто посоветует софтинку которая может это конвертнуть в приличный вид ...
    т.е. поменять HTML коды на сами буквы ...

    ???
     
  2. Smuggler

    Smuggler Постоялец

    Регистр.:
    20 окт 2010
    Сообщения:
    105
    Симпатии:
    21
    Попробуйте следующее решение:

    http://www.opennet.ru/prog/info/658.shtml


    Не знаю насколько хорошо поисковики читают html entities, но размер документов вырастет в несколько раз.
     
  3. DOKTOR_666

    DOKTOR_666

    Регистр.:
    14 июн 2006
    Сообщения:
    532
    Симпатии:
    239
    спасибо .... ща попробую ....

    но я уже перепробывал такую кучу софта ... что вряд ли найду что-то лучше ...
    проблема всех конверторов из ПДФ в ХТМЛ то что на выходе получается на вид нормально а вот код полное гавно ... просто отвратный ...

    а вот тут код на выходе чистый ... прям отличный ... но проблема с русскими буквами - они в хтмл-кодах все ....
     
  4. DOKTOR_666

    DOKTOR_666

    Регистр.:
    14 июн 2006
    Сообщения:
    532
    Симпатии:
    239
    попробывал решение
    http://www.opennet.ru/prog/info/658.shtml
    работает ... но извращенно ....
    на выходе код не полное гавно ... но все равно какой-то некрасивый и жутко не логичный ...
    например таблицы эта утилита режет на кучу div-ов по 1-2-3 символа ...

    жадные какие все )))
    че-почем ???
    нужно очень срочно ... прям очень очень ....

    я конечно нашел уже способ конвертить ... но это способ через одно известное место на букву "жопа" ....
    что-нить побыстрее бы и по-удобнее
     
  5. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.744
    Симпатии:
    1.154
    Попробуйте VeryPDF PDF2HTML.
     
  6. DOKTOR_666

    DOKTOR_666

    Регистр.:
    14 июн 2006
    Сообщения:
    532
    Симпатии:
    239
    пробывал .... на выходи исходник страницы поганый ...


    из всего что перепробывал ... а перепробывал я штук 10 разных софтин
    работает вот этот сервис
    http://www.pdfonline.com/convert-pdf-to-html/default.aspx

    но он как раз отдает русские буквы в виде хтмл-кодов ....
    но за то код весьма чистый ... особенно если его еще зеброидом почистить от стилей и прочих параметров
     
  7. Smuggler

    Smuggler Постоялец

    Регистр.:
    20 окт 2010
    Сообщения:
    105
    Симпатии:
    21
    Могу на .net утилитку переделать под твои нужды. Берет файлы из папки In, конвертит и записывает в Out. Нужно будет Net Framework 3.0 поставить.
     
    DOKTOR_666 нравится это.
  8. DOKTOR_666

    DOKTOR_666

    Регистр.:
    14 июн 2006
    Сообщения:
    532
    Симпатии:
    239
    Smuggler огромный тебе респект и уважуха ))))
    помог )))) со своей маленькой утилиткой ))))
     
  9. Моторокер

    Моторокер Постоялец

    Регистр.:
    23 апр 2009
    Сообщения:
    82
    Симпатии:
    24
    Могу добавить такую функцию в плагин для Тотала для перекодировки файлов:
    http://www.motorocker.ru/plugin-recoder.htm
     
  10. DOKTOR_666

    DOKTOR_666

    Регистр.:
    14 июн 2006
    Сообщения:
    532
    Симпатии:
    239
    это было бы здорово )
    конечно такие задачи не часто встречаются ... но все равно ...
     
Статус темы:
Закрыта.