[Ищу] Парсер Word- Wordpress

Тема в разделе "Wordpress", создана пользователем Лариса, 7 янв 2009.

Статус темы:
Закрыта.
Модераторы: Sorcus
  1. Лариса

    Лариса Читатель

    Заблокирован
    Регистр.:
    21 сен 2007
    Сообщения:
    390
    Симпатии:
    128
    Интересует, ест ли в паблике пусть даже сырая версия парсера из
    одного большого вордовского файла (*.doc) в БД вордпресса?
    Видела такую поделку на серче.
    Конвертер текста в ВП, включая вариант парсинга контента из CMSimple in WP.
    Но дороговато (180$), ибо неизвестен результат...

    Какие есть варианты оптимального заполнения сайта на ВП из вордовского файла?
    (что дает в этом плане Adobe Contribute, Word2007 и тп?)

    ====
    Еще раз уточню.
    Есть файл, 300-400 страниц в ворде, формат *.doc. Хочу получить из него сателлит на ВП с минимальными затратами.
    (проблема в том , что уника в *.doc много, и руками создавать 100-200 сайтов будет медленно).
    Мне показалось, что парсить непосредственно в БД не так просто, структура записей и статей..сложновата. Ну, для меня.
    Поэтому вопрос - есть ли готовые решения в паблике?
     
  2. joefast

    joefast

    Заблокирован
    Регистр.:
    6 ноя 2007
    Сообщения:
    464
    Симпатии:
    74
    Каким могло бы быть (не самое простое решение:(
    1. Сохраняем файл, как html
    2. Разбиваем на блоки по признаку <h1>
    3. Полученные подблоки разбиваем на части по признаку </h1>
    На выходе получаем массив, который содержит заголовки (текст между тегами <h1> и </h1>) и текст статьи (текст между </h1> и <h1>). Ну и кучу мусорных тегов, на которые так щедр Word.

    Понятно, что такой подход будет работать только для файла, у которого все статьи(?) имеют одинаково оформленные заголовки (в примере <h1>).
     
  3. Jaarg

    Jaarg

    Регистр.:
    18 авг 2008
    Сообщения:
    503
    Симпатии:
    97
    не то?
    http://www.nulled.ws/showthread.php?t=87701
     
  4. GERAsimov

    GERAsimov

    Регистр.:
    26 май 2006
    Сообщения:
    211
    Симпатии:
    133
    2007 word сам умеет постить в WP по XMLRPC попробуйте, может что иполучиться.
     
  5. ReBeL

    ReBeL Злобный старикашка

    Регистр.:
    3 май 2006
    Сообщения:
    1.562
    Симпатии:
    850
    хмм.....
    берется post2blog
    средствами post2blog:
    вставляется вордовый документ
    чистятся левые тэги
    постится в блог

    Далее вордпрессовским плугином бьется на страницы

    Так не пойдет?
     
  6. Xonres

    Xonres

    Регистр.:
    13 ноя 2006
    Сообщения:
    204
    Симпатии:
    12
    Поясните для меня пожалуйста, что за плагин имеется в виду?
     
  7. Лариса

    Лариса Читатель

    Заблокирован
    Регистр.:
    21 сен 2007
    Сообщения:
    390
    Симпатии:
    128
    честно говоря была немного другая идея
    У меня есть
    1)неплохой конвертер ворд -> hml
    2)post2blog плагином в IE
    3) в IE открываем здоровый гипертекст, и постим в рубрики выделенные фрагменты (он умеет это делать, проверяла)
    Получаем .."полуавтомат"

    ==
    вы имеете ввиду пагинацию? page-navi?
    и во сколько экранных страниц превратятся один документ в 400 страниц А4? =\
    ===
    крайний случай такой. отказаться от ВП и переключиться на ту же зебру лайт.
    там встроен парсер генерации структуры сайта из 1 файла
    Но теряешь преимущества ВП((
     
  8. ReBeL

    ReBeL Злобный старикашка

    Регистр.:
    3 май 2006
    Сообщения:
    1.562
    Симпатии:
    850
    Зачем конвертер то? Ворд и так может сохранять в html - только своего дерьма туда напихает, а поэтому чистить надо =)

    Как настроишь - столько страниц и получишь.
    Если хочется получить такое же количество страниц, то в ворде, насколько помню, можно посчитать количество символов на странице =)
     
  9. Jaarg

    Jaarg

    Регистр.:
    18 авг 2008
    Сообщения:
    503
    Симпатии:
    97
    например,
    http://blog.portal.kharkov.ua/2008/01/24/paging-plugin-vozvrashhaetsya/

    ставить этот плаг на вирте не рекомендую. отработать - отработает, но может и хост положить )
     
  10. sersaid

    sersaid Писатель

    Регистр.:
    11 дек 2008
    Сообщения:
    2
    Симпатии:
    0
    Способ несколько корявый..... Но сохранял документ MSWORD 2007 в HTML и заливал на поддомен. Далее с локала парсил сайт одним из скриптов с випбабло (думаю найти не сложно будет здесь). В итоге получал кучу статей которые отправлял в мускуль. Правда еще уникалил слегка встроенным уникализатором. но если не нужно, то и не нужно...... В общем примерно такая реализация была.
     
Статус темы:
Закрыта.