Обсуждение Парсер Word- Wordpress

Лариса · 6 Янв 2009

Интересует, ест ли в паблике пусть даже сырая версия парсера из
одного большого вордовского файла (*.doc) в БД вордпресса?
Видела такую поделку на серче.
Конвертер текста в ВП, включая вариант парсинга контента из CMSimple in WP.
Но дороговато (180$), ибо неизвестен результат...

Какие есть варианты оптимального заполнения сайта на ВП из вордовского файла?
(что дает в этом плане Adobe Contribute, Word2007 и тп?)

====
Еще раз уточню.
Есть файл, 300-400 страниц в ворде, формат *.doc. Хочу получить из него сателлит на ВП с минимальными затратами.
(проблема в том , что уника в *.doc много, и руками создавать 100-200 сайтов будет медленно).
Мне показалось, что парсить непосредственно в БД не так просто, структура записей и статей..сложновата. Ну, для меня.
Поэтому вопрос - есть ли готовые решения в паблике?

joefast · 6 Янв 2009

Каким могло бы быть (не самое простое решение

1. Сохраняем файл, как html
2. Разбиваем на блоки по признаку <h1>
3. Полученные подблоки разбиваем на части по признаку </h1>
На выходе получаем массив, который содержит заголовки (текст между тегами <h1> и </h1>) и текст статьи (текст между </h1> и <h1>). Ну и кучу мусорных тегов, на которые так щедр Word.

Понятно, что такой подход будет работать только для файла, у которого все статьи(?) имеют одинаково оформленные заголовки (в примере <h1>).

Jaarg · 7 Янв 2009

не то?

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

GERAsimov · 7 Янв 2009

2007 word сам умеет постить в WP по XMLRPC попробуйте, может что иполучиться.

ReBeL · 7 Янв 2009

хмм.....
берется post2blog
средствами post2blog:
вставляется вордовый документ
чистятся левые тэги
постится в блог

Далее вордпрессовским плугином бьется на страницы

Так не пойдет?

Xonres · 7 Янв 2009

Xp10r3r написал(а):
Далее вордпрессовским плугином бьется на страницы

Поясните для меня пожалуйста, что за плагин имеется в виду?

Лариса · 7 Янв 2009

честно говоря была немного другая идея
У меня есть
1)неплохой конвертер ворд -> hml
2)post2blog плагином в IE
3) в IE открываем здоровый гипертекст, и постим в рубрики выделенные фрагменты (он умеет это делать, проверяла)
Получаем .."полуавтомат"

==

Далее вордпрессовским плугином бьется на страницы

вы имеете ввиду пагинацию? page-navi?
и во сколько экранных страниц превратятся один документ в 400 страниц А4? =\
===
крайний случай такой. отказаться от ВП и переключиться на ту же зебру лайт.
там встроен парсер генерации структуры сайта из 1 файла
Но теряешь преимущества ВП((

ReBeL · 7 Янв 2009

Лариса написал(а):
==

вы имеете ввиду пагинацию? page-navi?
и во сколько экранных страниц превратятся один документ в 400 страниц А4? =\
===

Зачем конвертер то? Ворд и так может сохранять в html - только своего дерьма туда напихает, а поэтому чистить надо =)

Как настроишь - столько страниц и получишь.
Если хочется получить такое же количество страниц, то в ворде, насколько помню, можно посчитать количество символов на странице =)

Jaarg · 7 Янв 2009

Xonres написал(а):
Поясните для меня пожалуйста, что за плагин имеется в виду?

например,

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

ставить этот плаг на вирте не рекомендую. отработать - отработает, но может и хост положить )

sersaid · 8 Янв 2009

Способ несколько корявый..... Но сохранял документ MSWORD 2007 в HTML и заливал на поддомен. Далее с локала парсил сайт одним из скриптов с випбабло (думаю найти не сложно будет здесь). В итоге получал кучу статей которые отправлял в мускуль. Правда еще уникалил слегка встроенным уникализатором. но если не нужно, то и не нужно...... В общем примерно такая реализация была.

Обсуждение Парсер Word- Wordpress

Лариса

Читатель

joefast

Гуру форума

Jaarg

Гуру форума

GERAsimov

Постоялец

ReBeL

Злобный старикашка

Xonres

Старатель

Лариса

Читатель

ReBeL

Злобный старикашка

Jaarg

Гуру форума

sersaid

Писатель