• DONATE to NULLED!
    Вы можете помочь Форуму и команде, поддержать финансово.
    starwanderer - модератор этого раздела будет Вам благодарен!

Обсуждение Парсер Word- Wordpress

Статус
В этой теме нельзя размещать новые ответы.

Лариса

Читатель
Заблокирован
Регистрация
21 Сен 2007
Сообщения
387
Реакции
132
  • Автор темы
  • Заблокирован
  • #1
Интересует, ест ли в паблике пусть даже сырая версия парсера из
одного большого вордовского файла (*.doc) в БД вордпресса?
Видела такую поделку на серче.
Конвертер текста в ВП, включая вариант парсинга контента из CMSimple in WP.
Но дороговато (180$), ибо неизвестен результат...

Какие есть варианты оптимального заполнения сайта на ВП из вордовского файла?
(что дает в этом плане Adobe Contribute, Word2007 и тп?)

====
Еще раз уточню.
Есть файл, 300-400 страниц в ворде, формат *.doc. Хочу получить из него сателлит на ВП с минимальными затратами.
(проблема в том , что уника в *.doc много, и руками создавать 100-200 сайтов будет медленно).
Мне показалось, что парсить непосредственно в БД не так просто, структура записей и статей..сложновата. Ну, для меня.
Поэтому вопрос - есть ли готовые решения в паблике?
 
  • Заблокирован
  • #2
Каким могло бы быть (не самое простое решение:(
1. Сохраняем файл, как html
2. Разбиваем на блоки по признаку <h1>
3. Полученные подблоки разбиваем на части по признаку </h1>
На выходе получаем массив, который содержит заголовки (текст между тегами <h1> и </h1>) и текст статьи (текст между </h1> и <h1>). Ну и кучу мусорных тегов, на которые так щедр Word.

Понятно, что такой подход будет работать только для файла, у которого все статьи(?) имеют одинаково оформленные заголовки (в примере <h1>).
 
хмм.....
берется post2blog
средствами post2blog:
вставляется вордовый документ
чистятся левые тэги
постится в блог

Далее вордпрессовским плугином бьется на страницы

Так не пойдет?
 
  • Автор темы
  • Заблокирован
  • #7
честно говоря была немного другая идея
У меня есть
1)неплохой конвертер ворд -> hml
2)post2blog плагином в IE
3) в IE открываем здоровый гипертекст, и постим в рубрики выделенные фрагменты (он умеет это делать, проверяла)
Получаем .."полуавтомат"

==
Далее вордпрессовским плугином бьется на страницы
вы имеете ввиду пагинацию? page-navi?
и во сколько экранных страниц превратятся один документ в 400 страниц А4? =\
===
крайний случай такой. отказаться от ВП и переключиться на ту же зебру лайт.
там встроен парсер генерации структуры сайта из 1 файла
Но теряешь преимущества ВП((
 
==

вы имеете ввиду пагинацию? page-navi?
и во сколько экранных страниц превратятся один документ в 400 страниц А4? =\
===

Зачем конвертер то? Ворд и так может сохранять в html - только своего дерьма туда напихает, а поэтому чистить надо =)

Как настроишь - столько страниц и получишь.
Если хочется получить такое же количество страниц, то в ворде, насколько помню, можно посчитать количество символов на странице =)
 
Поясните для меня пожалуйста, что за плагин имеется в виду?

например,


ставить этот плаг на вирте не рекомендую. отработать - отработает, но может и хост положить )
 
Способ несколько корявый..... Но сохранял документ MSWORD 2007 в HTML и заливал на поддомен. Далее с локала парсил сайт одним из скриптов с випбабло (думаю найти не сложно будет здесь). В итоге получал кучу статей которые отправлял в мускуль. Правда еще уникалил слегка встроенным уникализатором. но если не нужно, то и не нужно...... В общем примерно такая реализация была.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху