Индексация HTML страниц созданных в Microsoft Word

Тема в разделе "Русские поисковики", создана пользователем Scaltro, 2 фев 2010.

Статус темы:
Закрыта.
  1. Scaltro

    Scaltro

    Регистр.:
    15 сен 2007
    Сообщения:
    1.092
    Симпатии:
    75
    Хотел бы поинтересоваться, как индексируются поисковиками HTML страницы созданные в Microsoft Office Word и индексируются ли они вообще?
    Там просто код исходный очень кудрявый какой то.....
     
  2. YmersY

    YmersY Создатель

    Регистр.:
    28 июн 2007
    Сообщения:
    24
    Симпатии:
    0
    Код корявый это факт но индексируются нормально, вот к примеру у заказчиков таким макаром сделан прайс на сайте http://www.google.com/search?hl=en&num=100&q=site:http://obed.in.ua/price.html&aq=f&aqi=&oq=

    Также встречал самописный движек внутренние страницы которого имеют такую верстку как у Ворда, ничё индексируется... Естественно не идеально но такие страницы поисковики понимают
     
  3. darth

    darth Постоялец

    Регистр.:
    19 апр 2006
    Сообщения:
    113
    Симпатии:
    18
    Имхо лучше написать скрипт, который в заголовки будет прописывать мета теги. в остальном верстка ворда вполне цивильная
     
  4. Scaltro

    Scaltro

    Регистр.:
    15 сен 2007
    Сообщения:
    1.092
    Симпатии:
    75
    Что понимается под неидеальностью?

    Я код редактируемой страницы вставляю в контент CMS, так что это лишнее будет...
     
  5. YmersY

    YmersY Создатель

    Регистр.:
    28 июн 2007
    Сообщения:
    24
    Симпатии:
    0
    неидеальность в первую очередь из-за несоответствия W3C. Хотя не знаю может в новых вордах эту проблему уже решают, я 2003-й юзаю.

    Ну и конечно же из-за того что перед тем как начинается сам контент идёт куча комментариев, стилей и классов, такое дело для поисковых систем лучше запихивать в отдельные файлы чтобы бот не тратил время на перелистывания кода не имеющего для него значения
     
  6. meresyew

    meresyew Постоялец

    Регистр.:
    16 янв 2010
    Сообщения:
    51
    Симпатии:
    20
    На выходе Microsoft Office Word дает много лишнего кода, и это может повлиять на разное отображение в различных браузерах. Поэтому его лучше почистить.
    Наберите в гугле: Чистка кода Office XP или Чистильщик HTML кода. Там куча сайтов с тулзой, где его можно почистить. Автор скрипта, говорит что на выходе получается что то более вменяемое.
     
  7. Scaltro

    Scaltro

    Регистр.:
    15 сен 2007
    Сообщения:
    1.092
    Симпатии:
    75
    А если Office 2007 юзаю...

    Добавлено через 10 минут
    Вот эта онлайн софтина:
    http://www.leon-off.ru/html_tidy/
    Но толком мусора то не уменьшается, после чистки по прежнему куча говна остаётся.....
     
  8. robot

    robot Создатель

    Регистр.:
    13 июн 2006
    Сообщения:
    28
    Симпатии:
    3
    я бы использовал tinymce
    Он код из word'a достаточно чисто импортирует
     
  9. Bobrov

    Bobrov Постоялец

    Регистр.:
    7 авг 2008
    Сообщения:
    145
    Симпатии:
    13
    Индексация HTML страниц созданных в Microsoft Word - это проверка поисковика на сообразительность и делать этого не стоит, разьве что для эксперимента.
     
  10. darth

    darth Постоялец

    Регистр.:
    19 апр 2006
    Сообщения:
    113
    Симпатии:
    18
    так а смысл перегонять в хтмл? не проще ли использую визуальный редактор воткнуть из ворда напрямую?
     
Статус темы:
Закрыта.