Небольшая онлайн утилита по очистке HTML

Тема в разделе "Мелочи", создана пользователем xenator, 12 окт 2009.

Статус темы:
Закрыта.
  1. xenator

    xenator Создатель

    Регистр.:
    6 июл 2009
    Сообщения:
    46
    Симпатии:
    4
    Привет,

    Предлагаю оценить небольшую онлайн утилиту позволяющую очистить HTML код от вредного мусора. Делается все просто, копируете HTML который сгенерировал Word в окно и нажимаете кнопку "Зачистить". Получаете чистый HTML, без лишнего мусора и небезопасных внедрений.

    Как вариант можно включить визуальный редактор и вставить туда Rich Text из редактора или приложения (тот же ворд, страница сайта или Open Office).

    Наверное есть какие-то онлайн и оффлайн аналоги, мне нужен был такой сервис для сотрудников, а единственная альтернатива которую они предлагали был Adobe Dreamweaver.

    Страница утилиты: http://seoautomator.mediavirus.ru/tools/clear

    Сообщайте об ошибках и пожеланиях, буду признателен. Может быть было бы удобнее дать возможность показывать diff между тем что было и что стало?

    P.S. Не обращайте внимание, на другие подразделы сайта, это пока куцая версия нашей внутренней системы мы ее постепенно решили открывать в общий доступ.
     
  2. gls

    gls Комбат

    Регистр.:
    11 янв 2007
    Сообщения:
    581
    Симпатии:
    296
    хм, интересно, вставил из дле код шаблона main.tpl, так он у меня зачистил весь шаблон, оставил только <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">. Жесть
     
  3. Stayer2099

    Stayer2099 Читатель

    Заблокирован
    Регистр.:
    30 июл 2008
    Сообщения:
    7
    Симпатии:
    1
    Хм...Интересно :)
    Скажите, а под Seven пашет?
     
  4. xenator

    xenator Создатель

    Регистр.:
    6 июл 2009
    Сообщения:
    46
    Симпатии:
    4

    Шаблоны не очистит это точно. Внутри находится парсер который пытается считывать только HTML документ, строит дерево, после проходит по дереву копируя только разрешенные теги и их атрибуты.

    Вот теги которые считаются допустимыми: 'a', 'abbr', 'acronym', 'address', 'area', 'b', 'big', 'blockquote', 'br', 'button', 'caption', 'center', 'cite', 'code', 'col', 'colgroup', 'dd', 'del', 'dfn', 'dir', 'div', 'dl', 'dt', 'em', 'font', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'hr', 'i', 'img', 'ins', 'kbd', 'label', 'legend', 'li', 'map', 'menu', 'ol', 'p', 'pre', 'q', 's', 'samp', 'small', 'span', 'strike', 'strong', 'sub', 'sup', 'table', 'tbody', 'td', 'tfoot', 'th', 'thead', 'tr', 'tt', 'u', 'ul', 'var'

    Атрибуты: 'abbr', 'accept', 'accept-charset', 'accesskey', 'action', 'align', 'alt', 'axis', 'border', 'cellpadding', 'cellspacing', 'char', 'charoff', 'charset', 'checked', 'cite', 'clear', 'cols', 'colspan', 'color', 'compact', 'coords', 'datetime', 'dir', 'enctype', 'for', 'headers', 'height', 'href', 'hreflang', 'hspace', 'id', 'ismap', 'label', 'lang', 'longdesc', 'maxlength', 'method', 'multiple', 'name', 'nohref', 'noshade', 'nowrap', 'prompt', 'rel', 'rev', 'rows', 'rowspan', 'rules', 'scope', 'shape', 'size', 'span', 'src', 'start', 'summary', 'tabindex', 'target', 'title', 'type', 'usemap', 'valign', 'value', 'vspace', 'width'

    Как видно тут нет ничего специфического за пределами HTML спецификации. В принципе можно подумать о том, чтобы включить поддержку каких-то изысканных DTD, но это может оказаться overkill если это никому не нужно :)

    Добавлено через 5 минут
    Сайт хостится на Google App Engine которы возмоляет хостить только python и java. В остальном наверное да :)
     
  5. ShadowDamballah

    ShadowDamballah Постоялец

    Регистр.:
    18 сен 2009
    Сообщения:
    56
    Симпатии:
    10
    Плагин HTML Validator, может чистить
     
  6. xenator

    xenator Создатель

    Регистр.:
    6 июл 2009
    Сообщения:
    46
    Симпатии:
    4
    Дай ссылку, посмотрю может быть расширю функциональность своего сервиса.
     
  7. Parser

    Parser Прохожие

    Аналогично.

    Открываем страницу с тулзой, исходный код этой же страницы и запускаем его "очистку". Результат - только первая строчка. Ниже форма с другим результатом - там удален весь head и много разных других тэгов...
     
  8. xenator

    xenator Создатель

    Регистр.:
    6 июл 2009
    Сообщения:
    46
    Симпатии:
    4
    Дошло в чем суть, спасибо за разъяснение.

    Проблема была в том, что теги html и body не были внесены в список разрешенных. Специально для таких случаев я их добавил, но в целом основной use case на который рассчитывал это не очистка целого HTML файла, а только кода находящегося в видимой части.

    Сейчас можно копировать и вставлять HTML файл полностью, но head в результате уже не появится.

    Заодно добавил дополнительную фичу, теперь можно убирать дополнительные пробелы между тегами. Немного экономит место.
     
  9. ShadowDamballah

    ShadowDamballah Постоялец

    Регистр.:
    18 сен 2009
    Сообщения:
    56
    Симпатии:
    10
    http://users.skynet.be/mgueury/mozilla/
     
  10. BЕNNY

    BЕNNY Постоялец

    Регистр.:
    17 окт 2009
    Сообщения:
    73
    Симпатии:
    3
    Чистка кода - вещь полезная. Я ее в некоторых своих скриптах использую... класс от некоего luciansabo@gmail.com.
     

    Вложения:

Статус темы:
Закрыта.