скрипт или программа очистки HTML кода

Тема в разделе "Коммерческие", создана пользователем kefir, 26 фев 2009.

Информация :
Публиковать (для всех) нуленые версии, особенно от modulesgarden КАТЕГОРИЧЕСКИ не стоит. Тема мониторится оным разработчиком, а к нам приходят абузы которые нельзя игнорировать.
Статус темы:
Закрыта.
Модераторы: Amazko, Aste
  1. kefir

    kefir Постоялец

    Регистр.:
    30 май 2008
    Сообщения:
    102
    Симпатии:
    9
    ИЩУ скрипт и прогу по очистке HTML кода. Dreamweawer не предлагать - я им обрабатываю 1страницу за 3 часа! У меня есть уникальный контент, но дело в том что страницы весят по 1.5-2Мб и полезного текста там 5%:mad:.
     
  2. upandhigh

    upandhigh

    Регистр.:
    11 фев 2009
    Сообщения:
    235
    Симпатии:
    89

    PHP:
    <?php

    $data 
    file_get_contents("in.txt");
    $data strip_tags($data);
    file_put_contents("out.txt"$data);

    сохраняешь в file.php, потом в файл in.txt кладешь изначальный хтмл и запускаешь php file.php и на выходе у тебя файл out.txt где чистый текст.
     
  3. kefir

    kefir Постоялец

    Регистр.:
    30 май 2008
    Сообщения:
    102
    Симпатии:
    9
    там читый текст будет? Мне нужен текст на выходе вот такого формата:

    HTML:
    <p>PERIOD </p>
    <p>Параметр Period (Период) - это индексированный входной параметр, который  задает временной цикл обработки блока и допустимые значения параметра PHASE  (фаза обработки). Для станций, кроме интеграторов и шлюзов, значения параметра PERIOD могут находиться в диапазоне от 0 до 13, что соответствует нижеуказанным периодам обработки  (блоки интеграторов и шлюзов имеют значения периодов, отличающиеся от показанных в следующей  таблице).
    </p>
    <table cellpadding="0" cellspacing="0" class="foxtable">
      <tr>
        <td><b>Период </b></td>
        <td><b>Длительность </b></td>
        <td><b>Период </b></td>
        <td><b>Длительность </b></td>
      </tr>
     
  4. upandhigh

    upandhigh

    Регистр.:
    11 фев 2009
    Сообщения:
    235
    Симпатии:
    89
    она очистит текст от ХТМЛ кода, на выходе будет вот это:
     
  5. BBnics

    BBnics Читатель

    Заблокирован
    Регистр.:
    28 мар 2008
    Сообщения:
    490
    Симпатии:
    109
    уникальный текст со сканов ?
    может подойдет -
    http://norse.ulver.com/person/stridmann/java/htmlcleaner/
    http://softsearch.ru/programs/203-356-pdf-html-download.shtml
     
    kefir нравится это.
  6. kefir

    kefir Постоялец

    Регистр.:
    30 май 2008
    Сообщения:
    102
    Симпатии:
    9
    Нашел прогу DeTag
    Описание:
    Программа предназначена для очистки HTML-тегов от элемонтов форматирования, стилей и пр., рекомендуется для обработки HTML-документов полученных путем конвертации из офисных Microsoft.
    [​IMG]
    Также удобно использовать при наполнении содержимым блогов при копипасте с других Интернет-источников, а благодаря встроенному синонимайзеру позволит получить несколько отличающийся текст от оригинала.

    Помогите!
    Обнаружил на некоторых страницах текст в виде кода!:mad:

    Как его перекодировать?
     

    Вложения:

    • ertyetgd.gif
      ertyetgd.gif
      Размер файла:
      8,8 КБ
      Просмотров:
      16
Статус темы:
Закрыта.