Алгоритм разделения большого html

Тема в разделе "PHP", создана пользователем theorc, 17 сен 2010.

Статус темы:
Закрыта.
Модераторы: latteo
  1. theorc

    theorc Создатель

    Регистр.:
    23 авг 2010
    Сообщения:
    18
    Симпатии:
    1
    Есть большой кусок html кода (100-150 тисяч символов), встречаются только теги: <p>,<b>,<i>,<h1>-<h7>,<u>,<img> . Предложите, как "по умному" можно разбить текст на множество страничек по 5-10к символом, не разрушив html теги
     
  2. t3s

    t3s

    Регистр.:
    16 фев 2008
    Сообщения:
    719
    Симпатии:
    290
    если стоит задача разбить текст на осмысленные части (полагаю нужно разбить на статьи?) - я бы разделял по заголовкам (h1-h6), поскольку параграфы, списки и т.д. могут применятся для оформления

    т.е. новая статья будет начинаться после закрывающего тега h

    зы
    h7 не существует, самый маленький - h6
     
  3. pitkina

    pitkina

    Регистр.:
    1 апр 2007
    Сообщения:
    253
    Симпатии:
    176
    тут можно применить ф-ю tidy_repair_string, позволяющую исправлять html-разметку (модуль php_tidy)

    PHP:
    $split 10000// треб. кол-во символов
    $file 'file.txt';
    $text wordwrap(file_get_contents($file),$split,'/|||/');
    $arr=explode('/|||/',$text);
    foreach (
    $arr as $k=>$vfile_put_contents($k.$file,tidy_repair_string($v));
     
Статус темы:
Закрыта.