1. Начата процедура восстановления социальных групп. Лидерам старых и новых групп обязательно ознакомиться с регламентом проведения работ.

Есть вопрос по парсингу текста с помощью Php

Тема в разделе 'PHP', создана пользователем асс, 21 ноя 2011.

  1. на серче сейчас продается тема за 10 тыс руб., там есть этот скрипт. скрипт фиговый, если на сайте есть флеш или ява - то получается фигня какая-то (что-то не отображается, дизайн перекашивается).

    есть такая еще идея для бесшаблонного парсера (естественно парсинг текста:( всем тегам сделать заливку заднего фона, потом скриншот страницы => самые большие области - это и есть текст.
  2. не самая удачная идея. Причём здесь текст и объём области? у многих сайтов будут страницы где шапка и пустые слои будут занимать больше чем слои с текстом. Я не говорю что сам текст может быть на разных слоях.
    В принципе, тема эта появилась давно и скрипты никак не изменились принципиально. Просто нужно ещё дополнительно парсить текст, сграбленный. А это очень сложно- предусмотреть все возможные варианты. Тут проблема немного в другом- парсить можно только либо в полуручном варианте либо для околодорвейных сайтов. А то получается хоть и осмысленные но вырванные куски текста.
    Конечно, есть варианты, более продвинутого такого парсинга, но у меня не хватает знаний чтобы даже попытаться реализовать. Да и затраты на программинг тут возрастают неимоверно и применять их для доров или гс- глупо. Для массовости и уже существующие подойдут скрипты, для чего то более сложного- и ручками сделать можно.
  3. ложные срабатывания можно свести к минимуму: изображения не показывать, пустые слои проверять на наличие текста, чтобы не было больших пустых слоев, это же не сложно.
  4. Скорее мечтал.... нереально перетащить любую структуру....
    Это возможно только при условии указании всех возможных структур и выборе именно той которая используется там.

    o_O

    Зачем так извращяться то !?!?!?
    Примерно тоже самое только без картинок )))) делают все парсеры которые якобы безшаблонные. Но сама обсурдность что безшаблонность не существует её просто расширяют условностями вот и все...
  5. Да, на самом деле это извращение. Медленно и самая технология- мутная, там другие вещи важны, а не просто определить слой с текстом.
    А что мы делаем когда нельзя указать всевозможные структуры явно? Верно! Идём в нейронные сети и в остальные технологии распознавания) Но тут будут другие проблемы и вопросы, намного сложнее чем тупо найти слой с контентом.
  6. понятно, что очень важный параметр - это скорость парсинга.

    вообще, такое извращение нужно, если не были указаны границы парсинга, если их указать, то все будет парсится быстро и просто (возможно даже без регулярок).

    и кстати, извращенные методы не обязательно же применять ко всем текстам в рамках одного сайта - с помощью алгоритма можно найти границы текста и дальше сайт парсить согласно этим границам.
  7. Именно так и есть и все для того что бы определить эти структуры. :)
  8. Обратно же возвращаемся к привязному шаблонному парсингу, не так ли? или вы так не считаете?

    Что бы парсить быстро и четко нужен шаблон иначе нужен анализ, а анализ требует времени, что противоречит первому утверждению.
  9. не совсем. границы определяются по алгоритму, а не вручную. Просто смысл в рамках одного сайта определять границы парсинга по сложному алгоритму?
  10. Время друг, мой время, работа по четкой маске значительно сокращяет время обработки как не крути но придеться базироваться на каких то шаблонах.