Есть вопрос по парсингу текста с помощью Php

+ недавно человек писал о похожем скрипте: мол есть парсер, может утащить весь контент с любого сайта с сохранением структуры. Т.е можно без проблем вытащить и в любую цмс и не будет заметно что копипаст сделан на автомате. хотя я так и не понял - он его видел в работе или просто мечтал о нём
на серче сейчас продается тема за 10 тыс руб., там есть этот скрипт. скрипт фиговый, если на сайте есть флеш или ява - то получается фигня какая-то (что-то не отображается, дизайн перекашивается).

есть такая еще идея для бесшаблонного парсера (естественно парсинг текста:( всем тегам сделать заливку заднего фона, потом скриншот страницы => самые большие области - это и есть текст.
 
всем тегам сделать заливку заднего фона, потом скриншот страницы => самые большие области - это и есть текст.
не самая удачная идея. Причём здесь текст и объём области? у многих сайтов будут страницы где шапка и пустые слои будут занимать больше чем слои с текстом. Я не говорю что сам текст может быть на разных слоях.
на серче сейчас продается тема за 10 тыс руб., там есть этот скрипт. скрипт фиговый, если на сайте есть флеш или ява - то получается фигня какая-то (что-то не отображается, дизайн перекашивается).
В принципе, тема эта появилась давно и скрипты никак не изменились принципиально. Просто нужно ещё дополнительно парсить текст, сграбленный. А это очень сложно- предусмотреть все возможные варианты. Тут проблема немного в другом- парсить можно только либо в полуручном варианте либо для околодорвейных сайтов. А то получается хоть и осмысленные но вырванные куски текста.
Конечно, есть варианты, более продвинутого такого парсинга, но у меня не хватает знаний чтобы даже попытаться реализовать. Да и затраты на программинг тут возрастают неимоверно и применять их для доров или гс- глупо. Для массовости и уже существующие подойдут скрипты, для чего то более сложного- и ручками сделать можно.
 
не самая удачная идея. Причём здесь текст и объём области? у многих сайтов будут страницы где шапка и пустые слои будут занимать больше чем слои с текстом. Я не говорю что сам текст может быть на разных слоях.
ложные срабатывания можно свести к минимуму: изображения не показывать, пустые слои проверять на наличие текста, чтобы не было больших пустых слоев, это же не сложно.
В принципе, тема эта появилась давно и скрипты никак не изменились принципиально. Просто нужно ещё дополнительно парсить текст, сграбленный. А это очень сложно- предусмотреть все возможные варианты. Тут проблема немного в другом- парсить можно только либо в полуручном варианте либо для околодорвейных сайтов. А то получается хоть и осмысленные но вырванные куски текста. Конечно, есть варианты, более продвинутого такого парсинга, но у меня не хватает знаний чтобы даже попытаться реализовать. Да и затраты на программинг тут возрастают неимоверно и применять их для доров или гс- глупо. Для массовости и уже существующие подойдут скрипты, для чего то более сложного- и ручками сделать можно.
 
он его видел в работе или просто мечтал о нём
Скорее мечтал.... нереально перетащить любую структуру....
Это возможно только при условии указании всех возможных структур и выборе именно той которая используется там.

есть такая еще идея для бесшаблонного парсера (естественно парсинг текста всем тегам сделать заливку заднего фона, потом скриншот страницы => самые большие области - это и есть текст.

o_O

Зачем так извращяться то !?!?!?
Примерно тоже самое только без картинок )))) делают все парсеры которые якобы безшаблонные. Но сама обсурдность что безшаблонность не существует её просто расширяют условностями вот и все...
 
ложные срабатывания можно свести к минимуму: изображения не показывать, пустые слои проверять на наличие текста, чтобы не было больших пустых слоев, это же не сложно.
Да, на самом деле это извращение. Медленно и самая технология- мутная, там другие вещи важны, а не просто определить слой с текстом.
Это возможно только при условии указании всех возможных структур и выборе именно той которая используется там.
А что мы делаем когда нельзя указать всевозможные структуры явно? Верно! Идём в нейронные сети и в остальные технологии распознавания) Но тут будут другие проблемы и вопросы, намного сложнее чем тупо найти слой с контентом.
 
Да, на самом деле это извращение. Медленно и самая технология- мутная, там другие вещи важны, а не просто определить слой с текстом.
понятно, что очень важный параметр - это скорость парсинга.

вообще, такое извращение нужно, если не были указаны границы парсинга, если их указать, то все будет парсится быстро и просто (возможно даже без регулярок).

и кстати, извращенные методы не обязательно же применять ко всем текстам в рамках одного сайта - с помощью алгоритма можно найти границы текста и дальше сайт парсить согласно этим границам.
 
А что мы делаем когда нельзя указать всевозможные структуры явно? Верно! Идём в нейронные сети и в остальные технологии
Именно так и есть и все для того что бы определить эти структуры. :)
 
...вообще, такое извращение нужно, если не были указаны границы парсинга, если их указать, то все будет парсится быстро и просто (возможно даже без регулярок).

и кстати, извращенные методы не обязательно же применять ко всем текстам в рамках одного сайта - с помощью алгоритма можно найти границы текста и дальше сайт парсить согласно этим границам.
Обратно же возвращаемся к привязному шаблонному парсингу, не так ли? или вы так не считаете?

Что бы парсить быстро и четко нужен шаблон иначе нужен анализ, а анализ требует времени, что противоречит первому утверждению.
 
Обратно же возвращаемся к привязному шаблонному парсингу, не так ли? или вы так не считаете?
не совсем. границы определяются по алгоритму, а не вручную. Просто смысл в рамках одного сайта определять границы парсинга по сложному алгоритму?
 
не совсем. границы определяются по алгоритму, а не вручную. Просто смысл в рамках одного сайта определять границы парсинга по сложному алгоритму?
Время друг, мой время, работа по четкой маске значительно сокращяет время обработки как не крути но придеться базироваться на каких то шаблонах.
 
Назад
Сверху