Есть вопрос по парсингу текста с помощью Php

idimka · 15 Янв 2012

KillDead написал(а):
+ недавно человек писал о похожем скрипте: мол есть парсер, может утащить весь контент с любого сайта с сохранением структуры. Т.е можно без проблем вытащить и в любую цмс и не будет заметно что копипаст сделан на автомате. хотя я так и не понял - он его видел в работе или просто мечтал о нём

на серче сейчас продается тема за 10 тыс руб., там есть этот скрипт. скрипт фиговый, если на сайте есть флеш или ява - то получается фигня какая-то (что-то не отображается, дизайн перекашивается).

есть такая еще идея для бесшаблонного парсера (естественно парсинг текста

всем тегам сделать заливку заднего фона, потом скриншот страницы => самые большие области - это и есть текст.

KillDead · 15 Янв 2012

idimka написал(а):
всем тегам сделать заливку заднего фона, потом скриншот страницы => самые большие области - это и есть текст.

не самая удачная идея. Причём здесь текст и объём области? у многих сайтов будут страницы где шапка и пустые слои будут занимать больше чем слои с текстом. Я не говорю что сам текст может быть на разных слоях.

idimka написал(а):
на серче сейчас продается тема за 10 тыс руб., там есть этот скрипт. скрипт фиговый, если на сайте есть флеш или ява - то получается фигня какая-то (что-то не отображается, дизайн перекашивается).

В принципе, тема эта появилась давно и скрипты никак не изменились принципиально. Просто нужно ещё дополнительно парсить текст, сграбленный. А это очень сложно- предусмотреть все возможные варианты. Тут проблема немного в другом- парсить можно только либо в полуручном варианте либо для околодорвейных сайтов. А то получается хоть и осмысленные но вырванные куски текста.
Конечно, есть варианты, более продвинутого такого парсинга, но у меня не хватает знаний чтобы даже попытаться реализовать. Да и затраты на программинг тут возрастают неимоверно и применять их для доров или гс- глупо. Для массовости и уже существующие подойдут скрипты, для чего то более сложного- и ручками сделать можно.

idimka · 15 Янв 2012

KillDead написал(а):
не самая удачная идея. Причём здесь текст и объём области? у многих сайтов будут страницы где шапка и пустые слои будут занимать больше чем слои с текстом. Я не говорю что сам текст может быть на разных слоях.

ложные срабатывания можно свести к минимуму: изображения не показывать, пустые слои проверять на наличие текста, чтобы не было больших пустых слоев, это же не сложно.

KillDead написал(а):
В принципе, тема эта появилась давно и скрипты никак не изменились принципиально. Просто нужно ещё дополнительно парсить текст, сграбленный. А это очень сложно- предусмотреть все возможные варианты. Тут проблема немного в другом- парсить можно только либо в полуручном варианте либо для околодорвейных сайтов. А то получается хоть и осмысленные но вырванные куски текста. Конечно, есть варианты, более продвинутого такого парсинга, но у меня не хватает знаний чтобы даже попытаться реализовать. Да и затраты на программинг тут возрастают неимоверно и применять их для доров или гс- глупо. Для массовости и уже существующие подойдут скрипты, для чего то более сложного- и ручками сделать можно.

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Inviseble_Demon · 16 Янв 2012

KillDead написал(а):
он его видел в работе или просто мечтал о нём

Скорее мечтал.... нереально перетащить любую структуру....
Это возможно только при условии указании всех возможных структур и выборе именно той которая используется там.

idimka написал(а):
есть такая еще идея для бесшаблонного парсера (естественно парсинг текста всем тегам сделать заливку заднего фона, потом скриншот страницы => самые большие области - это и есть текст.

Зачем так извращяться то !?!?!?
Примерно тоже самое только без картинок )))) делают все парсеры которые якобы безшаблонные. Но сама обсурдность что безшаблонность не существует её просто расширяют условностями вот и все...

KillDead · 16 Янв 2012

idimka написал(а):
ложные срабатывания можно свести к минимуму: изображения не показывать, пустые слои проверять на наличие текста, чтобы не было больших пустых слоев, это же не сложно.

Да, на самом деле это извращение. Медленно и самая технология- мутная, там другие вещи важны, а не просто определить слой с текстом.

Inviseble_Demon написал(а):
Это возможно только при условии указании всех возможных структур и выборе именно той которая используется там.

А что мы делаем когда нельзя указать всевозможные структуры явно? Верно! Идём в нейронные сети и в остальные технологии распознавания) Но тут будут другие проблемы и вопросы, намного сложнее чем тупо найти слой с контентом.

idimka · 16 Янв 2012

KillDead написал(а):
Да, на самом деле это извращение. Медленно и самая технология- мутная, там другие вещи важны, а не просто определить слой с текстом.

понятно, что очень важный параметр - это скорость парсинга.

вообще, такое извращение нужно, если не были указаны границы парсинга, если их указать, то все будет парсится быстро и просто (возможно даже без регулярок).

и кстати, извращенные методы не обязательно же применять ко всем текстам в рамках одного сайта - с помощью алгоритма можно найти границы текста и дальше сайт парсить согласно этим границам.

Inviseble_Demon · 16 Янв 2012

KillDead написал(а):
А что мы делаем когда нельзя указать всевозможные структуры явно? Верно! Идём в нейронные сети и в остальные технологии

Именно так и есть и все для того что бы определить эти структуры.

trooll · 16 Янв 2012

idimka написал(а):
...вообще, такое извращение нужно, если не были указаны границы парсинга, если их указать, то все будет парсится быстро и просто (возможно даже без регулярок).

и кстати, извращенные методы не обязательно же применять ко всем текстам в рамках одного сайта - с помощью алгоритма можно найти границы текста и дальше сайт парсить согласно этим границам.

Обратно же возвращаемся к привязному шаблонному парсингу, не так ли? или вы так не считаете?

Что бы парсить быстро и четко нужен шаблон иначе нужен анализ, а анализ требует времени, что противоречит первому утверждению.

idimka · 16 Янв 2012

trooll написал(а):
Обратно же возвращаемся к привязному шаблонному парсингу, не так ли? или вы так не считаете?

не совсем. границы определяются по алгоритму, а не вручную. Просто смысл в рамках одного сайта определять границы парсинга по сложному алгоритму?

trooll · 16 Янв 2012

idimka написал(а):
не совсем. границы определяются по алгоритму, а не вручную. Просто смысл в рамках одного сайта определять границы парсинга по сложному алгоритму?

Время друг, мой время, работа по четкой маске значительно сокращяет время обработки как не крути но придеться базироваться на каких то шаблонах.

Есть вопрос по парсингу текста с помощью Php

idimka

Гуру форума

KillDead

Хранитель порядка

idimka

Гуру форума

Inviseble_Demon

Мой дом здесь!

KillDead

Хранитель порядка

idimka

Гуру форума

Inviseble_Demon

Мой дом здесь!

trooll

PHP кодер

idimka

Гуру форума

trooll

PHP кодер