PHP Grabber needed!! :)

whitelex · 28 Сен 2008

Как грабить определенный html код с помощью php у кого-то есть готовый граббер? Хочу прогноз погоды стаскивать и гороскопы к себе на сайт, нужен простенький скрипт я его сам добью под свои нужды.

Шуранов · 28 Сен 2008

На phpclasses.org достаточно классов с примерами, которые позволяют разбирать HTML. Если религия позволяет, то можно и на Perl, с помощью HTML::TreeBuilder. Достаточно просто, кстати.

KillDead · 28 Сен 2008

Одна из схем:
1- Получаем содержимое страницы с помощью сокетов Для просмотра ссылки Войди или Зарегистрируйся

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Для просмотра ссылки Войди или Зарегистрируйся или curl

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

2- находим нужные данные с помощью регулярных выражений

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

HatoL · 28 Сен 2008

можно даже не через сокеты, а просто через file_get_contents. Остается разобраться с регулярными выражениями

elcaste · 28 Сен 2008

HatoL написал(а):
можно даже не через сокеты, а просто через file_get_contents. Остается разобраться с регулярными выражениями

Это, конечно, проще всего. Но, например, с HTTPS не разгонишься. Для более быстрого результата начни с CURL, для понимания, как работает общение с сервером - с telnet и сокетов. По регекспам, на этом форуме, есть отличная книга Фридла. Удачи.

Zahar · 28 Сен 2008

Все то парни хорошо, но вот я пишу под себя грабер контента и у меня много загвоздок на стадии правильного определения мест сдирания контента. А именно, может кто знает решение, как определить саму статью и сграбить ее а не все подряд вместе с менюхой.
В общем имеется куча проблем с определением. Я вот пошол по пути определения сначала тега <div> в который самый увестый, потом работаю только с ним. Беру все что в этом теге и также ищу самый увесистый тег <div> или <p>, и от тудаво уже достаю текст сам.
Все бы хорошо но это тупиковый путь сам понимаю. Я вот думаю а не лутше преобразовать код HTML в XML а потом уже работать с моделью DOM?
Спарашиваю Вас как опытных, может кто ответит?

KillDead · 28 Сен 2008

Zahar написал(а):
Все то парни хорошо, но вот я пишу под себя грабер контента и у меня много загвоздок на стадии правильного определения мест сдирания контента. А именно, может кто знает решение, как определить саму статью и сграбить ее а не все подряд вместе с менюхой.
В общем имеется куча проблем с определением. Я вот пошол по пути определения сначала тега <div> в который самый увестый, потом работаю только с ним. Беру все что в этом теге и также ищу самый увесистый тег <div> или <p>, и от тудаво уже достаю текст сам.
Все бы хорошо но это тупиковый путь сам понимаю. Я вот думаю а не лутше преобразовать код HTML в XML а потом уже работать с моделью DOM?
Спарашиваю Вас как опытных, может кто ответит?

Только зачем такой гемор? Хочешь написать граббер под все сайты? Тогда не удивляйся, что 20-90% сграбит чушь.
Я пользовался(ьзуюсь) preg_math, причём

под каждый сайт свой шаблон. Там пишешь где в сайте контент, где заголовк. Если шаблон не динамический (встретил один раз- каждый день теги менялись местами ) и шаблон составил верно- получишь контент.
Затем его надо форматировать: часто приходиться убирать ссылки на главную страницу, преведущие статьи, с картинок, исправлять теги шаблона (типа <p class='gы>').

elcaste · 28 Сен 2008

Zahar написал(а):
Все то парни хорошо, но вот я пишу под себя грабер контента и у меня много загвоздок на стадии правильного определения мест сдирания контента. А именно, может кто знает решение, как определить саму статью и сграбить ее а не все подряд вместе с менюхой.
В общем имеется куча проблем с определением. Я вот пошол по пути определения сначала тега <div> в который самый увестый, потом работаю только с ним. Беру все что в этом теге и также ищу самый увесистый тег <div> или <p>, и от тудаво уже достаю текст сам.
Все бы хорошо но это тупиковый путь сам понимаю. Я вот думаю а не лутше преобразовать код HTML в XML а потом уже работать с моделью DOM?
Спарашиваю Вас как опытных, может кто ответит?

Была та же проблема, только немного в другом контексте. Решается все относительно просто: пишется, так сказать, основной движок, задача которого - упорядочивание, обработка "награбленного"

и отдача его куда нужно. Чтобы перерабатывать даже динамические шаблоны, процедуры граббинга можно вообще вынести за пределы основного скрипта, тогда изменения алгоритма граббинга отдельного ресурса не коснутся всех остальных. Т.е. на выходе имеем очень гибкий скрипт, который может грабить, практически, что угодно и откуда угодно и подключение источника контента займет минуты.
Правда есть минус - не программеру с таким скриптом ловить нефиг

Zahar · 29 Сен 2008

Отвечу сразу - скептиков не буду слушать, когда то и хруммер космосом казался (а когда он появился то оказалось что у неких людишек есть подобное но под никсы и со скоростью в 150 раз большей делает то же), так что давайте не будем - нафик надо, до смерти будешь такое делать, главное пробовать а решение придет внезапно!

Я понимаю чно задачи парсера и обработкина надо разносить, тут дело в обработчике, т.е. в моделировании полученого контента на предмет полезных данных. Я вот что думаю сделать пока, надо наверное преобразовывать данные в DOM tree, а дальше работать с ним, где то на форуме читал что парень ваше делал скрин сайта с статьей а потом по скрину вычислял относительные точки входа и выхода для парсера контента, звучит как маразм на первый взгляд но у него так и работает грабер, а скептики бы до такого не додумались

.

elcaste · 30 Сен 2008

Zahar написал(а):
Отвечу сразу - скептиков не буду слушать, когда то и хруммер космосом казался (а когда он появился то оказалось что у неких людишек есть подобное но под никсы и со скоростью в 150 раз большей делает то же), так что давайте не будем - нафик надо, до смерти будешь такое делать, главное пробовать а решение придет внезапно!

Почему сразу скептики, ведь не прозвучало ни одной фразы, утверждающей, что вариант с моделью DOM невозможен

звучит как маразм на первый взгляд но у него так и работает грабер, а скептики бы до такого не додумались .

Какой маразм? Просто еще одно решение. И может скептики до такого и не додумались бы, но есть одно "но" - у скептиков грабер тоже чудесно грабит

PHP Grabber needed!! :)

whitelex

Постоялец

Шуранов

Писатель

KillDead

Хранитель порядка

HatoL

Профессор

elcaste

Постоялец

Zahar

Постоялец

KillDead

Хранитель порядка

elcaste

Постоялец

Zahar

Постоялец

elcaste

Постоялец