Парсер выдачи «статистики запросов Яндекса» (wordstat)

H01mes · 8 Сен 2009

Делал для себя парсер выдачи Для просмотра ссылки Войди или Зарегистрируйся. Подозреваю, что кому-то может пригодиться (скажем для роботизированного поиска низкочастотников с целью клепания страничек под них), а потому выкладываю исходник.
Скрипт работает на момент публикации этого поста (11 апреля 2009). Он перестанет работать, если Яндекс сменит вывод (вёрстку, оформление) wordstat`а.

Чтобы код понять, надо немного знать php. Комментировал я всё неприлично подробно. Чтобы парсер использовать — достаточно скопировать весь код в файл parser.php, сохранить файл и закинуть куда-то к себе на сервер. Нужно, правда, чтобы на сервере кроме интерпретатора php была ещё и библиотека cURL, но оная имеется на любом адекватном хостинге, даже на пятикопеечных. Также нужно нормальное время исполнения скрипта, в худшем случае он будет работать 40 секунд (для пяти страниц выдачи), приходится искусственно притормаживать перед запросом очередной страницы у wordstat`а. Если этого не делать, то wordstat начнёт просить капчу (если вы на капчу таки нарвались, то подождите часок-другой, пока wordstat простит ваш IP-адрес).

Собственно, тем кто код понимает, вряд ли составит труда нечто подобное написать за час самостоятельно. Но вдруг нужна таки готовая функция.

Новичкам готов рассказать дополнительно как и чего работает. И если людям это нужно, то возможно буду что-то и в будущем выкладывать в паблик с подробными комментариями.

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

tarkut · 12 Сен 2009

Суть скрипта я так и не понял. И почему нель зя использовать тот-же Магадан? Как он будет искать нч кеи?
Интересно было бы увидеть следующий срипт:
Парсер Прямого эфира яндекс(серверный)
Сбор всех кеев и разбивка их на нч, сч, вч.
Возможность определение тематики
Для меня был бы интересен такой скрипт, я так думаю похожим собирается база Пастухова.

Парсер выдачи «статистики запросов Яндекса» (wordstat)

H01mes

В прошлом rkinfo

tarkut

Гуру форума