Парсинг Yandex выдачи

casinolot

Гуру форума
Регистрация
21 Окт 2010
Сообщения
547
Реакции
87
Добрый день, кто подскажет хотя бы куда копать, в плане парсинга выдачи яндекса, нашел пару статей в инете,не работают уже.
Через Yandex.XML много не парсишь.
 
Не удастся . Яндекс забанит временно при парсинге большого объёма.
 
Можно парсить из под проксей. Или с тайм аутом но это нужно чтобы сервер давал долго исполнять скрипты.
По поводу не рабочих статей... с ходу нашел это Для просмотра ссылки Войди или Зарегистрируйся
Немного правок и даже удалось спарсить ссылки. Позже код дам, если заработает как надо.


PHP:
<?php
 
error_reporting(0);
ini_set('max_execution_time',0);
$page=1;
$word="ruevents.ry";
while(true)
{
$content = file_get_contents("http://yandex.ru/yandsearch?clid=".$page."&text=".$word."&lr=213");flush();flush();flush();
preg_match_all('/<a class="b-serp-item__title-link" href="(.*?)"/', $content, $piece);
//print_r($piece[1]);
$fl = fopen("links.txt", "a+");
foreach($piece[1] as $v)
{
fputs($fl, $v."\n");
}
fclose($fl);
echo("Обработка ".$page."<br>");flush();flush();flush();
$page++;
 
}
 
?>

парсит урлы, дальше уже сам под себя
 
Для этого есть прокси.
не подумал даже об этом:)
По теме. Яндекс даёт (вроде) возможность установить их поиск у себя на сайте. Там что-то вроде Js файлика прикручевается. Если всковырнуть его,то может что там найдётся для написания парсера
 
Можно парсить из под проксей. Или с тайм аутом но это нужно чтобы сервер давал долго исполнять скрипты.
По поводу не рабочих статей... с ходу нашел это Для просмотра ссылки Войди или Зарегистрируйся
Немного правок и даже удалось спарсить ссылки. Позже код дам, если заработает как надо.


PHP:
<?php
 
error_reporting(0);
ini_set('max_execution_time',0);
$page=1;
$word="ruevents.ry";
while(true)
{
$content = file_get_contents("http://yandex.ru/yandsearch?clid=".$page."&text=".$word."&lr=213");flush();flush();flush();
preg_match_all('/<a class="b-serp-item__title-link" href="(.*?)"/', $content, $piece);
//print_r($piece[1]);
$fl = fopen("links.txt", "a+");
foreach($piece[1] as $v)
{
fputs($fl, $v."\n");
}
fclose($fl);
echo("Обработка ".$page."<br>");flush();flush();flush();
$page++;
 
}
 
?>

парсит урлы, дальше уже сам под себя
Проверил, более менее работает, правда и долго и бывает глючит и не все позиции записывает,но главное хоть что-то, переделаю c Curl думаю лучше станет
 
А вот в seopult есть слова близкие к ТОПу, как он их находит, или он seopult почти каждый день парсит выдачу?
 
А вот в seopult есть слова близкие к ТОПу, как он их находит, или он seopult почти каждый день парсит выдачу?
Он парсит более НЧ+нк запросы к топу и предлагает их к запуску ситемы .Либо как вариант ,сам заметил определяет релевантные запросы к сайту и предлагает к запуску.Это к примеру если взять гугл авдорд "Варианты ключевых слов" ,поставить ссылку сайта и посмотреть запросы .Как то так .
 
Есть ли в яндексе операторы для запроса и получения "чистой" выдачи как например в гуле Inurl и intitle?
 
Назад
Сверху