Парсинг Yandex выдачи

Тема в разделе "Как сделать...", создана пользователем casinolot, 19 июн 2012.

  1. casinolot

    casinolot

    Регистр.:
    22 окт 2010
    Сообщения:
    547
    Симпатии:
    84
    Добрый день, кто подскажет хотя бы куда копать, в плане парсинга выдачи яндекса, нашел пару статей в инете,не работают уже.
    Через Yandex.XML много не парсишь.
     
  2. webed

    webed Постоялец

    Регистр.:
    18 июн 2008
    Сообщения:
    64
    Симпатии:
    5
    Не удастся . Яндекс забанит временно при парсинге большого объёма.
     
  3. casinolot

    casinolot

    Регистр.:
    22 окт 2010
    Сообщения:
    547
    Симпатии:
    84
    Для этого есть прокси.
     
  4. Mons

    Mons

    Регистр.:
    2 апр 2006
    Сообщения:
    1.589
    Симпатии:
    916
    Можно парсить из под проксей. Или с тайм аутом но это нужно чтобы сервер давал долго исполнять скрипты.
    По поводу не рабочих статей... с ходу нашел это Перейти по ссылке
    Немного правок и даже удалось спарсить ссылки. Позже код дам, если заработает как надо.


    PHP:
    <?php
     
    error_reporting
    (0);
    ini_set('max_execution_time',0);
    $page=1;
    $word="ruevents.ry";
    while(
    true)
    {
    $content file_get_contents("http://yandex.ru/yandsearch?clid=".$page."&text=".$word."&lr=213");flush();flush();flush();
    preg_match_all('/<a class="b-serp-item__title-link" href="(.*?)"/'$content$piece);
    //print_r($piece[1]);
    $fl fopen("links.txt""a+");
    foreach(
    $piece[1] as $v)
    {
    fputs($fl$v."\n");
    }
    fclose($fl);
    echo(
    "Обработка ".$page."<br>");flush();flush();flush();
    $page++;
     
    }
     
    ?>
    парсит урлы, дальше уже сам под себя
     
    casinolot нравится это.
  5. webed

    webed Постоялец

    Регистр.:
    18 июн 2008
    Сообщения:
    64
    Симпатии:
    5
    не подумал даже об этом:)
    По теме. Яндекс даёт (вроде) возможность установить их поиск у себя на сайте. Там что-то вроде Js файлика прикручевается. Если всковырнуть его,то может что там найдётся для написания парсера
     
  6. casinolot

    casinolot

    Регистр.:
    22 окт 2010
    Сообщения:
    547
    Симпатии:
    84
    Проверил, более менее работает, правда и долго и бывает глючит и не все позиции записывает,но главное хоть что-то, переделаю c Curl думаю лучше станет
     
  7. casinolot

    casinolot

    Регистр.:
    22 окт 2010
    Сообщения:
    547
    Симпатии:
    84
    А вот в seopult есть слова близкие к ТОПу, как он их находит, или он seopult почти каждый день парсит выдачу?
     
  8. zip111

    zip111 Постоялец

    Регистр.:
    24 июл 2009
    Сообщения:
    139
    Симпатии:
    118
    Он парсит более НЧ+нк запросы к топу и предлагает их к запуску ситемы .Либо как вариант ,сам заметил определяет релевантные запросы к сайту и предлагает к запуску.Это к примеру если взять гугл авдорд "Варианты ключевых слов" ,поставить ссылку сайта и посмотреть запросы .Как то так .