Массовое определение тИЦ

Тема в разделе "PHP", создана пользователем artcosmic, 2 окт 2008.

Статус темы:
Закрыта.
Модераторы: latteo
  1. artcosmic

    artcosmic

    Регистр.:
    16 сен 2008
    Сообщения:
    198
    Симпатии:
    161
    Допустим, есть 100 000 сайтов.
    Как проверить их тИЦ без использования прокси?
    Где-то когда-то видел скрипт, который распознает символы на Yandex.Денежке - вроде бы как он решал эту проблему.
    Напомните, плиз, где я его видел )
    Или другие способы, если таковые существуют.
     
  2. Лариса

    Лариса Читатель

    Заблокирован
    Регистр.:
    21 сен 2007
    Сообщения:
    390
    Симпатии:
    128
    будет медлено. но без прокси (за счет пауз)
    ТС2 - смотри на серче.
    выложен также на ачате (последняя бесплатная)
    Можешь найти на 4script.info
    версию 0.5
    Смотри блог Жилинского - там сервис и скрипт можно вытащить с сайта
     
  3. bookinist

    bookinist Создатель

    Регистр.:
    15 фев 2007
    Сообщения:
    43
    Симпатии:
    12
    Код:
    function getIC($site)
    {
    $site=trim(ltrim($site));
    $site=str_replace(array("http://","www."),"",$site);
    $site='http://'.$site;
    $url='http://bar-navig.yandex.ru/u?ver=2&lang=1049&url='.$site.'/&show=1&thc=0';
    $ch = curl_init();
    $user_agent = "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)";
    curl_setopt($ch, CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    $buf=curl_exec ($ch);
    curl_close ($ch);
    $buf=str_replace(array("\n","\r"),"",$buf);
    if(preg_match_all("|value=\"(.*)\"/>|U", $buf, $out, PREG_PATTERN_ORDER)) {
    $results=implode("",$out[1]);
    }
    if(empty($results)){
      return '0';
    }
    return $results;
    }
    
    запрашивай с паузой больше 10 сек и тогдо можно юзать без прокси
     
  4. Лариса

    Лариса Читатель

    Заблокирован
    Регистр.:
    21 сен 2007
    Сообщения:
    390
    Симпатии:
    128
    ненене. какие 10 секунд)..
    он тогда будет проверять долго и нудно.
    на практике- выставляли 5 сек.
     
  5. artcosmic

    artcosmic

    Регистр.:
    16 сен 2008
    Сообщения:
    198
    Симпатии:
    161
    Если юзать паузу 10 секунд, то
    time = 100 000 * 10 / 60 / 60 / 24 = 11 суток
    если 5 секунд, то
    time = 100 000 * 5 / 60 / 60 / 24 = 6 суток
    Это при условии, что все эти 11/6 суток будет стабильный интернет )

    Вопрос в другом. Сервис Яндекс.Денежки - массовый сервис и вроде бы позволяет делать неограниченное число запросов (Денежка та тысячах и тысячах сайтов стоит). Вот распознать бы символы на ней как капчу - и тогда (теоретически) можно было бы без пауз проверить - это заняло бы пару часов.
    Есть мысли?
     
  6. joefast

    joefast

    Заблокирован
    Регистр.:
    6 ноя 2007
    Сообщения:
    464
    Симпатии:
    74
    На самом деле, мысль очень здравая. Более того, в отличии от нормальной капчи, текст не деформирован, шрифт один и тот же, расположен в одном и том же месте.

    Кстати, выдаются по ссылке:
    денежка
     
  7. bookinist

    bookinist Создатель

    Регистр.:
    15 фев 2007
    Сообщения:
    43
    Симпатии:
    12
    хм.. а меня банил, пришлось выставить 11 сек тогда все нормально стало


    artcosmic, с локальной машины такие задачи не решить, сервак нужно, да, долго, но ведь и количество не шуточное, а по поводу каптчи (те кто работают с ними не дадут соврать, на все про все больше чем 10 сек выйдет )
     
  8. Лариса

    Лариса Читатель

    Заблокирован
    Регистр.:
    21 сен 2007
    Сообщения:
    390
    Симпатии:
    128
    http://4script.info/main/567-analizator-sajjta-v-poiskovykh-sistemakh.html
    Анализатор сайта в поисковых системах

    0
    16 мая 2008 | автор: DeepNekro | Главная | Просмотров: 353 | Рейтинг: 0
    Возможности скрипта анализатора сайтов в поисковых системах :
    Yandex:

    * Определение ТИЦ цифрой (+ динамика изменений)
    * Определение ТИЦ картинкой
    * Определение нахождения в ЯК
    * Определение количества проиндексированных страниц (+ динамика изменений)
    * Определение бэклинков (+ динамика изменений)
    * Определение наличия морды
    * Определение robots.txt
    * Определение проиндексированной favicon сайта.

    Google:

    * Определение PR картинкой
    * Определение количества проиндексированных страниц
    * Определение BackLink`s

    WebAlta:

    * Определение WR картинкой
    * Определение WR цифрой (+ динамика изменений)
    * Определение уровня доверия (+ динамика изменений)
    * Определение количества проиндексированных страниц (+ динамика изменений)

    MSN:

    * Определение количества проиндексированных страниц (+ динамика изменений)
    * Определение BackLinks (+ динамика изменений)

    Rambler:

    * Определение количества проиндексированных страниц Rambler (+ динамика изменений)

    Другое:

    * Определение нахождения в DMOZ
    При массовой проверке тиц благодаря ряду уникальных функций Яндекс н****ит ваш ip но мы настоятельно рекомендуем запускать скрипт с локальных компьютеров с динамическим ip .
    ========
    в принципе скрипт работает=)
    на своем сервере проверяла
     
  9. artcosmic

    artcosmic

    Регистр.:
    16 сен 2008
    Сообщения:
    198
    Симпатии:
    161
    Что вы сделали, чтобы скрипт заработал?
    У меня ни на денвере, ни на сервере работать скрипт не захотел.
    Warning: Division by zero in /home/.../tc.php on line 634
     
  10. Лариса

    Лариса Читатель

    Заблокирован
    Регистр.:
    21 сен 2007
    Сообщения:
    390
    Симпатии:
    128
    ааааа....
    :D
    /*echo "На один сайт: <b>~".round($totaltime/$num,2)." сек.</b><br>";*/

    это никчемная переменная, не стала даже смотреть почему там 0
    суммарное время интересней - оно считается.
    кроме того...............задается в самом скрипте пауза.
     
Статус темы:
Закрыта.