"Шаровые" IP для парсинга.

Тема в разделе "PHP", создана пользователем Mendel, 25 апр 2008.

Статус темы:
Закрыта.
Модераторы: latteo
  1. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    Скучно... работать лень.
    Дай думаю зайду на нуллед спалю пару тем :)
    В общем иногда так хочется чтото попарсить, да на доноре лимиты по ip стоят. Что делать? Покупать прокси?
    Вариант. Если парсить через прокси, то я это делаю так:
    PHP:
    function mybot($url,$proxy=FALSE,$user_agent="Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)")
        {
        
    // получим контент
        
    $ch curl_init();    // initialize curl handle
        
    if($proxy<>FALSEcurl_setopt($chCURLOPT_PROXY$proxy);
        
    curl_setopt($chCURLOPT_URL$url); // set url to post to
        
    curl_setopt($chCURLOPT_FAILONERROR1);              // Fail on errors
        
    curl_setopt($chCURLOPT_RETURNTRANSFER,1); // return into a variable
        
    curl_setopt($chCURLOPT_TIMEOUT15); // times out after 15s
        
    curl_setopt($chCURLOPT_USERAGENT$user_agent);
        
    $document curl_exec($ch);
        
    curl_close($ch);
        return 
    $document;
        }
    Ну а что делать если проксей нет, или они медленные?
    В таком случае их можно взять в большом количестве... если у вас удачных хостинг. Или в небольшом, если не такой хороший.
    Дело все в том что как правило на сервере где висит шаредхостинг акаунт, таких висят еще довольно больое количество аков. И у некоторых из них выделенный IP. Частенько IP на сервак выделяют целой подсеткой и дальше раздают уже тем пользователям которым они нужны. А еще частенько оба ns вашего хостинга висят на том же сервере что и сам хостинг... в общем понятно я думаю. А чтобы совсем было понятно, то скажу что пользуясь этой шарой я заменяю приведенный выше код на:
    PHP:
    function mybot2($url,$ip=FALSE,$user_agent="Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)")
        {
        
    // получим контент
        
    $ch curl_init();    // initialize curl handle
        
    if($ip<>FALSEcurl_setopt($chCURLOPT_INTERFACE$ip);
        
    curl_setopt($chCURLOPT_URL$url); // set url to post to
        
    curl_setopt($chCURLOPT_FAILONERROR1);              // Fail on errors
        
    curl_setopt($chCURLOPT_RETURNTRANSFER,1); // return into a variable
        
    curl_setopt($chCURLOPT_TIMEOUT15); // times out after 15s
        
    curl_setopt($chCURLOPT_USERAGENT$user_agent);
        
    $document curl_exec($ch);
        
    curl_close($ch);
        return 
    $document;
        }
    В общем это всетаки пропаленая тема, а не самоучитель, поэтому думаю хватит с вас :)
     
    Alexanderod, Captain, zardoz и 2 другим нравится это.
  2. jacksoft

    jacksoft

    Регистр.:
    22 мар 2007
    Сообщения:
    595
    Симпатии:
    460
    Тема конечно известная, но все равно с примерами - зачет. :)
    Вот если бы кто еще попалил тему как с фтп работать на пхп через другой фейс ;)
    А то команде ftp_conect уходит через основной...
     
  3. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    кому известно, а кому и нет... )
    сокеты. а ftp ручками реализовать. он не такой уж сложный.
     
  4. faider

    faider Постоялец

    Регистр.:
    19 мар 2008
    Сообщения:
    129
    Симпатии:
    20
    А что будет когда прокси сдохнет? или залебнётся в таймаутах?
    Пример очень банальный и нуждается в долгом, большом и нудной доработке. Неплохо былоб брать этот прокси из уже прочеканного 100%-валидного листа.
     
  5. jacksoft

    jacksoft

    Регистр.:
    22 мар 2007
    Сообщения:
    595
    Симпатии:
    460
    Дык свои проекты - да. А вот скажем дорген редбуттон или другие проекты. Запаришся все переписывать.
     
  6. vovaNux

    vovaNux Постоялец

    Регистр.:
    10 апр 2007
    Сообщения:
    125
    Симпатии:
    16
    Хотелось бы пример с сокетами в студию :)
     
  7. nnmkayf

    nnmkayf

    Регистр.:
    25 июл 2007
    Сообщения:
    153
    Симпатии:
    98
    Самая главное в этой теме, список хостингов, на которых это работает, вот это спалишь так спалишь...
     
  8. jacksoft

    jacksoft

    Регистр.:
    22 мар 2007
    Сообщения:
    595
    Симпатии:
    460
  9. myweb

    myweb Среда обитания WEB

    Регистр.:
    10 сен 2007
    Сообщения:
    539
    Симпатии:
    246
    Незнаю как но мой хостер узнал што я хожу через проксю и сказал ищо раз и досвидания, видимо хостер тоже не любит когда его так используют :). Вобщем для таких експерементов лучше купить хостинг так на 1-2 месаца.
     
  10. jacksoft

    jacksoft

    Регистр.:
    22 мар 2007
    Сообщения:
    595
    Симпатии:
    460
    Узнал очень просто. Скрипт запущенный от твоего имени использует для выхода чужой ИП адресс... А что делать - это риск и надо смотреть оправданный ли.
    На счет хостинга даже луше купить дешевых ВДС по 5-10 баксов и спокойно работать :)
     
Статус темы:
Закрыта.