Узнать whois данные для >10000000 доменов

Тема в разделе "Как сделать...", создана пользователем Juri, 8 окт 2010.

  1. Juri

    Juri

    Заблокирован
    Регистр.:
    5 окт 2007
    Сообщения:
    1.068
    Симпатии:
    197
    Здравствуйте, в общем задача такая есть порядка 10000000 доменов, в основном ру нужно прочекать их whois данные и положить это все в базу. У кого есть какие предложения как это можно сделать?
     
  2. jo0o00nyy

    jo0o00nyy Постоялец

    Регистр.:
    12 май 2010
    Сообщения:
    65
    Симпатии:
    27
    Заказать у кого-то :)
    А так распараллеливание скриптами как самих запросов так и парсеров ответов, отпимизированая ОС, долгоживущие скрипты. БД, которая будет работать только с этим заданием, если таблица типа MyISAM, то разбивка на разные таблицы, ну или если файловая система для хранения ответов, то хранить ответы в разных подпапках, а то будет затормаживаться обращение к файлам, когда в одной папке файлов много.
    Недавно парсил 500к доменов в зоне .com, под виндой на пхп, при этом на фоне крутилось еще кучка всего, вроде за часок все было готово. Но учти, что скорей всего обработка такого кол-во данных, возможно займет часов 6+, и плюс подготовка данных тоже займет времени прилично.
     
  3. Juri

    Juri

    Заблокирован
    Регистр.:
    5 окт 2007
    Сообщения:
    1.068
    Симпатии:
    197
    А инструментом которым парсили свои домены не поделитесь?
     
  4. jo0o00nyy

    jo0o00nyy Постоялец

    Регистр.:
    12 май 2010
    Сообщения:
    65
    Симпатии:
    27
    Ну ведь вопрос был как реализовать ;)
    А так сам писал сей инструмент, и он особо не предназначен для передачи в другие руки.
     
  5. horpah

    horpah

    Регистр.:
    21 июн 2010
    Сообщения:
    200
    Симпатии:
    55
    Такие вещи лучше писать на компилируемом языке (С++, Delphi...), т.к. тут необходима скорость и долгоживучесть.

    Можем договориться, сделаю.
    PS. Киберсквотинг - нехорошо:smmne:
     
  6. Juri

    Juri

    Заблокирован
    Регистр.:
    5 окт 2007
    Сообщения:
    1.068
    Симпатии:
    197
    Ситуация такова, что для меня оптимальный вариант сделать это в связке php и mysql просто хотел узнать какой именно whois лучше парсить, что б не побанили сразу за большое количество запросов
     
  7. nagual

    nagual Постоялец

    Регистр.:
    17 фев 2009
    Сообщения:
    65
    Симпатии:
    3
    Я делал Perl POE и чекало за 5 минут 1к (одновременно чекает) на пхп пока что нет событийных машин.
    Напишите в жабер если интересно nagual@xmpp.jp
     
  8. latteo

    latteo Эффективное использование PHP, MySQL

    Moderator
    Регистр.:
    28 фев 2008
    Сообщения:
    1.404
    Симпатии:
    1.185
    Парсил несколько миллионов доменов *.ru
    С чем столкнулся:
    Сервер whois.ripn.ru потребовал выставить задержку около 2 секунд между запросами, иначе быстро уходил в бан. Одной секунды мало, но не экспериментировал с дробными значениями. Ответ от сервера проверяю на наличие строки "Please try to connect later", если таковая имеется таки превысили лимит запросов - делаю паузу на минуту.
    Идеи по решению, стары как интернет - искать прокси; парсить сервисы проверки хуис, вместо прямого запроса.