выдергивание емейлов с сайта v2

Тема в разделе "PHP", создана пользователем unsiker, 22 окт 2008.

Статус темы:
Закрыта.
Модераторы: latteo
  1. unsiker

    unsiker

    Регистр.:
    6 июн 2008
    Сообщения:
    465
    Симпатии:
    172
    Ситуация такая есть список сайтов, порядка 20.000. Зная список сайтов нужно узнать емейлы администрации сайтов. Все сайты тематические по 10 - 20 страниц и без форумов. Так вот было сделано предположение что ключевой емейл находится на главной странице сайте. Был написан скрипт, которой проводит поиск нужных емейлов.
    PHP:
     $page =file_get_contents("$sname");
     
    preg_match_all('/[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.A-Za-z0-9]{2,}/'$page$out);
    Но после отработки с 20к сайтов только у 3к сайтов был найден емейл. Осталось 17к.

    Есть идея что нужно заходить на главную смотреть все ссылки на страницы, потом открывать все ссылки относящиеся к сайту их парсить на мейлы. Но тут встает ряд задач по оптимизации например: емейл найден, закончить поиск, на сайте левая ссылка на которой есть емейл но он не нужен.

    Может кто то стыкался с подобного рода задачей. Или может поделется куском кода?
    ________________
    за что буду очень благодарен.
     
  2. starkiev

    starkiev

    Регистр.:
    11 май 2007
    Сообщения:
    413
    Симпатии:
    58
    $text = eregi_replace(([[:alnum:]-.]+@[[:alnum:]-]+(\\.[[:alnum:]-]+)*(\\?([[:alnum:]?+&%]*)?)?)

    такой вариант не пойдет?
     
  3. Crazy108

    Crazy108 Создатель

    Регистр.:
    6 сен 2008
    Сообщения:
    45
    Симпатии:
    7
    при написании email граббера нет такого понятия левое мыло или нет
    если найдено в пределах сайта и не более 2-3х мыл, все ОК.
    если же найдено больше 2-3 мыльников, тогда задаваться вопросом что это за страница на котором столько мыльников.

    изначально гарантии что прямо на морде есть мыло самой компании никакой нет. там вполне может быть мыло обычного вебмастера, поэтому грабить надо все.



    должно хватать с головой.

    плюс если реально 20-30 страниц на сайте на не 200-300, то лучше найти все мыльники что там упоминаются, а отом думать, что с ними делать. Только не обязательно реальное рабочее мыло должно совпадать с доменом сайта который грабится, типа
    info@dddos.ru = dddos.ru

    оно может быть гдето на mail.ru или еще дальше :)

    но умный дизайнер закроет это было всякими js скриптами, дабы такие лохотронские грабберы (простенькие) не смогли его выгрести.

    Добавлено через 3 минуты
    да и еще . нелюбовь спамиров зачастую приводит к появлению на сайте формы обратной связи. если вы при граббинге сделаете закладку на поиск таких форм, то прогнав и по базе мыльников, и по базе форм обратной связи, отдача от поставленной задачи значительно возрастет
     
Статус темы:
Закрыта.