Требуется. Скрипт Human Emulator или как отдельный парсер.

menedzher375

Постоялец
Регистрация
23 Окт 2007
Сообщения
62
Реакции
14
Вот примерный алгоритм.
Заходит на яндекс.
Забивает первый запрос.
Собирает выдачу по нему (есть возможность указывать сколько url собирать + можно указать задержку при листании/собирании страниц выдачи по запросу).
Забивает второй запрос (есть возможность указать задержку между запросами).
И так далее весь перечень запросов.
Собрано сколько-то сотен/тысяч url, есть дубликаты доменов и есть дубликаты ссылок – имеется на это 2 возможности удалить дубликаты доменов или дубликаты ссылок.
Удалили/отсеяли, осталось 200 ссылок выдачи, есть возможность открыть сразу по 70 штук (количество можно указать) в браузере (его можно выбрать/указать) для просмотра/отсева/удаления вручную.
После удаления остается рафинированная выдача. Открывает первую ссылку, сканирует/выдирает мыло, если доменная зона мыла совпадает с сайтом и не подпадает под фильтр (webmaster, support, rating и др. – есть возможность задать), то переходит к другой ссылке выдачи. Если же мыло найденное сразу при заходе на сайт не в доменной зоне сайта или не найдено вообще, то идет поиск карты сайта и по ней осуществляется заход на: контакты, реквизиты, схема проезда, опт, о нас, о фирме, корпоративным клиентам (есть возможность задать) – заходит по очереди со сканом мыл, до тех пор, пока не будет найдено мыло или несколько (ограничиваем максимальное количество – можно указать) на доменной зоне сайта с проверкой не подпадает ли оно под фильтр (webmaster@, support@, rating и др. – есть возможность задать). Если карты сайта нет, то заходит, нажимая прямо на странице кнопки: контакты, реквизиты, схема проезда, опт, о нас, о фирме, корпоративным клиентам (есть возможность задать перечень) – заход со сканом мыла, до тех пор, пока не будет найдено мыло (или несколько – можно указать макс. количество) на доменной зоне сайта с проверкой не подпадает ли оно под фильтр (webmaster, support, rating и др. – есть возможность задать). Если доменное мыло не найдено, то берем то мыло, которое попалось нам первым при проходе по сайту, если оно не подпадает под фильтр. Если мыло после прохода по сайту не найдено вообще или в виде рисунка, следуем далее по выдаче. Если при проходе по сайту на странице найдено несколько доменных мыл, то идет анализ по списку (можно задать:( zakaz, opt, order и т.д. – берем то мыло, в котором есть первое попавшееся слово из списка, приоритет выбора мыл в порядке списка, если корпоративная почта не имеет слов из списка, то берем ДВА первых попавшихся доменных мыла, не подпадающих под фильтр (webmaster, support, rating и др. – есть возможность задать).
ДАВАЙТЕ СПИШЕМСЯ - menedzher375собакаya.ru
 
Назад
Сверху