PHP прокси для SEO запросов работоспособно ли?

akigleo

Постоялец
Регистрация
7 Фев 2010
Сообщения
378
Реакции
116
Для анализа SEO параметров нужны прокси. Можно покупать, можно постоянно парсить списки бесплатных. Везде свои плюсы/минусы и останавливаться на них сейчас смысла нет.

Возникла идея задействовать свои нутренние ресурсы и установить php прокси на домены шаред хостинга с доступными 30-ю IP. То есть каждый домен на своем IP. Хостер не возражает насчет установки php прокси (анонимизатора).

Не думаю, что идея нова и скорее она всего кем-то проработана. Собственно вопросы к знатокам:
- работоспособна ли идея?
Я прекрасно понимаю, что быстродействие php скрипта существенно ниже. Однако запросы к поисковикам небольшие, не думаю, что будет тяжелый траф и тормоза не позволяющие работать.
Знаю так же, что есть решения, когда нет необходимости, чтобы php скрипт постоянно висел в памяти и слушал свой порт, что не реально орагнизовать на шаред хостинге, если ты не админ. Насколько я бегло посмотрел, есть решения, когда php скрипт прокси работает только тогда - когда к нему обратились.
- Есть ли у кого уже отработанный вариант, что можно сказать под такие задачи хорошо подходит скрипт такой-то, вот я реально пользуюсь и счастлив?
 
Смотри в чем там прикол.
Если ты хочешь использовать обычный софт от другого разработчика - то нужно чтобы порты были открыты и скрипт висел. Такое конечно можно сделать на пхп, но обычно такой возможности у пользователя shared хостинга нет.
Если ты хочешь использовать анонимайзер - то это не совсем прокси с точки зрения протоколов, ну то есть тогда и твой софт который там анализирует параметры должен уметь работать через такие анонимайзеры.
Итого:
- если софт умеет (читай софт твой) - то нет проблем, там этого самого анонимайзера 10 строк.
- если софт твой, то подумай может можно использовать чужие анонимайзеры которых в инете не так чтобы и мало
- если софт не умеет работать через анонимайзеры, то понадобится ssh чтобы поднять проксю. Рекомендую 3proxy, как максимально user-friendly.


Добавлено позже: Ага, или вот такое решение как latteo посоветовал - в виде комбинации скрипта и десктопной надстройки к нему. Если конечно софт который нужно запустить с проксями - десктопный под вин.
 
Те php-скрипты, которые называются анонимайзеры и были распространены несколько лет назад, за эти несколько лет похоже таки не обновлялись и не всегда корректно работают с кодировками, часто плохо переносят яваскрипт запросы (вплоть до того, что запросы летят не анонимно).
Более современное решение, которое сейчас популярно советовать Для просмотра ссылки Войди или Зарегистрируйся.

Идея вполне работоспособна.
Быстродействие может почти не пострадать, при грамотном коде анонимайзера.
Если у шареда 30 IP велик шанс, что не только ты парсишь ПС.

Интернет провайдер с динамическим IP оказывается гораздо эффективней, для парсинга (на Украине довольно распространённое явление).

По старым наблюдениям (парсилось скриптами или софтом) около 100-200 запросов с паузой от 10 до 60 секунд можно послать, пока каптчу не потребует. Как часто сброс происходит не знаю, но в течении минимум пары часов, шустро парсить уже не получится, предположим, что сброс через сутки. Из чего имеем, что от 3000 до 6000 точно можно в сутки результатов с ПС спарсить, если этого достаточно, то метод с анонимайзероми на шареде тебе подойдёт.
 
30 ip маловато, имхо. как то я парсил один из сервисов яндекса, и что бы работало эффективно - дописал скрипт, научив его работать через прокси, используя curl. каждый запрос с задержкой в 6 секунд, если реже - там происходил бан прокси. в базе около 300-500 живых анонимный прокси весело стабильно. это было в ноябре, и проработало все это дело около месяца. потом правда они что то придумали интересное, что по запросу через прокси(любой) скрипт мой начал получать 404. дальше разбираться уже не стал, не было необходимости.
 
Отлично что подняли тему:ay:
Я буквально на неделе заморачивался с подобным.

Для парсинга вполне справятся обычные паблик проксы. Можно АВМ взять - более-менее работают. Ну или от Инферно.
Подобные решения нужны для более деликатных задач.

Вариант Воланда используем, но он не совсем подходит из-за того что нужно использовать клиент. Хочется чтоб проксы были доступны для любого софта и без дополнительных танцев.
Да, через ССШ вообще не проблема сделать, но он не всегда есть)

Вот что я нарыл:
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся

Гляньте, если интересно, отпишитесь... А то у меня то криво работает, то вообще не работает.
Если что, готов скинуться на доработку и тд и тп.
 
30 ip маловато, имхо.
Чем богаты. Хотя, если эти IP прописать в сервисе Яндекс XML, то бан отодвинется...

по запросу через прокси(любой) скрипт мой начал получать 404. дальше разбираться уже не стал, не было необходимости
Я так понял, что ваше решение было чисто для себя и до стабильно работающей версии не доработано. Запускали на shared хостинге или на своем сервере?

Отлично что подняли тему:ay:
Для парсинга вполне справятся обычные паблик проксы. Можно АВМ взять - более-менее работают. Ну или от Инферно.
Запарился я этими паблик проксями, которые дохнут на глазах. Покупать - можно, но если есть резерв возможностей, то есть смысл подумать как их приспособить.

Вариант Воланда используем, но он не совсем подходит из-за того что нужно использовать клиент. Хочется чтоб проксы были доступны для любого софта и без дополнительных танцев.
Хмммм. Я как раз собирался потестить это решение. Я так понял, что для любого дексктопного софта, где можно указывать прокси - это неплохой выбор.
По скорости работы вас устроил?

Вот что я нарыл:
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся

Гляньте, если интересно, отпишитесь... А то у меня то криво работает, то вообще не работает.
Если что, готов скинуться на доработку и тд и тп.
Если никто не предложит еще какой хороший работоспособный вариант, который не требует доработок.
 
Я так понял, что ваше решение было чисто для себя и до стабильно работающей версии не доработано. Запускали на shared хостинге или на своем сервере?
все верно. парсил я т.н. "прямой эфир" яндекса, с vds-а, запуская php-скрипты по крону через прокси. у них была страничка, Для просмотра ссылки Войди или Зарегистрируйся, которая показывала в реальном времени, что сейчас ищут люди, в удобном формате, в xml. а теперь я захожу и получаю редирект на Для просмотра ссылки Войди или Зарегистрируйся, и теперь понятно стало, почему мой скрипт отвалился. это не он не в порядке, это просто халява закончилась)))
Запарился я этими паблик проксями, которые дохнут на глазах. Покупать - можно, но если есть резерв возможностей, то есть смысл подумать как их приспособить.
честно говоря, не особо задумывался по поводу реализации http/socks прокси средствами php. в принципе, решение не плохое, в том случае, если есть ip и если нужно не так уж и много прокси, в пределах пары десятков.
Если никто не предложит еще какой хороший работоспособный вариант, который не требует доработок.
знаю точно, что socks прокси на php не реализуем. а вот хттп.. буквально вчера вот такой скрипт покрутил:
Для просмотра ссылки Войди или Зарегистрируйся - там описание и сам скрипт. вроде бы работает, с авторизацией и без. единственное, что это закодированная соурсгуардом байда, и станет только на vds, где можно его либу к php прикрутить.
вот еще вот такую Для просмотра ссылки Войди или Зарегистрируйся кто то хвалил.
 
знаю точно, что socks прокси на php не реализуем. а вот хттп..
Либо я что-то пропустил, либо проблема решается так же как и с обычными проксями, только нужно выставить тип прокси
curl_setopt($ch, CURLOPT_PROXYTYPE, CURLPROXY_SOCKS5); // или CURLPROXY_SOCKS4
 
Интернет провайдер с динамическим IP оказывается гораздо эффективней, для парсинга (на Украине довольно распространённое явление).
Можно тут подробнее? У меня действительно Интернет провайдер присваивает динамический IP при каждом заходе. Получается, что когда забанится текущий IP нужно прервать соединение, возобновить связь и продолжить работу с уже новым IP. При этом нужно еще как-то убедить программу сбора параметров подождать, пока идет переподключение. Выглядит громоздко. Или есть автоматизированные решения?
 
Можно тут подробнее? У меня действительно Интернет провайдер присваивает динамический IP при каждом заходе. Получается, что когда забанится текущий IP нужно прервать соединение, возобновить связь и продолжить работу с уже новым IP. При этом нужно еще как-то убедить программу сбора параметров подождать, пока идет переподключение. Выглядит громоздко. Или есть автоматизированные решения?

Зависит от провайдера. Я парсил скриптом и сделать паузу не представляло проблемы.
Для pppoe и vpn подключений срабатывал консольный rasdial (win XP), для другого подключения необходимо mac-адрес сетевой менять для смены ip - тоже можно автоматизировать.

Если подключение по витой паре, смена ip меньше секунды занимает. Если adsl или мобильный интернет - здесь уже 2-10 секунд, что действительно может быть громоздко и долго. Теоретически можно запустить некий скрипт, который каждую минуту-две меняет IP, предложенными выше способами, программа парсящая ПС, если не совсем уж глупая, сможет с таким миганием коннекта справится без потерь в парсинге. Такие или почти такие скрипты иногда можно найти на форуме провайдера.
 
Назад
Сверху