Регулярка для поиска прокси

Статус
В этой теме нельзя размещать новые ответы.

balcon

Создатель
Регистрация
13 Ноя 2008
Сообщения
39
Реакции
7
Добрый день, помогите пожалуйста составить регулярное выражение для поиска прокси(xxx.xxx.xxx.xxx:yyyy) на странице.
 
Код:
/(?:([1-9]\d{0,2}\.[1-9]\d{0,2}\.[1-9]\d{0,2}\.[1-9]\d{0,2})(?:[\D]*)([1-9]\d{0,5}))/
PS регулярка выдает в отдельные переменные IP и порт
PPS максимальное количество цифр в порте не 4 как ты указал, а 5 (65535)
 
Спасибо, буду пробывать.
 
Вот была бы регулярка которая тащила бы прокси из таблиц...
 
Вот была бы регулярка которая тащила бы прокси из таблиц...
из HTML-таблиц?
эта должна отлично тащить. она из любого текстового формата должна тащить
если у вас не работает, приведите пример страницы, посмотрим
 
  • Заблокирован
  • #6
Вот была бы регулярка которая тащила бы прокси из таблиц...
Может ты имеешь в виду с картинок?
С таблиц он спокойно тянет.
Или ты имеешь в виду те таблицы где порт в отдельной ячейке?
 
Приведенный выше регвыр работает, но не всегда правильно. Приведу пример: вот список прокси:

172.168.54.2:123455
888.888.888.888:234
115.015.12.45:8080

Регвыр, приведенный выше, спарсит первые 2 и не спарсит последний. т.е. один верный из трех.

Лучше использовать этот:

Код:
^([01]?\d?\d|2[0-4]\d|25[0-5])\.([01]?\d?\d|2[0-4]\d|25[0-5])\.([01]?\d?\d|2[0-4]\d|25[0-5])\.([01]?\d?\d|2[0-4]\d|25[0-5])(?:[\D]*)([1-9]\d{0,5})


Он нашел как раз первый и третий.

Ну, или можно попроще:
Код:
([0-9]+\.){3}[0-9]+(?:[\D]*)([1-9]\d{0,5})

Этот регвыр спарсит все 3. Главное, он не пропустит валидный проксик)
 
Из таблиц тоже можно :) Для начала надо представить HTML в текстовом виде - самый банальный вариант выкусить все тэги, далее, большая вероятность, что после выкусывания получится что-то типа 123.123.123.123.132 (это ип) (тут пробелы и переводы строк) 2342 (а это порт)
 
Вот интересная задача определить что это именно прокси, а не просто какой-то ip:port, а то проверять замучаетесь. Хотя, смотря откуда грабить, конечно.
 
Это уже прокси чекером, к регуляркам отношения не имеет.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху