Парсинг хитрого листа прокси

Тема в разделе "Регулярные выражения", создана пользователем dig555, 30 май 2009.

Статус темы:
Закрыта.
Модераторы: xpert13
  1. dig555

    dig555

    Регистр.:
    22 июн 2007
    Сообщения:
    362
    Симпатии:
    148
    Есть сайт http://hidemyass.com/proxy-list/All-Countries/fast/hide-planetlab/0/ со списком прокси.
    Порт к каждому прокси - даётся в виде картинки.
    Нужно получить массив вида:
    адрес прокси - соответствующий ему урл картинки.
    Помогите, пожалуйста, регуляркой.:thenks:
    Дальше я думаю собрать все изображения портов и вычислить их md5. И соответственно, определять по хешу номер порта. :-]
    Или есть какие-то иные варианты? Не на антикапчу же отправлять...
     
  2. krivov

    krivov Постоялец

    Регистр.:
    24 дек 2007
    Сообщения:
    142
    Симпатии:
    19
    я могу напарсить... только как ты собираешься из урла картинки получить её md5
    получиться так?
     
  3. tarantas

    tarantas Постоялец

    Регистр.:
    22 мар 2008
    Сообщения:
    75
    Симпатии:
    14
    PHP:
    preg_match_all("/<td>\s*([0-9\.]+)\s*<\/td>.*<td><img src=\"(.+)\"/iUs"$html$matches);
    $matches[1], $matches[2]

    С мд5 картинки - это ты круто придумал. :)
     
    dig555 нравится это.
  4. krivov

    krivov Постоялец

    Регистр.:
    24 дек 2007
    Сообщения:
    142
    Симпатии:
    19
    dig555 нравится это.
  5. dig555

    dig555

    Регистр.:
    22 июн 2007
    Сообщения:
    362
    Симпатии:
    148
    Очень просто - копируем картинку к себе на хост, а потом через md5_file() получаем её слепок (хеш тобишь). Прописываем соответствия. И тогда я буду знать, что, например, строке b8c6d9167dc2e7e41dfa2df7ff9498f5 соответствует 80 порт.
     
  6. krivov

    krivov Постоялец

    Регистр.:
    24 дек 2007
    Сообщения:
    142
    Симпатии:
    19
    как успехи? можешь поделиться списком? ;)
     
  7. tostrss

    tostrss

    Регистр.:
    16 окт 2007
    Сообщения:
    771
    Симпатии:
    217
    приколюшка)
    http://hidemyass.com/proxy-list/port.php?server=

    а вообще алгоритм с md5 очень медленный..там кстати, есть параметр c отвечает за цвет фона, его учитывайте тоже ,чтоб везде одинаковым был при анализе.
     
    Ragger нравится это.
  8. ximix

    ximix Прохожие

    алгоритм с md5 не медленный, а совсем неподходящий. файлы разные на выходе. и их не анализировать, а прогонять через OCR надо.

    под никсами проще, но есть варианты и под вынь. откапал у себя пару тулз урезанный finereader стометровый и из другой оперы convert.exe
    распазнается ессно 100%, времени 3 сек примерно, но можно и точнее замерить.

    прокси штука хорошая, пока они в BL не засветились... те же 1к проксей, что на ресурсе выше баловства ради умирают уже через полчаса. нужно или реально хорошое кол-во от 50к или пользовать там, где админы ушли в отпуск и про BL не слышали.
     
  9. Ragger

    Ragger

    Регистр.:
    14 июн 2008
    Сообщения:
    167
    Симпатии:
    183
    dig555 нравится это.
  10. mff4

    mff4 Постоялец

    Регистр.:
    2 апр 2008
    Сообщения:
    112
    Симпатии:
    15
    dig555, а не легче насканить проксей, чем этот паблик собирать? :-]
     
Статус темы:
Закрыта.