Обработка ссылок. Подскажите скрипт или софтину.

Тема в разделе "Мелочи", создана пользователем stakh, 13 апр 2009.

Статус темы:
Закрыта.
  1. stakh

    stakh Создатель

    Регистр.:
    29 мар 2008
    Сообщения:
    37
    Симпатии:
    0
    Здравствуйте.
    Искал через поиск, как на форуме, так и гуглом, но ничего не нашел, поэтому и задаю вопрос тут в отдельной теме.

    Нужен скрипт или софтина для преобразования ссылок из вида
    в
    То есть нужно, чтобы скрипт убирал все, что после третьего слеша и сохранял результаты в отдельный файл.
    У кого-то есть такая вещь?
    Заранее благодарен.
     
  2. swed

    swed

    Moderator
    Регистр.:
    17 апр 2008
    Сообщения:
    509
    Симпатии:
    494
    Можно слить хрумак, там в инструментах есть такое.
    В 3 уже должен быть, на сколько помню.
     
  3. stakh

    stakh Создатель

    Регистр.:
    29 мар 2008
    Сообщения:
    37
    Симпатии:
    0
    swed, пробывал. Не получилось. Может есть что-то специализированное?
     
  4. Dozep

    Dozep

    Регистр.:
    5 авг 2008
    Сообщения:
    170
    Симпатии:
    37
    YCCY тебе в помощь
    http://www.yccy.ru/?yccyprog
    заходишь в Индексатор, открываешь файл, там жмешь кнопку only host и вуаля:)
    ps 3й слеш прога тоже убирает
     
  5. petr24st

    petr24st Создатель

    Регистр.:
    5 фев 2009
    Сообщения:
    29
    Симпатии:
    5
    Вот, скрипт на php


    PHP:
    <?php
      $urls
    =file("input.txt");
      
      
    $host_list=array();
      foreach(
    $urls as $item)
      {
        
    $url=parse_url($item);
        
    $host_list[]="http://".$url['host']."/";
      }
      
    $host_list=array_unique($host_list);
      
      
    $fp=fopen("output.txt","w");
      
    fwrite($fp,implode("\n",$host_list));
    ?>
    в папке с ним должен быть файл input.txt с ссылками(на каждой строке по ссылке), после запуска создается файл output.txt в той же папке с уникальными хостами
     
    stakh нравится это.
  6. deling2

    deling2

    Регистр.:
    27 янв 2008
    Сообщения:
    326
    Симпатии:
    216
    http://kak-tak.com/content/getdomains-v20-poluchenie-chistykh-sabdomenovdomenov-iz-adresov
    работает весьма шустро
     
  7. stakh

    stakh Создатель

    Регистр.:
    29 мар 2008
    Сообщения:
    37
    Симпатии:
    0
    petr24st, спасибо.
    Самое оно. Очень признателен, только один вопрос - в какой кодировке выходит файлик output.txt?
     
  8. petr24st

    petr24st Создатель

    Регистр.:
    5 фев 2009
    Сообщения:
    29
    Симпатии:
    5
    выходит в win-1251 по идее
     
  9. stakh

    stakh Создатель

    Регистр.:
    29 мар 2008
    Сообщения:
    37
    Симпатии:
    0
    Странно, но блокнот почему-то его не в винде видит. :)
     
  10. Crucifer

    Crucifer

    Регистр.:
    6 фев 2007
    Сообщения:
    517
    Симпатии:
    249
    Там стандартная кодировка ANSI выходит, ты чего привязался к человеку? Скрипт его работает. :)
     
Статус темы:
Закрыта.