скачивание robots.txt

Тема в разделе "Десктопный Linux", создана пользователем absurdo, 23 ноя 2010.

Модераторы: Цукер
  1. absurdo

    absurdo

    Регистр.:
    22 мар 2007
    Сообщения:
    314
    Симпатии:
    8
    подскажите пожалуйста скрипт для решения такой задачи: есть файл со списком адресов сайтов, каждый сайт с новой строки, адрес начинается с http:// Нужно скачать файл robots.txt у каждого сайта, и сохранить с именем домена, например: mysiteru.txt (содержит robots.txt сайта mysite,ru), mysitecomua.txt (mysite.com.ua), subdomainmysitenet.txt (subdomain.mysite.net).
     
  2. ask0n

    ask0n

    Регистр.:
    9 июн 2009
    Сообщения:
    227
    Симпатии:
    63
    Код:
    cat filename | awk -F/ '{print $0" -O "$3}' | xargs -L1 wget
    Это если в файле есть полный путь к robots.txt в URL, если нет, тогда так:
    Код:
    cat filename | awk -F/ '{print $0"/robots.txt -O "$3}' | xargs -L1 wget
     
    absurdo нравится это.
  3. absurdo

    absurdo

    Регистр.:
    22 мар 2007
    Сообщения:
    314
    Симпатии:
    8
    спасибо, на выходных будет доступ к никсу, попробую.
     
  4. rayahari

    rayahari Постоялец

    Регистр.:
    14 дек 2010
    Сообщения:
    83
    Симпатии:
    6
    А в каком формате сохранить этот скрипт? Или каждый раз через терминал проганять?
     
  5. absurdo

    absurdo

    Регистр.:
    22 мар 2007
    Сообщения:
    314
    Симпатии:
    8
    в формате bash