Ищу прогу для чистки базы урлов

Тема в разделе "Софт", создана пользователем sergoon, 18 июл 2010.

Статус темы:
Закрыта.
  1. sergoon

    sergoon

    Регистр.:
    21 июл 2008
    Сообщения:
    320
    Симпатии:
    158
    Есть база напарсенных урлов, в несколько десятков тысяч строк, вида:
    http://domen.com/всякая_ненужная_хрень (по типу domen.com/index.php?do=stats)
    нужна прога, после обработки которой выходили урлы типа:
    http://domen.com/ (слеш обязателен)

    1) прога (или скрипт)должна быть бесплатная либо нуленая
    2) должна быстро обрабатывать больште объемы урлов

    заранее благодарю
     
  2. Lazy_bones

    Lazy_bones

    Регистр.:
    11 дек 2008
    Сообщения:
    436
    Симпатии:
    106
    Вот программа
    http://www.nulled.ws/showthread.php?t=8222
    С регуляркой если сам не справишься, то либо поищи(вроде было то, что тебе нужно), либо напиши, там тебе помогут.
     
    sergoon нравится это.
  3. dfcbkbq1

    dfcbkbq1 Постоялец

    Регистр.:
    4 май 2009
    Сообщения:
    88
    Симпатии:
    9
    Эксель,епта :)

    Вставляешь урлы(каждый урл на новой строке) в эксель, выбираешь "использовать мастер импорта текста", выбираешь разделитель - /
    Получаешь в первой ячейке http:, во второй пусто,
    в третьей domen.com, в четвертой всякая_ненужная_хрень.
    Добавляешь нужное кол-во столбцов, в них вставляешь слеш. Копируеш то что надо в нотепад++, заменяешь табы на ничего. и все, домены со слешем у тебя в руках.
    P.S. Дольше писать, чем сделать :) :)
     
    sergoon нравится это.
  4. LEE_ROY

    LEE_ROY

    Регистр.:
    26 янв 2007
    Сообщения:
    205
    Симпатии:
    20
    вспоминал регэкспы, наколдовал регулярку -
     
  5. intraseo

    intraseo

    Регистр.:
    25 май 2010
    Сообщения:
    184
    Симпатии:
    22
    А что именно делает эта регулярка? А если, допустим, у меня есть урл http://www.nulled.ws/showthread/bestuuu/urieo/index.html и нужно, чтобы скрипт убрал данные после последней /, тоесть в данном случае index.html. Как такое сделать?
     
  6. farm

    farm

    Регистр.:
    8 июн 2006
    Сообщения:
    537
    Симпатии:
    106
    В хрумере есть инструмент для этого, тут на форуме ломаная тройка воляеться.
     
  7. LEE_ROY

    LEE_ROY

    Регистр.:
    26 янв 2007
    Сообщения:
    205
    Симпатии:
    20
    после прогона через мою регулярку останется - http://www.nulled.ws/ как ты и писал в 1 посте ;)
     
  8. intraseo

    intraseo

    Регистр.:
    25 май 2010
    Сообщения:
    184
    Симпатии:
    22
    Спасибо Lazy_bones за ссылку на топик по регулярками. С помощью этой чудо ссылки http://www.gskinner.com/RegExr/ дописал регулярку предложенную LEE_ROY до следующего вида ^((https?://)|)([0-9а-яА-Яa-zA-Z\.\-]+/+)+ Последняя из такой ссылки http://www.nulled.ws/bestuuu/urieo/index.html делает такую http://www.nulled.ws/bestuuu/urieo/. Вот так ищется и находится правда. Всем спасибо
     
Статус темы:
Закрыта.