[FreeWare] Парсинг всех сайтов DMOZ

Тема в разделе "SEO Скрипты", создана пользователем Zloy HACKER, 13 ноя 2012.

  1. Zloy HACKER

    Zloy HACKER Постоялец

    Заблокирован
    Регистр.:
    25 окт 2012
    Сообщения:
    133
    Симпатии:
    24
    Инструкция парсинга:
    1. Скачиваем базу всех сайтов DMOZ по адресу - http://rdf.dmoz.org/rdf/content.rdf.u8.gz
    2. В сжатом виде на данный момент он весит 277 МБ. После распаковки — 1,8 Гб. Однако кроме ссылок в этом файле находится много другой информации о структуре их размещения.
    3. Отделим ссылки от неё.
    4. Кладем распакованный файл в какую-нибудь папку на вашем веб-сервере и заливаем туда прикрепленный PHP файл.
    5. Запускаем скрипт (Не останавливать скрипт до окончания процесса)
    6. Скачиваем сгенерированный links.txt с сервера.
     

    Вложения:

    • parse.zip
      Размер файла:
      368 байт
      Просмотров:
      49
    KalagenS, igorus22 и crc нравится это.
  2. XUC

    XUC Ушел в небытие

    Регистр.:
    3 сен 2006
    Сообщения:
    810
    Симпатии:
    505
    можно увидеть пример полученный на выходе?
     
  3. Shotlandec

    Shotlandec

    Регистр.:
    17 сен 2007
    Сообщения:
    728
    Симпатии:
    162
    фигня там получается. пришлось править полностью, но по крайней мере добился нормальной работы. каждый домен в с новой строки. если надо, то выложу скрипт. вот только чем обрабатывать такой объем инфы??? полчается более 8 мульёнов доменов. закинул 1 лимон в Domain Name Analyzer. А она уже сутки не может их просто в базу к себе занести. За сутки только 55% обработала. И это еще не проверка доменов, а только добавление в саму прогу. Сколько она еще их чекать будет? не понятно.
     
  4. Pro100r

    Pro100r Постоялец

    Заблокирован
    Регистр.:
    3 мар 2009
    Сообщения:
    132
    Симпатии:
    8
    Ну как успехи? какой результат?
     
  5. alerod

    alerod Писатель

    Регистр.:
    9 янв 2013
    Сообщения:
    1
    Симпатии:
    0
    Если не затруднит,то выложи правленный скриптик.
    И можно добиться чтобы он записывал результат в виде http://www.site.ru/
    Каждый домен с новой строки естественно,но самое главное чтобы записывался именно домен без дерикторий сайта.