[FreeWare] Парсинг всех сайтов DMOZ

Zloy HACKER

Постоялец
Заблокирован
Регистрация
25 Окт 2012
Сообщения
132
Реакции
24
  • Автор темы
  • Заблокирован
  • #1
Инструкция парсинга:
  1. Скачиваем базу всех сайтов DMOZ по адресу - Для просмотра ссылки Войди или Зарегистрируйся
  2. В сжатом виде на данный момент он весит 277 МБ. После распаковки — 1,8 Гб. Однако кроме ссылок в этом файле находится много другой информации о структуре их размещения.
  3. Отделим ссылки от неё.
  4. Кладем распакованный файл в какую-нибудь папку на вашем веб-сервере и заливаем туда прикрепленный PHP файл.
  5. Запускаем скрипт (Не останавливать скрипт до окончания процесса)
  6. Скачиваем сгенерированный links.txt с сервера.
 

Вложения

  • parse.zip
    368 байт · Просмотры: 50
можно увидеть пример полученный на выходе?
 
фигня там получается. пришлось править полностью, но по крайней мере добился нормальной работы. каждый домен в с новой строки. если надо, то выложу скрипт. вот только чем обрабатывать такой объем инфы??? полчается более 8 мульёнов доменов. закинул 1 лимон в Domain Name Analyzer. А она уже сутки не может их просто в базу к себе занести. За сутки только 55% обработала. И это еще не проверка доменов, а только добавление в саму прогу. Сколько она еще их чекать будет? не понятно.
 
  • Заблокирован
  • #4
фигня там получается. пришлось править полностью, но по крайней мере добился нормальной работы. каждый домен в с новой строки. если надо, то выложу скрипт. вот только чем обрабатывать такой объем инфы??? полчается более 8 мульёнов доменов. закинул 1 лимон в Domain Name Analyzer. А она уже сутки не может их просто в базу к себе занести. За сутки только 55% обработала. И это еще не проверка доменов, а только добавление в саму прогу. Сколько она еще их чекать будет? не понятно.
Ну как успехи? какой результат?
 
фигня там получается. пришлось править полностью, но по крайней мере добился нормальной работы. каждый домен в с новой строки. если надо, то выложу скрипт. вот только чем обрабатывать такой объем инфы??? полчается более 8 мульёнов доменов. закинул 1 лимон в Domain Name Analyzer. А она уже сутки не может их просто в базу к себе занести. За сутки только 55% обработала. И это еще не проверка доменов, а только добавление в саму прогу. Сколько она еще их чекать будет? не понятно.
Если не затруднит,то выложи правленный скриптик.
И можно добиться чтобы он записывал результат в виде Для просмотра ссылки Войди или Зарегистрируйся
Каждый домен с новой строки естественно,но самое главное чтобы записывался именно домен без дерикторий сайта.
 
Назад
Сверху