Простая серверная парсилка поисковиков

Тема в разделе "Мелочи", создана пользователем tuo34, 14 май 2008.

Статус темы:
Закрыта.
  1. tuo34

    tuo34 Постоялец

    Регистр.:
    24 апр 2008
    Сообщения:
    59
    Симпатии:
    15
    Нашел, не помню где, серверную парсилку, решил исправить в ней пару ошибок, добавить интерфейс, логирование.
    Новичкам (как мне) для первых задач, думаю, сгодится. Делалось на скорую руку, так что если кто что прикрутит
    интересное, выкладывайте ;)
    Парсит гугл, яху, мсн, 10 серпов по сто, мсн парсить можно без задержки и прокси, не банит.
    Ставим на денвер, либо что либо подобное, mysql не требуется. max_execution_time выставить в ноль.
     

    Вложения:

    • parser.rar
      Размер файла:
      5,4 КБ
      Просмотров:
      100
    stronciy и see нравится это.
  2. stronciy

    stronciy Писатель

    Регистр.:
    27 фев 2008
    Сообщения:
    3
    Симпатии:
    0
    а как без бана

    не скромный вопрос, а как можно обойти бан гугла, га частые запросы ? или хотябы получить капчу, чтоб вручную вбить и скрипт продолжил - работать ? :nezn:
     
  3. quick

    quick Постоялец

    Регистр.:
    24 май 2008
    Сообщения:
    56
    Симпатии:
    24
    В каком формате ей надо скармливать файл запросов? Я положил его в директорию с парсилкой, указал имя (xyz.txt), пишет, "pattern is empty, fill pattern".
     
  4. qqq

    qqq Прохожие

    Такая же ошибка ,и неясно что такое Pattern File Name
     
  5. tuo34

    tuo34 Постоялец

    Регистр.:
    24 апр 2008
    Сообщения:
    59
    Симпатии:
    15
    в паттерн файл нэйм надо прописывать желаемое имя файла, создавать его не надо, она сама создаст,
    а в поле паттерн, большое, надо построчно прописать свои запросы, проэскейпленные.
    обойти бан гугла можно только используя прокси и в много потоков. этот скрипт можно доработать, но пока времени нет.
    мсн не банит, так что его можно парсить сколько угодно
     
  6. jacksoft

    jacksoft

    Регистр.:
    22 мар 2007
    Сообщения:
    595
    Симпатии:
    460
    Это типа моя грабилка но кем-то дописана морда к ней :)
    Вот новая версия без майскл и потоков, но с замешиванием доменов и удалением дублей.
    Интерфейс натягивайте сами :)
    Патерны уже можна писать в простом тексте.

    я запускаю в консоли
    php -f grap.php

    Посмотреть вложение js_grabber.rar

    P.S. Читайте config.php там все по русски ;)
    Не пугайтесь - но временная запись грабленного тут убрана - это нужно для проверки на дубли и правильного чекинга форм. Так что результат ляжет на диск только после окончания ВСЕЙ работы. Так что думайте перед тем как пихать ему задания - планируйте время.
     
  7. tuo34

    tuo34 Постоялец

    Регистр.:
    24 апр 2008
    Сообщения:
    59
    Симпатии:
    15

    jacksoft спасибо за парсилку, я там и написал, что нашел ее, потом прикрутил интерфейс :)
    qqq
    интерфейс легко прикрутить, знаний php очень мало надо. время будет, допишу :)

     
    jacksoft нравится это.
  8. jacksoft

    jacksoft

    Регистр.:
    22 мар 2007
    Сообщения:
    595
    Симпатии:
    460
    Крути конечно.
     
  9. jacksoft

    jacksoft

    Регистр.:
    22 мар 2007
    Сообщения:
    595
    Симпатии:
    460
    В теме по модификации редбаттона выложена новая версия с проксями и потоками.
     
  10. Igr

    Igr

    Регистр.:
    11 май 2006
    Сообщения:
    295
    Симпатии:
    17
    сорри,не могу найти чёто ,если не сложно дай ссылочку
     
Статус темы:
Закрыта.