Быстрый и функциональный X-Parser

Тема в разделе "Автоблоггинг", создана пользователем reboRn, 15 окт 2010.

Статус темы:
Закрыта.
  1. reboRn

    reboRn

    Регистр.:
    19 июл 2007
    Сообщения:
    277
    Симпатии:
    14
    Самый быстрый из известных мне PHP парсеров – парсер контента X-Parser.
    Что это вообще такое

    Многофункциональный модульный многопоточный универсальный парсер, который в полной сборке позволяет делать следующее:

    1. Парсить выдачу любых поисковых систем по ключевым фразам сохраняя сниппеты и ссылки.
    2. Парсить контент (текстовый) с любого сайта по заданному домену.
    3. Парсить контент (текстовый) по ключевым фразам из выдачи любой ПС.
    4. Парсить контент (текстовый) по заданному списку URLов.
    5. Парсить внутренние ссылки с любого URLа в частности или сайта в целом.
    6. Парсить внешние ссылки с любого URLа в частности или сайта в целом.

    Прокси чекер в комплекте

    Чтобы можно было парсить неограниченное количество контента, парсер комплектуется таким же быстрым прокси чекером. Он позволяет:

    1. Проверять прокси по заданному списку проксилистов.
    2. Проверять прокси по списку проксей.
    3. Проверять индивидуально любой прокси.
    4. Отбирать из списка качественные проксилисты.
    5. Парсить списки прокси из выдачи Google и отбирать качественные.

    Проверка прокси происходит с привязкой к цели использования! Например, если Вы хотите использовать прокси для парсинга Google, то его можно легко настроить, чтобы сразу отбирать только прокси сервера, незабаненные Google.
    Производительность парсера

    Ну а теперь самое интересное. Парсер контента X-Parser использует многопоточность. Количество потоков настраивается. Скорость парсинга на мегабитном канале составляет примерно 160 секунд на 1 мегабайт чистого текста, т.е. 500 мегабайт в сутки!!!

    Скорость проверки прокси составляет около 100 прокси за 100 секунд, то есть за 100 секунд будет найдено примерно 100 рабочих прокси.
    Модульность и интеграция в сторонние приложения

    Исходный код выполнен модульно. Каждый модуль имеет свои параметры и функции. Без проблем встраивается в любой другой код, например в доргены. Изначально парсер писался для интеграции в сторонний код, поэтому в безинтерфейсном варианте он очень гибок и удобен в использовании (абсолютно все можно настраивать под свои нужды). В интерфейсном варианте вынесены только базовые настройки для удобства использования парсера без наличия знаний в области PHP.
    Функционал версий:

    X-Parser-FREE: Содержит в себе парсер сниппетов и парсер контента по списку URL. Позволяет парсить сниппеты только с Google и Yandex. Парсер контента парсит не более 10 URL за заход. Служит как демонстрационная версия для оценивания качества контента на выходе. Так же может использоваться как полноценный парсер контента, но с очень ограниченным функционалом. Сборка произведена на базе фильтров X-Parser-PRO:

    X-Parser-LIGHT: Содержит в себе:

    * Парсер сниппетов с ПС
    * Парсер ссылок с ПС
    * Парсер контента по списку ключевиков
    * Парсер контента по списку URL
    * Парсер контента по списку доменов (производит парсинг контента с сайтов на всю глубину)
    * Парсер внутренних ссылок по списку доменов (парсит сайты на всю глубину и собирает все внутренние ссылки)
    * Парсер внешних ссылок по списку доменов (парсит сайты на всю глубину и собирает все внешние ссылки)
    * Проксичеккер
    * Чеккер проксилистов (отбирает качественные проксилисты из общего списка)
    * Парсер картинок с флик.ком (бесплатное дополнение, позволяет парсить изображения по запросам и изменять их размер под Ваши нужды)

    Позволяет парсить Google, Yandex, Yahoo, Altavista, Aol, Bing. Имеет вывод текста без разметки (под дорвеи) и с разметкой (заголовки, абзацы) в формат Textkit и собственный формат с разделителем . Версия имеет минимум вынесенных настроек и идеально подходит для неопытных пользователей

    X-Parser-PRO: Содержит:

    * Парсер сниппетов с ПС
    * Парсер ссылок с ПС
    * Парсер контента по списку ключевиков
    * Парсер контента по списку URL
    * Парсер контента по списку доменов (производит парсинг контента с сайтов на всю глубину)
    * Парсер внутренних и внешних ссылок по списку доменов или URL (парсит сайты на указанную глубину и собирает все внутренние и/или внешние ссылки)
    * Проксичеккер
    * Чеккер проксилистов (отбирает качественные проксилисты из общего списка)
    * Парсер картинок с различных источников

    Усовершенствования, по сравнению с LIGHT-версией:

    * Усовершенствованная система фильтров отпарсенного контента, которая дает на выходе максимально отфильтрованный контент
    * Вынесенные настройки, которые позволят максимально гибко управлять каждым парсером
    * Позволяет самостоятельно собирать парсеры любых поисковых систем
    * Сохранение пресетов настроек
    * Фильтры по стоп-словам и/или включениям слов или фраз
    * Позволяет самостоятельно настраивать любые языки парсинга
    * Позволяет самостоятельно настраивать форматы вывода отпарсенного контента
    * Позволяет сохранять статьи как в один файл (группировка по ключевикам), так и в отдельные файлы
    * Позволяет управлять таймаутом обращения к ПС и начайльной позицией, с которой парсить выдачу
    * Позволяет находить заданное количество статей


    Так же мне удалось навернуть на уже конечную версию парсер видио для вставки на сайт, конечно же по запросу.
    Ну и еще я расширил возможности экспорта, добавил земрум лайт.

    Что еще вообще можно добавить в фунционал интересного и нужного?

    Пока из всех виденных мной парсеров это самый быстрый и функциональный.
     
  2. kactetus

    kactetus митя is here )

    Регистр.:
    26 авг 2007
    Сообщения:
    441
    Симпатии:
    278
    Reborn что ты с разделом ошибся. Надо было в Рекламный раздел. Ты пользуешся им?
    А по поводу скрипта, на сколько качественный выходит текст, если парсить по ключевому запросу в ПС? Нет проблем с кодировкой, а то в фри версии постоянно лезят кракозябры?
     
  3. reboRn

    reboRn

    Регистр.:
    19 июл 2007
    Сообщения:
    277
    Симпатии:
    14
    Я им пользуюсь и продаю нулледовцем со скидкой.
    С темой что ошибся прошу прощения, минут 5 думал куда запостить.
    Рекламного раздела не увидел.

    Из всех что пользовал этот наиболее адекватен. Позже наверное выложу пример парсенного текста статей.
    Краказябров не разу не было сколько пользовал. С кодировкой проблем не наблюдалось.


    Просьба модераторам, перенесите пожалуйста тему в правильный раздел. Извиняюсь что не туда запостил!
     
  4. KARAT

    KARAT

    Регистр.:
    15 мар 2007
    Сообщения:
    508
    Симпатии:
    873
    http://forum.searchengines.ru/showpost.php?p=7820599&postcount=32


    а по сути, есть неплохой десктопный парсер - ZParser - автора даже побанили на серче за тему:-]
     
  5. reboRn

    reboRn

    Регистр.:
    19 июл 2007
    Сообщения:
    277
    Симпатии:
    14
    не совсем санкционированное с автором понижение цены, люди не допоняли друг друга, насколько я знаю цену понижать пока не будем, если будем, то первый пост я подравлю, но пока не планировалось
     
  6. reboRn

    reboRn

    Регистр.:
    19 июл 2007
    Сообщения:
    277
    Симпатии:
    14
    В течение 4х дней по заявкам всех переживающих и тп цена снижена до 30\50уе 30 лайт, 50 про. Отдасться 4 копии. Через 4 дня цена вернется до 80\160 уе. Намечаются доработки по расширению функционала и вкусных плюшек.
     
  7. An_To_Ha

    An_To_Ha Постоялец

    Регистр.:
    10 фев 2009
    Сообщения:
    128
    Симпатии:
    46
    интересно на скольких машинах его можно запускать?
     
  8. reboRn

    reboRn

    Регистр.:
    19 июл 2007
    Сообщения:
    277
    Симпатии:
    14
    Привязка по айпи, и еще пару методов. При желании можно договориться чтоб старую версию заблокировали, и привязали новую.
     
Статус темы:
Закрыта.