1. Внимание! Строго запрещен ап своих тем чаще чем раз в 7 дней! Если ваши услуги/товары никому не интересны - UP вам не поможет! Хотите чтобы тема была сверху всегда - оплачивайте закрепление!

[Работа] Несложный парсер сайтов

Тема в разделе "Рекламный раздел", создана пользователем Dark Wizard, 21 фев 2014.

Информация :
Статус темы:
Закрыта.
  1. Dark Wizard

    Dark Wizard

    Регистр.:
    23 сен 2007
    Сообщения:
    153
    Симпатии:
    76
    Нужен несложный парсер сайтов, или как прикладная программа (exe), или как проект для datacol (также рассмотрю другие варианты). Нужен для добавления карточек спарсенных сайтов записями в wordpress, в определённую рубрику.

    Исходные данные:
    текстовой файл с url (по одному на строчку), пример в приложении
    артикул и имя рубрики (например, можно как первые две строки в текстовом файле, например: cars, Машины)
    (в файле это <category domain="category" nicename="cars"><![CDATA[Машины]]></category> добавляется в каждую позицию)


    Нужно парсить:
    - заголовок
    - url
    - мета теги: (ключевые слова (keywords), описание (description))
    - мета теги: язык (Content-language), кодировка (Content-Type - charset), автор (Author), мета Robots.
    - скриншот сайта (небольшой, jpg, называть как url и класть в папку images, например).

    Соответственно, всё парсится, если есть.

    На выходе - простой xml файл (в приложении пример).

    Дополнительно:
    - определять кодировку сайта и, если нужно конвертировать. Все результаты сохранять в utf-8.
    - все данные нужно проверять на спецсимволы, sql резервированные слова и т.п. Стандартная обработка для безопасности.
    - проверить работу с кириллическими доменами
    - помечать недоступные сайты (лучше их списком отдельно сохранять)
    - в идеале, возможность ставить на паузу и продолжать позже
    - работа с большими объёмами, до 100 000 URL

    Возможно, в будущем потребуются какие-то доработки, оплачу отдельно по договорённости.

    Оплата yandex.деньги / wmr / qiwi.

    Пишите сроки/цену сюда / в ЛС / на dwmobile@yandex.ru
     

    Вложения:

  2. Dark Wizard

    Dark Wizard

    Регистр.:
    23 сен 2007
    Сообщения:
    153
    Симпатии:
    76
  3. Dark Wizard

    Dark Wizard

    Регистр.:
    23 сен 2007
    Сообщения:
    153
    Симпатии:
    76
    Не актуально. Купил datacol, ушло время на настройку, конечно, но делает всё как надо, кроме скриншотов.
     
Статус темы:
Закрыта.