Централизованый Ньюс граббер c раздачей на базе NG

Тема в разделе "NewsGrabber", создана пользователем cosogor, 20 окт 2008.

Статус темы:
Закрыта.
  1. cosogor

    cosogor Писатель

    Регистр.:
    6 окт 2008
    Сообщения:
    6
    Симпатии:
    0
    Есть возможность замутить проект на базе NG который будет :

    - парсить N-ое множество сайтов и RSS каналов (и проч где N будет постоянно расти)
    - модерировать и сортировать контент
    - бесплатно раздавать контент (ну либо за оч умеренную плату) на различные виды CMS

    Прошу высказывать конструктивную критику-пожелания (пожеланя к функционалу, цене, поддерживаемых СМС и тд...).

    Желающих учавствовать в проекте - прошу отдельно писать в личку.
     
  2. DOLARiON

    DOLARiON

    Регистр.:
    4 сен 2006
    Сообщения:
    191
    Симпатии:
    48
    была такая мысль... уже пытался реализовать... но, натолкнулся на следующие проблемы:
    1. большое кол-во источников - очень не хилая нагрузка на проц...
    для сравнения беру один из своих серваков на Core2Quad 6600:
    [​IMG]

    Раз в час запускается парсилка... порядка 30 ресурсов...

    PS. да, сервер сейчас стоит исключительно для парсинга и отображения одного ресурса........... как-то пока больше не повесили на него ничего... :) ....но... вот тепреь думаем как быть... с такой то нагрузкой... :-]

    2. регулярное обновление источников и контроль за ними... Дизайны меняются... расположение блоков тоже... корректировка оформления... и т.д. - даже небольшие изменения влекут за собой отключение источника или не корректное восприятие его граббером.... что может повлечь за собой "корявый" текст на всех сайтах сети...
     

    Вложения:

    • stats.png
      stats.png
      Размер файла:
      9 КБ
      Просмотров:
      144
  3. dee_motard

    dee_motard

    Регистр.:
    26 июл 2008
    Сообщения:
    247
    Симпатии:
    76
    так а почему бы не запускать парсилку на ресурсы по-очереди, а не все сразу.. Как дополнительный ограничитель можно еще шейпером канал парсилке придавить, чтобы медленно сосала сайты, отрабатывание тогда еще больше растянется по времени, уйдем от пиковых нагрузок.
    Хотя если сервак затачивать чисто под эту задачу, то пусть он хоть всё время на 100% будет загружен, лишь-бы с задачей справлялся.. Даже наоборот хорошо - работает на все деньги :D
     
  4. DOLARiON

    DOLARiON

    Регистр.:
    4 сен 2006
    Сообщения:
    191
    Симпатии:
    48
    при таком раскладе дел - "растягивание" отметаем сразу!
    ...ибо если мы рассматриваем ресурс как "ОТЛИЧНЫЙ" источник новостей, то он должен просматривать не менее 100-150, а лучше 200 ресурсов... скажем, с запуском крона раз в 5-10 минут и интервалом проверки источников в 30-60 минут........ иначе просто начнется зацикливание, что предыдущий поток проверок ресурсов еще рабоатет а новый уже повторно првоеряет этот ресурс...(хотя это легко лечится) или дргой вариант что за сутки не будут просматриваться все ресурсы --> нафик он такой сдался... если в нем новости появлятсья будут с задержкой в 2е суток....
     
  5. gramilla

    gramilla Создатель

    Регистр.:
    29 окт 2008
    Сообщения:
    12
    Симпатии:
    0
    А если запускать проверку по 5 - 10 каналов с интервалом в 1 минуту? Думаю за одну минуту 10 каналов спарсить не проблема.
     
  6. DOLARiON

    DOLARiON

    Регистр.:
    4 сен 2006
    Сообщения:
    191
    Симпатии:
    48
    ну допустим что за одну минуты и один источник не сграбится никак......
    можно запускать каешна в несколько потоков........ вернее, только в несколько потоков и покатит тогда... один поток - одна лента...

    вобщем, суть-то вопрсоа в другом... кто источники заносить будет?! :-]
    на них дофига времени уходит...
     
  7. _liberator_

    _liberator_ Постоялец

    Регистр.:
    5 ноя 2008
    Сообщения:
    76
    Симпатии:
    19
    мое личное мнение данной затеи: игра не стоит свеч.. по нескольким причинам:
    1. На данный момент есть куча грабберов с открытым и закрытым кодом и что мешает другому ресурсу так же грабить сайты?
    2. Геморой с раздачей на другие CMS. Разные кодировки, подход к каждому клиенту свой что ли нужен?
    3. Ньюс граббер убийца хостинга - большая нагрузка, нужно будет выделенный сервер делать.
    4. При большом кол-ве статей, новостей нужно будет фильтровать инфу, сравнивать одинаковые статьи, не брать статьи с матом и т.д. и т.п. а это:
    а) доработка скрипта
    б) еще больше нагрузка на сервак.
    в общем то на любую затею можно наковырять много НО, но если на это каждое НО есть решение то почему бы и нет.
    Мое мнение - платформа не подходит, нужно что-то более существенное не на PHP а уже на .NET платформе + для снижения нагрузок AJAX(хотя не уверен что он сильно их снизит) а ИДЕЯ ХОРОШАЯ!:ay:
     
  8. Weil

    Weil

    Регистр.:
    16 дек 2006
    Сообщения:
    234
    Симпатии:
    24
    добавь сюда еще качественный синонимайзер
    поддержка цмс необязательна, просто формируй РСС ленту
     
  9. murich

    murich Постоялец

    Регистр.:
    10 фев 2007
    Сообщения:
    143
    Симпатии:
    19
    уж легче с нуля чем на базе NG
     
  10. DOLARiON

    DOLARiON

    Регистр.:
    4 сен 2006
    Сообщения:
    191
    Симпатии:
    48
    надо сказать что у ньюс граббера мне очень понравилась сама граббилка - очень удобная, хотя и не сильно оптимизированная... теперь юзаю ее еще в нескольких проектах... хотя надо будет переписать - в 5м пхп как-то не работает у меня... :nezn:

    а так.. .если кто-то решистя писать такую штуку - готов помочь :ay:
     
Статус темы:
Закрыта.