1. Задавайте здесь вопросы о коде, которые не подходят в другие разделы, такие как:
    Дизайн > Верстка
    PHP > Как сделать на PHP
    Скрыть объявление

Грабинг подписей на форумах

Тема в разделе "Web Coding", создана пользователем dig555, 25 фев 2008.

Статус темы:
Закрыта.
Модераторы: latteo
  1. dig555

    dig555

    Регистр.:
    22 июн 2007
    Сообщения:
    363
    Симпатии:
    148
    Вопрос большей частью теоретический. Информация нужна для разработки концепции будущего сайта и написания ТЗ. На данном этапе интересует скорее принципиальная возможность реализации конкретной задачи средствами PHP. Сама реализация пока особо не нужна. Но если кто-то сталкивался с подобными решениями - просьба ткнуть носом. Итак, вопрос.

    Есть порядка 30 форумов на стандартных распространённых движках. Форумы защищённые - все со сложной капчой и дерзкими админами. Но пользовательские аккаунты на всех этих форумах есть. Нужно собрать в MySQL базу подписи (signature) всех пользователей, у которых количество сообщений больше n. Чтобы впоследствии делать выборки по указанным параметрам. Возможно? Если да, то насколько сложна и времезатратна подобная задача для программистов?
     
  2. durman

    durman Постоялец

    Регистр.:
    18 фев 2008
    Сообщения:
    87
    Симпатии:
    8
    на сколько я понял доступа к бд форумов нет поэтому вам нужен webspider, который будет обходить заданный форум. реализация такого спайдера зависит от структуры форума, но в большенстве своём все распространённые движки имеют разделы типа "участники" или "пользователи" вот его и надо будет просканировать.
    по срокам я бы сказал 5(+-2) дней на один тип форума, зависит например надо ли вам многопоточность, запуск из под консоли или через веб и т.д.

    и ещё имхо писать такое на php - извращение, для таких целе й как нельзя лучше подходит perl.
     
    dig555 нравится это.
  3. dig555

    dig555

    Регистр.:
    22 июн 2007
    Сообщения:
    363
    Симпатии:
    148
    Ну был бы доступ к базам - не было бы вопросов. В принципе язык реализации не столь важен - абы работало. Ситуация усложняется тем, что предстоит периодически проверять соответствие подписей на форумах и подписей в базе между собой.
     
  4. Dogmat

    Dogmat Постоялец

    Регистр.:
    16 фев 2007
    Сообщения:
    122
    Симпатии:
    38
    :D
    поостерегись таких смелых высказываний =)
    лучше скажи что это "лучше" писать на perl, по той причине , что это будет быстрее работать. но никак в том виде, что ты сказал.

    впринципе средний срок - такой и есть. остальное зависит от цены вопроса. можно и за день это сделать =)
     
    dig555 нравится это.
  5. nick1m

    nick1m Постоялец

    Регистр.:
    20 фев 2008
    Сообщения:
    119
    Симпатии:
    8
    у тебя есть список путей к данным разделам по разным движкам? если есть, не мог бы выложить, то же нужно, но для других целей
     
  6. durman

    durman Постоялец

    Регистр.:
    18 фев 2008
    Сообщения:
    87
    Симпатии:
    8
    ну вся это проверка сводиться к повторному запуску спайдера и заполнении твой бд заново.

    я высказал свою мысль (как бы я это делал) т.к. я делал подобные спайдеры, но не для форумов. Поэтому списка у меня нет, но не вижу проблемы его собрать (только не надо предлагать мне это сделать :) )
     
  7. nick1m

    nick1m Постоялец

    Регистр.:
    20 фев 2008
    Сообщения:
    119
    Симпатии:
    8
    каким-то боком вышло так, я подумал, что пост топикстартера, когда отвечал, голова устала :)
    вообщем тогда просьбу ему переадресовываю, все равно собирать придётся, может поделишься
     
  8. dig555

    dig555

    Регистр.:
    22 июн 2007
    Сообщения:
    363
    Симпатии:
    148
    Может и поделюсь;) Когда до реализации дойдёт. Не торопись.
     
  9. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    фактически задача представляет из себя парочку регэкспов, да пару вложенных циклов.
    список регэкспов:
    1 - регэксп для раздела списка пользователей (чтобы вынуть адреса страниц пользователей), с учетом того что страниц много. т.е. на выходе это количество страниц, и все ссылки на пользователей с этой странице... крутим в цикле для всех страниц.
    2 - регэксп который парсит страницу пользователя и вынимает из нее два параметра - собственно подпись и количество сообщений пользователя.
    3 -повторяем это столько раз сколько у нас существенно отличающихся форумов... т.е. на разных движках или с сильно разными дизайнами.

    в принципе сложность сильно зависит от того настолько разнообразными выйдут регэкспы.
    В сроках оценить сложно, могу сказать свое мнение в деньгах.
    собственно парсер на один форум это гдето сотка баксов (от полдня до двух дней работы довольно квалифицированного програмера) +20$ на каждый новый... (тот который не похож на другой).. сумарно на 30 форумов с проверкой и тп это 300$.
    Но это если в лоб заказывать... а если самому писать, или наполовину сам, только с подсказками, то может и меньше... также есть люди не ценящие свою работу :)
    ну и может оказаться что форумы у вас настолько похожи что вообще одного варианта хватит... так что это скорее информация для более точной оценки :)
    PS: по времени это гдето в неделю...
     
    dig555 нравится это.
  10. Dogmat

    Dogmat Постоялец

    Регистр.:
    16 фев 2007
    Сообщения:
    122
    Симпатии:
    38
    мда ... с математикой конечно неполадки ;)
    если за 30ф. 300$ - это по 10$ за штуку ... непонятно в таком случае куда пропали первые 90$ и еще 29*10$ с каждого ф.
    если все же считать по твоей первой закидке , то это = 680$ :)

    зы. со все остальным вполне согласен, разве что с самой суммой еще не согласен - поскольку все это убивалка времени, и опытный прог врятли возьмется за такие деньги в такие сроки.
     
    dig555 нравится это.
Статус темы:
Закрыта.