Кто чем и откуда парсит контент?

Тема в разделе "Мегафлуд", создана пользователем Hilo, 27 июн 2011.

?

Каким парсером контента вы пользуетесь?

  1. Content Downloader

    54,8%
  2. sjs парсер

    2,4%
  3. X-Parser

    9,5%
  4. Datacol

    0 голосов
    0,0%
  5. самопис

    16,7%
  6. другой

    16,7%
  1. Hilo

    Hilo

    Moderator
    Регистр.:
    31 мар 2008
    Сообщения:
    911
    Симпатии:
    568
    Кто чем и откуда парсит контент?
    У самого лицензия замечательного софта content downloader и парсинг чаще произвожу с lib.ru/

    Суть создания темы ещё и в том чтобы узнать кто больше парсит софтом что у меня и обмениваться проектами. Уже много шаблонов, думаю что можно было-бы и обмениваться ими или допустим приватку устроить
     
  2. zyzy

    zyzy Постоялец

    Регистр.:
    10 янв 2009
    Сообщения:
    139
    Симпатии:
    31
    Content Downloader
    Давно приобрёл лицуху. Граблю в основном стройку.
    Очень ищу шаблоны интернет магазинов популярных. Поделитесь кто может.
     
  3. cwman

    cwman

    Регистр.:
    4 май 2008
    Сообщения:
    465
    Симпатии:
    549
    А в чём смысл меняться проектами? Совместно создавать кучу копипастных проектов?
     
  4. E-body

    E-body

    Регистр.:
    6 сен 2007
    Сообщения:
    981
    Симпатии:
    319
    ребята давайте хоть сателиты клепать хоть чуток отличающимеся друг от друга ато обменяемся шаблонами парсинга и пипец. нас повяжут пс, не хотелось бы этого.
    п.с Content Downloader рулит, обожаю этот парсинг.
     
  5. bork75

    bork75 Д☼брая собака )

    Регистр.:
    21 июн 2008
    Сообщения:
    1.449
    Симпатии:
    716


    А я вот недавно вспоминал один парсер, но название вылетело из головы.
    Парсер иностранный, платный.
    Использует визуальный редактор для выделения нужного контента.
    На форумах частенько упоминался...

     
  6. zyzy

    zyzy Постоялец

    Регистр.:
    10 янв 2009
    Сообщения:
    139
    Симпатии:
    31
    Все взяли и прям поделились проектами =)
     
  7. Hilo

    Hilo

    Moderator
    Регистр.:
    31 мар 2008
    Сообщения:
    911
    Симпатии:
    568
    Я уже написал что хотел бы приватку устроить по обмену проектами как с небезызвестным эмулятором по обмену шаблонами. Собственно для этого и создал тему, чтобы посмотреть актуальность её.
    Проекты, понятное дело будут заезженны, в том плане что текст будет уже не уник, его можно было бы использовать для доров. Текста куча, сайты с текстами обновляются. Я например предложил автору проги Content Downloader создать фичу автоматического парсинга с lib.ru, он сказал спасибо, и что рассмотрит такую идею.
    В общем суть в автоматизации процессов, а чем больше текста тем лучше.
    Что касается текста для СДЛ и иже с ними, то нет проблем, проекты каждый индивидуально под себя может создавать, никто же не запрещает )))
     
  8. lift

    lift Читатель

    Заблокирован
    Регистр.:
    1 июл 2007
    Сообщения:
    2.226
    Симпатии:
    1.377
    Hilo
    Можно вопрос? А нафига ты с него парсиш, каким то контент менеджером который стоит денег, если на рутрекере он (сайт) есть выкаченый полностью + много аналогичного контента и все это обрабатывается TextPipe вполне замечательно. Локально. С такой скоростью, с которой эти контент менеджеры из веба просто физически не смогут собирать инфу.
    Я может просто логики не понял сего действа.
     
    Hilo нравится это.
  9. Hilo

    Hilo

    Moderator
    Регистр.:
    31 мар 2008
    Сообщения:
    911
    Симпатии:
    568
    1. Про торрент что ты пишешь (я кстати незнал про него), хм ... контент обновляется, отсюда и возникает необходимость парсинга.
    2. Так выдалось что у меня есть этот парсер контента Content Downloader
    3. Альтернативные идеи я только приветствую. Ведь в названии темы и заложена мысль ваших варианты парсинга контентом. Про свой варинт я рассказал. У тебя отличный вариант, обязательно воспользуюсь.
     
  10. lift

    lift Читатель

    Заблокирован
    Регистр.:
    1 июл 2007
    Сообщения:
    2.226
    Симпатии:
    1.377
    Hilo

    ЫЫЫЫЫ... Какой вариант? У меня этого "добра" 100+ гигов в базе собранно и во много удалено дубли (с дублями больше 250 гигов было). Это старо как мир. И дата создания базы полуторалетней давности. У меня самомго библиотека была с книжками. Очень даже не плохо все было.
    Варианты тебе вот например:
    1) Открываеш телепорт либо оффлайн эксплорер
    2) Идеш на любой закрытый сайт типа VK с закрытыми группами. Береш аккаунт и по группам аккаунта. Если что, то и акки и все прочее можно купить, денег не великих стоят. Или сам открой и во все нуждные группы кидай запросы на участие. Ну ты сам думаю все понял, с социалками только 1 вариант из многих.
    3) Обрабатываеш тем же TextPipe скаченый контент. Если постораешся то будет у тебя даже уник.

    Или например второй вариант:
    http://download.wikimedia.org/backup-index.html
    тут я думаю даже комментирвоать ничего не нужно )))) Актуальность такая, что ни торенты ни кто не сравниться. А объемы с либрой не сравнимые. Все выкачивать думаю тебе не нужно, но если решишся, то готовь 5-6 ТБ дискового пространства )))))

    И таких вариантов масса. Только мне вот лично они не нужны нафиг, по этому я спалил их тебе. А так... Нафиг спаливать нужное и рабочее? ))) Фантазируй сам ))) Потмоу что я сейчас могу с ходу еще гигов 5 контента уника нарыть, но уже не буду говорить где ибо самому надо.
     
    Hilo нравится это.