Где взять текстовки для дора

Тема в разделе "Вопросы новичков", создана пользователем heretic, 16 мар 2012.

Статус темы:
Закрыта.
  1. heretic

    heretic Писатель

    Регистр.:
    16 фев 2012
    Сообщения:
    24
    Симпатии:
    0
    Народ я новичек в дорвеях, поэтому может вопрос многим покажется банальным (просьба не бить "ногами"). Так вот где можно взять тексты для доров (при помощи чего напарсить)? На данный момент меня интересует тема "копии часов". Всем спасибо за ответы заранее.
     
  2. arch14

    arch14

    Регистр.:
    7 июн 2009
    Сообщения:
    374
    Симпатии:
    186
    например, собрать копипастом несколько мегов тут
     
  3. glory773

    glory773

    Регистр.:
    30 ноя 2008
    Сообщения:
    151
    Симпатии:
    64
    Content Downloader

    http://sbfactory.ru/
    Архиполезная прога. Лично я только ей и пользуюсь. Парсит все что угодно. Текст, картинки, видео.
     
  4. myst3

    myst3

    Регистр.:
    20 сен 2008
    Сообщения:
    156
    Симпатии:
    56
    Если нужен именно тематический текст - парсить тематические сайты тем же Content Downloader или Datacol. Можно также взять тематические статьи с ezinearticles и прогнать через переводчик. Что касается обычного текста - скачать библиотеку ( например здесь: http://rutracker.org/forum/viewforum.php?f=1238 ), почистить текст и подогнать под удобный формат для доргена ( например файлы по 100мб текста ).
     
  5. maxlibt

    maxlibt Создатель

    Регистр.:
    29 дек 2009
    Сообщения:
    33
    Симпатии:
    1
    Желательно нарыть уникального контента ну или почти уникального.
    Парсить можно соц. сети.
    Если будешь использовать книги контент нужно чистить от слов тип: Глава, стр. и т.п.
     
  6. Frostwirm

    Frostwirm Постоялец

    Регистр.:
    17 фев 2007
    Сообщения:
    55
    Симпатии:
    2
    pdf в тхт перегонять, то же не плохо выстреливают
     
  7. zilon

    zilon

    Регистр.:
    30 июл 2011
    Сообщения:
    370
    Симпатии:
    147
    я тут подумал, у гугла выдача запрещена к индексации в robots.txt http://www.google.ru/robots.txt

    [​IMG]

    то есть если границы в контент довнлоедере настроить нормально то можно 90 уник получить да ещё и с ключевиками выделеными:cool:

    p.s. под яндекс скорее всего не получится, он вроде бы уже знает вот у него в последнем пункте написано "страницы сайта с результатами поиска." не ранжируем высоко...

    p.s.s. я доры не делаю так что не знаю наверника:nezn:
     
  8. arch14

    arch14

    Регистр.:
    7 июн 2009
    Сообщения:
    374
    Симпатии:
    186
    а по сути это будет такой же бредотекст, который быстро забанится. на таком принципе работает парсдор и также успешно банится
     
  9. nothingnessget

    nothingnessget Постоялец

    Регистр.:
    9 апр 2012
    Сообщения:
    51
    Симпатии:
    22
    все доры банятся
     
  10. Framers

    Framers Постоялец

    Регистр.:
    17 мар 2012
    Сообщения:
    65
    Симпатии:
    15
    Откуда беру уникальный текст я: выбираем любой сайт с книгами, например lib.ru, выбираем книгу весом побольше, копируем текст в бокнот, и так пока не наберется пару метров, потом чистим скриптом (сообщение отредактирую и вставлю ссылку на скрипт когда буду дома, сейчас на работе) по чистке теста (выход получается примерное 500-900 кб теста), потом прогоняю через SmartRewriterPro или любой другой синонмайзер, мне импонирует именно этот, базу синонимов подбираете сами под себя, потом копирую примерно 4-5к символов и проверяю уникальность в advego plagiatus, если текст получился уникальным, то использую. Сделав пару файлов по 500 кило можно долго с ними жить :) Рад если кому то помогло. А вот и сам скрипт как обещал http://zapata.ru/files/textcleaner.rar :)
     
Статус темы:
Закрыта.