Где искать книги?

Тема в разделе "Вопросы новичков", создана пользователем DuvE, 22 май 2010.

Статус темы:
Закрыта.
  1. DuvE

    DuvE

    Регистр.:
    16 май 2010
    Сообщения:
    510
    Симпатии:
    10
    Собственно я начинающий дорвейщик. Уже приобрёл синонимайзер, скоро куплю дорген, теперь остался только парсер. Но я решил для начала использовать книги, которые можно скачать в интернете, но тут то я и прошу подсказать. На торрентах мало книг тематических, подскажите сайт с информационными книгами.

    Ещё вопрос - какой прогой лучше чистить текст от тегов, стоп слов и строчек? Просто есть один дамп базы в sql.

    Заранее благодарен.
     
  2. Fridhelm

    Fridhelm Читатель

    Заблокирован
    Регистр.:
    15 авг 2009
    Сообщения:
    211
    Симпатии:
    13
    Попробуй Agress parser, он достаточно функциональный

    Книги по дорвеестроительству ты вряд ли найдешь, а если найдешь, то информация там скорее всего устарела. Лучше парси выдачу ПС, там все ответы
     
  3. syslik666

    syslik666

    Регистр.:
    17 апр 2009
    Сообщения:
    166
    Симпатии:
    13
    Вы ваще о чём?? Информация в текстовке для доргена устарела??? Что за бред ваще? Да и агрес парсер скорее для других целей нужен.

    Что значит "информационные книги"??? На какую-то тему? Все книги информационные)) Даже библия. Ну введите в яндексе "книги по ..." и тему дора. И ваще-т на торрентах дофига книг!
    + есть мнение, что не обязательно текст нужен тематический.
     
  4. Trilenium

    Trilenium

    Регистр.:
    12 дек 2009
    Сообщения:
    223
    Симпатии:
    54
    Автор, зачем все так сложно? Стоп слова, книги... Сделай нормальный стандартный дорвей доргеном и при клади лучше усилий на раскрутку...
     
  5. DuvE

    DuvE

    Регистр.:
    16 май 2010
    Сообщения:
    510
    Симпатии:
    10
    Да вы меня не правильно поняли. Я ищу просто контент для доргена, желательно конечно близкой тематики.

    Я собираюсь скачивать книгу, прогонять через синонимайзер и вставлять в RBT.

    Добавлено через 1 минуту
    Дак как сделать дорвей без тематической текстовки. Говорят на 20 доров по 500 страниц надо где то 1-2 метра текста - это так или преувеличивают?
     
  6. Бобр Добр

    Бобр Добр

    Регистр.:
    17 янв 2010
    Сообщения:
    242
    Симпатии:
    37
    ну включите мозг
    Такс по делу, что вам нужно, нужен текст, много, без тегов желательно. Уник и тематичность не обязателен, ведь для этого есть супер-мего-уникализатор-тематизатор* он же дорген. Значит идём в Яндекс вбиваем: книги в формате txt и смотрим на первую строчку и вот оно счастье.

    Кстати перед убиванием книги проверьте её на уникальность а вдруг повезёт*

    И то совсем не обязательно на каждый дор новый текст, ну в же поймите как этот текст получается (на выходе) там полная каша но уникальная каша. И если вы ипользуете RB, то использование синонимайзера здесь лишнее.
     
  7. DuvE

    DuvE

    Регистр.:
    16 май 2010
    Сообщения:
    510
    Симпатии:
    10
    У меня есть парочка уникальных книг в .doc, то есть к ним можно даже применять в RBT "без генерации"?
    И ещё вопрос - раз текст уник, то и на сателлиты пойдёт?
     
  8. syslik666

    syslik666

    Регистр.:
    17 апр 2009
    Сообщения:
    166
    Симпатии:
    13
    Ааххаах)) Применять дорген без генерации.. )))) ППц.. Всё равно кеи надо вставлять в текст, какая цель-то у тебя?
    Конечно, если уникальные книжки, то лучше их на саты пустить!!!

    20 доров по 500 страниц - это 10000 страниц - конечно тут надо дофига текста!!! Но нет смысла для этого книги сканить или распознавать пдф, всё равно дор вылетит в итоге )
     
  9. Бобр Добр

    Бобр Добр

    Регистр.:
    17 янв 2010
    Сообщения:
    242
    Симпатии:
    37
    Уник -- сателитам!
    Не уник + генерация -- дорам!
     
  10. mux76

    mux76 Создатель

    Регистр.:
    13 май 2010
    Сообщения:
    25
    Симпатии:
    2
    Посмотри здесь:
    http://www.infanata.org/
    Очень много PDF DJVU Прогоняешь через файнрейдер получаешь уникальный текст:)
     
Статус темы:
Закрыта.