Контент для ru-доров - кто где добывает?

Статус
В этой теме нельзя размещать новые ответы.
Предлагаю поделиться источниками контента.

Лично я скачиваю из локалки *.txt, *.doc, *.rtf, *.pdf файлы, перегоняю всё разом в txt прогой all2txt, далее объединяю всё в один файл с помощью TXTcollector, а затем нарезаю на файлики по 500 килобайт программой File razor.

Ну а потом всё в red.button на пакетную генерацию:)

Указанные программы можно скачать здесь:

Для просмотра ссылки Войди или Зарегистрируйся

Поделитесь своими рецептами!
SERP поисковиком и Объявления из РСЯ
 
А никто не делал библиотеку контента: т.е. сборник текстов по популярным тематикам (в виде одного БОЛЬШОГО файла)?

В принципе, это может сильно упростить и ускорить процесс поиска контента.
 
делаю примерно такое, пока что в процессе создания, сейчас набираю места откуда парсить текст, дальше буду автоматически разбирать по категориям по базе, потом базу индексировать с помощью Для просмотра ссылки Войди или Зарегистрируйся потом буду через него выбирать самые подходящие тексты, склеивать с другими подходящими по теме, переставлять местами предложения итд. Типа продвинутый дорген :thenks:
кстати чтобы не заморачиваться с выкачиванием википедии советую тащить дамп тут
 
Парсинг текста по ключевикам с поисковика и потом двунаправленный перевод, вот вам и уникальный контент.
 
Парсинг текста по ключевикам с поисковика и потом двунаправленный перевод, вот вам и уникальный контент.
Можно однонаправленный сделать, если парсить английские ресурсы. Такой перевод получше по качеству будет.
 
кто чем переводит? я вытянул дамп английской википедии, в распакованном виде он весит 12 гигов, написал скрипт который делает из каждой статьи один файл, раскладывает по папкам 1500 таких файлов

натравил promt 8 на каждую папку (в нем есть фукнция пакетный перевод), это уё... виснет постоянно :mad:

кто нить юзал google translate или translate.ru какое количество запросов можно делать прежде чем айпишник банят?

upd: разобрался почему промт виснул, дамп википедии сделан так что каждая страница в файле это id дальше идет табуляция, сама статья это одна длинная строка, потом идет перевод строки. В общем судя по всему когда эта строка очень длинная промту становится хреново и он подыхает.
upd2: таки иногда он все таки виснет все же на каких то файлах, но намного реже чем раньше, на перевод 1500 файлов/статей в среднем уходит ~40 минут. Всего файлов 2,554,371, то есть это где то 1702 папки, в общем примерно 48 дней надо чтобы перевести всю википедию (это если конечно не вис бы постоянно этот гр****ый промт).
 
  • Заблокирован
  • #37
Беру из локалки, там много их, всё не скачать
А также перевожу, правда с этим тоже бывает компьютер зависает.
 
у меня иногда некоторые переводчики при переводах туда-обратно в конечном итоге выдают текст практически идентичный изначальному :confused:
 
Книги на любые темы можно брать в обычных библиотеках, сканировать и распознавать текст, на сканирование одной средненькой книжки нужно около часа, потом еще часик на обработку и распознавание и текст в "кармане", прежде чем сканировать надо проверить и поискать в интернете - возможно уже кто-то отсканировал, но зачастую, если книга 10-20 летней давности, то текст будет уникальным.
 
Читаю я тему и задался таким вопросом. Нельзя ли просто брать рассказы из (для адалт доров эротические рассказы) с сайтов? Ведь дорген сам переделает всё и кеи вставит. Или так уже не стоит делать?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху