Контент для ru-доров - кто где добывает?

Alexitdv · 12 Фев 2008

Алкаш написал(а):
Предлагаю поделиться источниками контента.

Лично я скачиваю из локалки *.txt, *.doc, *.rtf, *.pdf файлы, перегоняю всё разом в txt прогой all2txt, далее объединяю всё в один файл с помощью TXTcollector, а затем нарезаю на файлики по 500 килобайт программой File razor.

Ну а потом всё в red.button на пакетную генерацию

Указанные программы можно скачать здесь:

Для просмотра ссылки Войди или Зарегистрируйся

Поделитесь своими рецептами!

SERP поисковиком и Объявления из РСЯ

Алкаш · 13 Фев 2008

А никто не делал библиотеку контента: т.е. сборник текстов по популярным тематикам (в виде одного БОЛЬШОГО файла)?

В принципе, это может сильно упростить и ускорить процесс поиска контента.

sw0rdf1sh · 13 Фев 2008

делаю примерно такое, пока что в процессе создания, сейчас набираю места откуда парсить текст, дальше буду автоматически разбирать по категориям по базе, потом базу индексировать с помощью Для просмотра ссылки Войди или Зарегистрируйся потом буду через него выбирать самые подходящие тексты, склеивать с другими подходящими по теме, переставлять местами предложения итд. Типа продвинутый дорген :thenks:

кстати чтобы не заморачиваться с выкачиванием википедии советую тащить дамп тут

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

mrlewap · 16 Фев 2008

Парсинг текста по ключевикам с поисковика и потом двунаправленный перевод, вот вам и уникальный контент.

booch · 16 Фев 2008

mrlewap написал(а):
Парсинг текста по ключевикам с поисковика и потом двунаправленный перевод, вот вам и уникальный контент.

Можно однонаправленный сделать, если парсить английские ресурсы. Такой перевод получше по качеству будет.

sw0rdf1sh · 26 Фев 2008

кто чем переводит? я вытянул дамп английской википедии, в распакованном виде он весит 12 гигов, написал скрипт который делает из каждой статьи один файл, раскладывает по папкам 1500 таких файлов

натравил promt 8 на каждую папку (в нем есть фукнция пакетный перевод), это уё... виснет постоянно :mad:

кто нить юзал google translate или translate.ru какое количество запросов можно делать прежде чем айпишник банят?

upd: разобрался почему промт виснул, дамп википедии сделан так что каждая страница в файле это id дальше идет табуляция, сама статья это одна длинная строка, потом идет перевод строки. В общем судя по всему когда эта строка очень длинная промту становится хреново и он подыхает.
upd2: таки иногда он все таки виснет все же на каких то файлах, но намного реже чем раньше, на перевод 1500 файлов/статей в среднем уходит ~40 минут. Всего файлов 2,554,371, то есть это где то 1702 папки, в общем примерно 48 дней надо чтобы перевести всю википедию (это если конечно не вис бы постоянно этот гр****ый промт).

Dador · 1 Мар 2008

Беру из локалки, там много их, всё не скачать
А также перевожу, правда с этим тоже бывает компьютер зависает.

Polotence · 1 Мар 2008

у меня иногда некоторые переводчики при переводах туда-обратно в конечном итоге выдают текст практически идентичный изначальному :confused:

combatos · 1 Мар 2008

Книги на любые темы можно брать в обычных библиотеках, сканировать и распознавать текст, на сканирование одной средненькой книжки нужно около часа, потом еще часик на обработку и распознавание и текст в "кармане", прежде чем сканировать надо проверить и поискать в интернете - возможно уже кто-то отсканировал, но зачастую, если книга 10-20 летней давности, то текст будет уникальным.

Jeepers Kreepers · 1 Мар 2008

Читаю я тему и задался таким вопросом. Нельзя ли просто брать рассказы из (для адалт доров эротические рассказы) с сайтов? Ведь дорген сам переделает всё и кеи вставит. Или так уже не стоит делать?

Контент для ru-доров - кто где добывает?

Alexitdv

Гуру форума

Алкаш

Постоялец

sw0rdf1sh

Создатель

mrlewap

Создатель

booch

Постоялец

sw0rdf1sh

Создатель

Dador

Читатель

Polotence

Создатель

combatos

Писатель

Jeepers Kreepers

Участник