Как собрать базу статей?

Статус
В этой теме нельзя размещать новые ответы.
Самое плохое в приобретении или самостоятельном парсинге то, что большая часть урлов окажутся нерабочими или каталога статей там уже нет, или добавленные статьи не публикуются. Недавно собрал все имеющиеся базы, с этого форума, с Сеарченжинса, еще из нескольких мест, сам напарсил по признакам популярных движков... Результат, после убирания дубликатов - 1800 адресов. Проверяю каждый адрес вручную (проверил где-то четверть) - мест, где реально что-то можно опубликовать - около десяти. Вот такой нерадостный результат.
Все вышенаписанное относится к русскоязычным базам.
 
не заморачиваясь, найдитте однотипные сайты статей. в рунете популярных движков немного больше, чем на западе, но найти их не проблема. далее пропарсите любой тулзой по фразам однотипных движков - и вперёд сабмитить олсабом.

сайты в базах зачастую загажены по самые уши. имхо, лучше свою базу создавать из актуальных ресурсов.
 
А как можно закачать базу данных вики? Тоесть скачать все их статьи.
 
А как можно закачать базу данных вики? Тоесть скачать все их статьи.
написать робота, который соберёт всё это и распарсит. если не смыслите в программировании - вам дорога на free-lance.ru. такая задача решаема за $50-$250 в зависимости от исполнителя.
 
Есть проблема - без уникального контента ничего не выйдет. А если он будет не уникален (т.е. у тебя его утащит сайт с более высоким PR, CY и т.п.), то злодеем будешь считаться ты :(. Через это много проблем с базами статейными :(...
 
Есть проблема - без уникального контента ничего не выйдет. А если он будет не уникален (т.е. у тебя его утащит сайт с более высоким PR, CY и т.п.), то злодеем будешь считаться ты :(. Через это много проблем с базами статейными :(...

Вопрос: это если я на своём сайте разместил собственноручно написанную статью, с собственноручно сделанными фотографиями и кто-то (обладая большим ТИЦ, ПР) спёр её у меня, верблюд я??????
 
Есть проблема - без уникального контента ничего не выйдет. А если он будет не уникален (т.е. у тебя его утащит сайт с более высоким PR, CY и т.п.), то злодеем будешь считаться ты :(. Через это много проблем с базами статейными :(...

1. Достоверно неизвестно кого и как ПС считает "писателем" статьи. Так что не факт, что у кого тИЦ выше, тот и владелец копирайта. К тому же, многие статейные сайты указывают "автор: такой-то". Учитывая, что Яша например умеет делать привязку сайта к региону по контактам, указанным на сайте, вполне вероятно, что уточнение авторства для него тоже не проблема.

2. А зачем вообще размещать написанную статью у СЕБЯ на сайте? Просабмитили по базе - и забыли. Толку-то от размещения у себя?
 
Если для себя - соберать самому, тем более если нету денег
но даже с деньгами, лучше самому создавать базу от этого зависит результат и опыт повышается
Сделай анализ конкурентов, через поисковик, это должно приблизить к качественному результату ... при хорошем анализе...
 
Как по мне так есть два варианта.
1 Собрать с 0 самому, как уже отмечалось выше или парсером или банальным поиском.
2 Взять базы в свободном доступе и хорошо их почистить.
Второй вариант мне кажется более результативным
 
Вопрос: это если я на своём сайте разместил собственноручно написанную статью, с собственноручно сделанными фотографиями и кто-то (обладая большим ТИЦ, ПР) спёр её у меня, верблюд я??????

В общем и целом, не ясно. Бытует такое мнение и... есть печальный опыт.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху