Чем разбавить парсинг?

Статус
В этой теме нельзя размещать новые ответы.

inkubus

Гуру форума
Регистрация
27 Мар 2010
Сообщения
180
Реакции
58
Чем разбавить запросы при парсинге выдачи гугла?

Признаков для парсинга хватает. А вот чем их разбавить ума не приложу. Насобирал словарей нескольких иностранных языков, но есть проблема. Если слово слишком популярное то появляется много дублей, и в тоже время есть слова по запросу которых всего пара сотен результатов и нет смысла их использовать.

Может есть какие-то оптимальные слова для разбавления парсига?
 
1. Какой парсер юзаешь?
2. Одно время когда парсил хрефером - если собирал базу под адалт - разбавлял 30-40-50к адалтных слов, 2х-3х-4х словниками. Плюс использовать разного рода операторы гугла.
Эксковатор когда юзал, там такой тувой тучи слов не нужно, хватало пару десятков. И оптяь же всё зависит от запросов и их кол-ва.
 
Aggress использую. Думаю попробовать воткнуть пару сотен наиболее употребляемых слов из нескольких языков.
 
Aggress использую. Думаю попробовать воткнуть пару сотен наиболее употребляемых слов из нескольких языков.
Любые слова популярные или нет - пофиг.
На разных языках - да.
Потом фильтрация на дубли, какая разница сколько там в выдачи будет ресов 100 или тысяча, не руками же копипастить)
Пару сотен мало, надо пару десятков тысяч) ну и все зависит от самих запросов
 

Top 500 английских слов переведенные на 24 языка, удалены одно и двух буквенные слова. Итого 11113 слов.
Есть еще вордлист на 700к слов но там много таких по которым очень мало результатов.
 
скажу чесно, аггрес парсером можно более менее базу собрать только при ооочень удачно сложенных запросах. без проксей там можно по килу вытаскивать, прокси лист постоянно менять вручную на сколько я помню там указываешь так спико проксей а не урлом откуда брать...уж лучше раскошелиться и взять того же эксковтаора за 50 баксов на год, да пособирать базы помощнее. а иначе тяжковато будет собрать хорошую базейку таким макаром. а если нужны какие то кеи определённой тематики, скажи - может подберу если есть что из того что можно во фри предоставить.
 
Эмм.. Я немного не в теме. Что ты парсишь и какая задача вообще?
Не оч понял - объясните = интересно.
 
а что тут не понятного :) Товарищ хочет напарсить базу урлов, толи гостевых, форумов блогов и т.д. ... Для текущего используемого парсера просто запрсов с операторами и без - не достаточно, нужны дополнительные слова подставляемые к запросам для получения больших результатов. к примеру есть запрос inurl:guestbook и разбавляемыми словами будут inurl:guestbook+"viagra" inurl:guestbook+"cialis" и т.д. те слова при подстановке которых первоначальныя выдача будет отличаться от предыдущей, тем самым давая возможность насобирать больше ресурсов для сабмита))ну тобишь для спама или еще чего))
вроде внятно обьяснил))
 
Аа, понятно. Я просто далёк отемы этой - думал тока по признакам и парсят. гы
 
а что тут не понятного :) Товарищ хочет напарсить базу урлов, толи гостевых, форумов блогов и т.д. ... Для текущего используемого парсера просто запрсов с операторами и без - не достаточно, нужны дополнительные слова подставляемые к запросам для получения больших результатов. к примеру есть запрос inurl:guestbook и разбавляемыми словами будут inurl:guestbook+"viagra" inurl:guestbook+"cialis" и т.д. те слова при подстановке которых первоначальныя выдача будет отличаться от предыдущей, тем самым давая возможность насобирать больше ресурсов для сабмита))ну тобишь для спама или еще чего))
вроде внятно обьяснил))

Именно так. Основная проблема это парсить эффективно.
Поскольку просто разбавить парсинг не проблема. А вот как это сделать оптимально? Чтобы потом не парсить неделями и половину дублей удалять, и в тоже время не гонять зря трафик и тратить время выбирая по три урла с выдачи.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху