Чем разбавить парсинг?

Тема в разделе "Вопросы новичков", создана пользователем inkubus, 14 июн 2010.

Статус темы:
Закрыта.
  1. inkubus

    inkubus

    Регистр.:
    27 мар 2010
    Сообщения:
    180
    Симпатии:
    56
    Чем разбавить запросы при парсинге выдачи гугла?

    Признаков для парсинга хватает. А вот чем их разбавить ума не приложу. Насобирал словарей нескольких иностранных языков, но есть проблема. Если слово слишком популярное то появляется много дублей, и в тоже время есть слова по запросу которых всего пара сотен результатов и нет смысла их использовать.

    Может есть какие-то оптимальные слова для разбавления парсига?
     
  2. ewolwer

    ewolwer

    Регистр.:
    15 окт 2008
    Сообщения:
    240
    Симпатии:
    58
    1. Какой парсер юзаешь?
    2. Одно время когда парсил хрефером - если собирал базу под адалт - разбавлял 30-40-50к адалтных слов, 2х-3х-4х словниками. Плюс использовать разного рода операторы гугла.
    Эксковатор когда юзал, там такой тувой тучи слов не нужно, хватало пару десятков. И оптяь же всё зависит от запросов и их кол-ва.
     
  3. inkubus

    inkubus

    Регистр.:
    27 мар 2010
    Сообщения:
    180
    Симпатии:
    56
    Aggress использую. Думаю попробовать воткнуть пару сотен наиболее употребляемых слов из нескольких языков.
     
  4. Anton

    Anton ¯\_(ツ)_/¯

    Moderator
    Регистр.:
    28 авг 2007
    Сообщения:
    648
    Симпатии:
    638
    Любые слова популярные или нет - пофиг.
    На разных языках - да.
    Потом фильтрация на дубли, какая разница сколько там в выдачи будет ресов 100 или тысяча, не руками же копипастить)
    Пару сотен мало, надо пару десятков тысяч) ну и все зависит от самих запросов
     
    inkubus нравится это.
  5. inkubus

    inkubus

    Регистр.:
    27 мар 2010
    Сообщения:
    180
    Симпатии:
    56
    http://www.mediafire.com/?tozdqgm4ymt
    Top 500 английских слов переведенные на 24 языка, удалены одно и двух буквенные слова. Итого 11113 слов.
    Есть еще вордлист на 700к слов но там много таких по которым очень мало результатов.
     
  6. ewolwer

    ewolwer

    Регистр.:
    15 окт 2008
    Сообщения:
    240
    Симпатии:
    58
    скажу чесно, аггрес парсером можно более менее базу собрать только при ооочень удачно сложенных запросах. без проксей там можно по килу вытаскивать, прокси лист постоянно менять вручную на сколько я помню там указываешь так спико проксей а не урлом откуда брать...уж лучше раскошелиться и взять того же эксковтаора за 50 баксов на год, да пособирать базы помощнее. а иначе тяжковато будет собрать хорошую базейку таким макаром. а если нужны какие то кеи определённой тематики, скажи - может подберу если есть что из того что можно во фри предоставить.
     
  7. syslik666

    syslik666

    Регистр.:
    17 апр 2009
    Сообщения:
    166
    Симпатии:
    13
    Эмм.. Я немного не в теме. Что ты парсишь и какая задача вообще?
    Не оч понял - объясните = интересно.
     
  8. ewolwer

    ewolwer

    Регистр.:
    15 окт 2008
    Сообщения:
    240
    Симпатии:
    58
    а что тут не понятного :) Товарищ хочет напарсить базу урлов, толи гостевых, форумов блогов и т.д. ... Для текущего используемого парсера просто запрсов с операторами и без - не достаточно, нужны дополнительные слова подставляемые к запросам для получения больших результатов. к примеру есть запрос inurl:guestbook и разбавляемыми словами будут inurl:guestbook+"viagra" inurl:guestbook+"cialis" и т.д. те слова при подстановке которых первоначальныя выдача будет отличаться от предыдущей, тем самым давая возможность насобирать больше ресурсов для сабмита))ну тобишь для спама или еще чего))
    вроде внятно обьяснил))
     
    syslik666 нравится это.
  9. syslik666

    syslik666

    Регистр.:
    17 апр 2009
    Сообщения:
    166
    Симпатии:
    13
    Аа, понятно. Я просто далёк отемы этой - думал тока по признакам и парсят. гы
     
  10. inkubus

    inkubus

    Регистр.:
    27 мар 2010
    Сообщения:
    180
    Симпатии:
    56
    Именно так. Основная проблема это парсить эффективно.
    Поскольку просто разбавить парсинг не проблема. А вот как это сделать оптимально? Чтобы потом не парсить неделями и половину дублей удалять, и в тоже время не гонять зря трафик и тратить время выбирая по три урла с выдачи.
     
Статус темы:
Закрыта.