[Архив] Lynx parser

Статус
В этой теме нельзя размещать новые ответы.
Юрец написал(а):
Подскажите, плиз, куда ставится этот парсер?
Фрихост подойдет?
Парсер весьма чувствителен к хосту. На некоторых VDS он не заработал, хотя вот на дешевом firstvds - пашет.
На фрихосте конечно скорее всего не пойдет.

Парсер, в принципе, неплохой, но гугль в последнее время не дает нормальных результатов с запросами inurl: и site: , поэтому надо фильтровать результаты после парсинга.
Но мне он все равно не нравится.
Самый кульный вариант - встроенный парсер в Спамитб. Остальные отдыхают.
 
jhst написал(а):
Парсер весьма чувствителен к хосту. На некоторых VDS он не заработал, хотя вот на дешевом firstvds - пашет.
На фрихосте конечно скорее всего не пойдет.

Парсер, в принципе, неплохой, но гугль в последнее время не дает нормальных результатов с запросами inurl: и site: , поэтому надо фильтровать результаты после парсинга.
Но мне он все равно не нравится.
Самый кульный вариант - встроенный парсер в Спамитб. Остальные отдыхают.
Ну так в чем дело, ну так и выложи его нам на общее обозрение, а то что то уже давненько ни кто не выдает пассажей на форуме:( .
 
Valerik написал(а):
Ну так в чем дело, ну так и выложи его нам на общее обозрение, а то что то уже давненько ни кто не выдает пассажей на форуме:( .
Спамитб выложить ? У меня лицензия, там идет привязка к серверу лицензий, плюс где-то раз в месяц выходит новая версия, старая прекращает работу, требует обновления. Могу, в принципе, но кто возьмется ее ломать ? Я ни разу еще не видел ее у продавцов софта, хотя они продают вообще все на свете, что хоть как-то ломается.
 
Настройки:
Перед началом работы,в главной таблице укажите нужные поисковики, а также необходимые Вам параметры парсинга:
Глубина - кол-во страниц, которые будут отпарсены по одному уникальному кейворду. (Надеюсь для Вас не секрет, чему равен максимум этой величины для каждого из СЕ
[google] - 10 ; [msn] - 25; [yahoo] - 10 ;[yandex] - от 10 до 100 ; [rambler] - от 2 до 20)
Прокси - нужно ли использовать прокси, при парсинге той или иной поисковой системой.
Зоны:
- Не использовать - Парсер не будет комбинировать запросы, используя различные зоны.
- Указанные - Парсер будет составлять дополнительные запросы по зонам, которые Вы указали в файле zones.txt.
- Все GEO - Парсер будет составлять дополнительные запросы, используя все территориальные (ru/us...) )зоны (Сейчас их в базе 244).
- Коммерч.+ - Запросы будут комбинироваться на основе коммерческих) (com/org..) )зон (Сейчас их в базе 18).
Языки - параметр отвечающий за парсинг поисковиков по языковым (Язык страницы) критериям (Для каждого поисковика используются свои макросы).
Результаты - максимальное число url на одной странице выдачи поиска.
Запросы - файлы,в которых указываются кейворды, по которым будет происходить парсинг.
[a-z] - для особо жирных кеев, можно разбавить их английским алфавитом .
Основные настройки:
PHP-root - полный адрес до установленного PHP.
Число потоков - колличество потоков, создаваемых парсером. Чем больше эта величина, тем быстрее будет идти процесс работы скрипта , однако и ресурсов потре***ться будет больше.
Прокси-лимит - Сколько раз разрешается использовать подряд один прокси при парсинге .(Через это колличество раз скрипт возьмет новый из сохраненной базы)
Таймаут для соединений - Максимальное колличество секунд,отводящееся на одно соединение.
Do reload - Сколько раз пробовать перезагрузить страничку через прокси, в случае какой-либо ошибки соединения.
Эпсилон окрестность - Величина позволяющая отсеивать повторы (REPEIT) - результаты,попавшие в эту окрестность.Данный параметр также позволяет определить забанен ли поисковиком данный прокси или нет,соответственно в случае бана - парсер берет следующий прокси.
Вспомогательные настройки:
ZONES.TXT - файл с нужными вам зонами. (В формате com/net/org и т.д.)
PROXY.TXT - здесь указываете свои анонимные прокси,чем больше качественных проксей,тем больше результат парсинга.
SITES.TXT - укажите адреса своих прокси-листов.В процессе парсинга, скрипт будет грабить с этих адресов прокси и подливать их в общую базу.
DIR - укажите полный адрес до папки со скриптом.
Работа с проксями:
В процессе парсинга, скрипт присваивает каждому потоку определенное коллимчество уникальных проксей.Поэтому так важно,заранее позаботиться о их качестве и колличестве . Если указан параметр 'перезагружать прокси' , то прямо в процессе парсинга, скрипт будет грабить новые прокси из файла или с сайтов и подменять ими старые/уже использованные..
Брать из файла - Скрипт использует только те прокси,которые указаны в файле proxy.txt
Добавлять с сайтов - Если у вас есть регулярно обновляющиеся прокси листы,то укажите их в файле sites.txt, а также укажите,через какое кол-во раз успешных соединений следует полностью перезагружать базу проксей.
Обработка url:
Вы также можете в режиме многопоточности отфильтровывать напарсенные скриптом url по следующим параметрам:
Простой парсинг - не использовать эту опцию.
Чекать УРЛ на валидность - найденные url будут чекаться на различного рода ошибки,чтобы в окончательную базу попали только живые ссылки.
Чекать на наличие в тексте страницы - укажите какой текст (символы) следует искать в напарсенных страницах . %% - разделитель между запросами. AND - искать ВСЕ указанные слова на данном сайте. OR - достаточно найти только одно слово. [Примечание: Case insensitive в формате регулярных выражений]
Чекать на отсутствие в тексте страницы - принайденных совпадениях в тексте страницы, соответственно при AND - всех и при OR - хотя бы одном ссылка не попадет в общую базу . Разделитель текста - %% . [Примечание: Case insensitive в формате регулярных выражений]
Почта - на данный email будет отправлена оканчательная напарсенная база ссылок.
Работа с напарсенными базами:
[-] - удалить все/текущую базу
[^] - склеить все базы в данной категории

[*]
- отфильтровать базу на повторы
[?&] - удалить query часть (?var=value&var1=value2...)
[D] - оставить в базе только ссылки с уникальными доменами
[R] - архивировать и скачать

Проверить пиар
Напарсенные базы можно отсортировать по pagerank - результатом будет несколько созданных файлов, в каждом из которых будет записана ссылка с соответствующим PR.
Очищать директорию - Прежде чем начать проверять новые ссылки на ПР , старые будут удалены,иначе новые запишутся вместе с предыдущими.
Запускать в фон - Запустить процесс парсинга в background .
Работа через CRON
Для запуска скрипта через крон необходимо и достаточно сохранить нужные вам настройки через админ-панель парсера.После чего вы можете, ставить на КРОН файл cron.php, не боясь,что скрипт зациклится,в случае частых вызовов крон.

Работа с Лог - Файлами:
После запуска парсера создаются лог файлы,в каждом из которых будет записана вся информация о текущем потоке.
Count proxy for this thread - число проксей,попавших в данный поток
Count urls for this thread - число ссылок,попавших в данный поток
Напротив каждого из соединеий выводится его текущее состояние и общий прогресс.
Установка:
-Залить все файлы к себе на хост (php - в бинарном режиме,остальные файлы - в текстовом)
-Запустить парсер и следуя его инструкциям поставить права на запись на соответствующие файлы и папки.
 
holms написал(а):
Поставил на хост. За пару часов с гугла вытащил 40к, но ни один под спам неподходит даже формы нет, запрос давал типа inurl:guest.php, а самое интересное ни в одном урле я так и ни встретил guest.php. ...
такой запрос достаточно банален и неверняка там уже все заспамлено.
надо парсить по отличительным признакам некоторых форумов и гест.
например:

inurl:comment/reply/497
inurl:archivesum.php?view=date
url:article/2824.html
inurl:guestbook intitle:add
inurl:control.guest?a=sign
site:books.dreambook.com “Homepage URL” “Sign my” inurl:sign
site:Для просмотра ссылки Войди или Зарегистрируйся Homepage
inurl:sign.asp “Character Count”
“Message:” inurl:sign.cfm “Sender:”
inurl:register.php “User Registration” “Website”
inurl:edu/guestbook “Sign the Guestbook”
inurl:post “Post Comment” “URL”
inurl:/archives/ “Comments:” “Remember info?”
“Script and Guestbook Created by:” “URL:” “Comments:”
inurl:?action=add “phpBook” “URL”
intitle:”Submit New Story”
inurl:/2006/09/04/*.html
 
По поводу, что и как парсить это знаю. Проблема втом что дал банальный запрос, по нему гест туева куча, а заспамлены или нет, это не важно, главное чтобы результат соответствовал запросу. Хоть я наберу так intitle:"t3st0 Умник", то там не должно быть других страниц где нет этой фразы в title страницы, ну или хотя бы большинство. Проблема я думаю в том что гугл почти всегда на конкретный запрос выдает процентов 50 мусора, так в этом нам и помогает парсер, который отсеивет неподходящие под запрос ресы, вот...
 
Хотел узнать, а дезенд ещё никто не сделал?
 
мда, кривовато чего-то парсит
 
а можно его вылажить на меньшее количество сообщений а то до 19 идти туго а создавать неинформативные сообщения щитаю некоректным, или хоть на мыло бы diablovsigal@mail.ru ?
 
Не жмись, выкладывай, что у тебя есть по теме - скрипты, литература, только не повторяйся.
Оно того стОит...
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху