[Ищу] Скрипт для фиксации сканирования сайта поисковыми роботами.

jabbaxatt

Добрый модератор
Регистрация
21 Янв 2009
Сообщения
902
Реакции
432
Хотелось бы иметь решение, желательно скрипт на PHP, который можно установить на сайт, и он записывал бы в базу (желательно MySQL), какие роботы, в какие дни\часы заходили на сайт и какие страницы загружали.

А потом бы все эти данные можно было просматривать в более-менее красивом виде. А не копаться как ишак в многометровых логах сервера.

Если есть готовое решение - отлично. Если нет - прошу подсказать принцип возможного написания(какой код встроить в страницу сайта, что-бы он без особой доп нагрузки определял что зашел яша или гоша и писал это факт в базу), и возможно буду писать сам.
 
  • Заблокирован
  • #2
Чем не подходит кабинет вебмастера яшки и гугла? Но видимо чем то не подходит

Что касается скрипта то тут по сути ничего сложного.
Определить поисковик не сложно, смотрите его юзерагент, как правило они представляются как есть, но есть и те которые представляются обычным юзером их естественно не отследите...
В базу кладете кто и когда пришел, какие страницы посмотрел, тут ничего сложного.
Ну а потом на основании того что в базе вырисовываете себе график ну или еще как то отображаете, как вам удобней.
 
Это умеет делать CNstats
 
Вот заготовка. Дальше ее можно допиливать по своему усмотрению.
PHP:
$useragent = $_SERVER['HTTP_USER_AGENT'];
 
if(strpos($useragent, "StackRambler") !== false) $os = 'robot_rambler';
if(strpos($useragent, "Googlebot") !== false) $os = 'robot_google';
if(strpos($useragent, "Yandex") !== false) $os = 'robot_yandex';
if(strpos($useragent, "Aport") !== false) $os = 'robot_aport';
if(strpos($useragent, "msnbot") !== false) $os = 'robot_msnbot';
echo $os; // тут имя поисковика
 
Чем не подходит кабинет вебмастера яшки и гугла? Но видимо чем то не подходит.
Тем, что не актуальная скорость обновления информации. Тем что нужно не только доверять но и проверять. Тем что я хочу видеть:
- список проверенных страниц за определённый день
- точное время сканирования
- примерную скорость сканирования
- какую-никакую инфографику по этим параметрам.

Вот заготовка. Дальше ее можно допиливать по своему усмотрению.

А есть точный список юзер-агентов поисковых роботов? Или это он и есть?
А то у яши вроде куча ботов - индексатор, картинки, фавиконы, зеркальщик и т.п.
 
У меня полного списка нет.
Можно пробежаться глазами по серверным логам доступа к сайту. Оттуда выдернуть юзер агентов.
В принципе можно парсить логи и дергать статистику оттуда.
 
jabbaxatt

логи apache + скрипт awstats или прога анализатор логов, мне например WebLog Expert нравится

php скрипт постоянно работающий при каждом запросе страницы это дополнительная нагрузка на сервер
 
когда то тоже искал подобный скриптик
и таки нашел, но немного переписал под себя
без мускула, на файлик sebot поставить права на запись
файлик sebot.php заинклудить в движок
файлик sbotinfo.php - стата
буду рад, если кому то оказался полезен сей скриптик )
 

Вложения

  • SeBotInfo.rar
    2,6 KB · Просмотры: 30
когда то тоже искал подобный скриптик
и таки нашел, но немного переписал под себя
без мускула, на файлик sebot поставить права на запись
файлик sebot.php заинклудить в движок
файлик sbotinfo.php - стата
буду рад, если кому то оказался полезен сей скриптик )
скрипт работает хорошо! когда то я неплохо клоакал яндекс используя его, немного переписав. для отлова роботов он самый адекватный был раньше, как сейчас не знаю. сам тоже CNStats юзаю. по тихому.
 
Вопрос: sebot стат.инфу в себе хранит или создает какой-то файл, если обходится без мускуля?
 
Назад
Сверху