Текущее время: Чт май 24, 2012 12:36 pm




Начать новую тему Ответить на тему  [ Сообщений: 19 ] 
 Запрет лишних пауков для доров: ia_archiver и т.д. 
Автор Сообщение
Квоттер

Зарегистрирован: Вт июл 13, 2004 10:44 am
Сообщения: 26
Сообщение Запрет лишних пауков для доров: ia_archiver и т.д.
Вчера ia_archiver снял несколько десятков тысяч страниц доров... + всякая другая не полезная для доров ерунда. В итоге - за сутки получилась ПУСТАЯ НАГРУЗКА = 80.000 обращениям к довольно сложным скриптам.

Есть у кого список тех, кого следует запретить? Я думаю: ia_archiver (т.к. радости от того, что дор находится в archive.org - очень мало), китайские поисковики.

И как лучше это сделать: mod_rewrite или robots.txt?


Чт ноя 04, 2004 1:45 pm
Профиль
Спамер форума

Зарегистрирован: Сб окт 30, 2004 1:41 pm
Сообщения: 44
Откуда: Из Оренбурга
Сообщение 
Роботс не каждый паук уважает.
Лучше через mod_rewrite.

Еще посмотри эту тему http://seochase.com/viewtopic.php?t=779

_________________
Обмен ссылками. Доска объявлений


Чт ноя 04, 2004 8:12 pm
Профиль WWW
Квоттер

Зарегистрирован: Вт июл 13, 2004 10:44 am
Сообщения: 26
Сообщение 
Спасибо. Уже начал с mod_rewrite и поставил в него ia_archiver - но, уверен, что этого мало... Может у кого есть список?


Чт ноя 04, 2004 9:39 pm
Профиль
Квоттер

Зарегистрирован: Вт июл 13, 2004 10:44 am
Сообщения: 26
Сообщение 
Sergey_1971 писал(а):
Еще посмотри эту тему http://seochase.com/viewtopic.php?t=779

Глянул. Но, тема больше просит помощи, чем помогает в решении проблемы...


Чт ноя 04, 2004 9:45 pm
Профиль
Квоттер

Зарегистрирован: Вт июл 13, 2004 10:44 am
Сообщения: 26
Сообщение 
так, добавлены в список:
User-agent: psbot, Openbot

неужели больше никому не интересно данное? Кроме нагрузки на сервер, объясню цифры 100.000 обращений по-другому: боты выжрали 2Гб трафа за 1 сутки.


Пт ноя 05, 2004 1:03 pm
Профиль
Secretary of the Treasury

Зарегистрирован: Пн июн 21, 2004 1:24 am
Сообщения: 2275
Сообщение 
Demon, вот тут в роботс посмотри кого банить стоит, а кого нет.

_________________
Золото | Реальность | Серебро | Gun auction


Пт ноя 05, 2004 1:34 pm
Профиль
Квоттер

Зарегистрирован: Вт июл 13, 2004 10:44 am
Сообщения: 26
Сообщение 
Mauser писал(а):
Demon, вот тут в роботс посмотри кого банить стоит, а кого нет.

Mauser, спасибо! Только боюсь ошибиться... Вот это под вопросом:
scooter, AskJeeves, Teoma, Nutch, MSIECrawler - почему их забанили?


Пт ноя 05, 2004 2:53 pm
Профиль
Спамер форума

Зарегистрирован: Сб окт 30, 2004 1:41 pm
Сообщения: 44
Откуда: Из Оренбурга
Сообщение 
BizBot04 kirk.overleaf.com
HappyBot (gserver.kw.net)
CaliforniaBrownSpider
EI*Net/0.1 libwww/0.1
Ibot/1.0 libwww-perl/0.40
Merritt/1.0
StatFetcher/1.0
TeacherSoft/1.0 libwww/2.17
WWW Collector
processor/0.0ALPHA libwww-perl/0.20
wobot/1.0 from 206.214.202.45
Libertech-Rover www.libertech.com?
WhoWhere Robot
ITI Spider
w3index
MyCNNSpider
SummyCrawler
OGspider
linklooker
CyberSpyder (amant@www.cyberspyder.com)
SlowBot
heraSpider
Surfbot
Bizbot003
WebWalker
SandBot
EnigmaBot
spyder3.microsys.com
www.freeloader.com.

Список спайдеров еще можно глянуть здесь
http://net-promoter.com/ru/robots-txt/spider_list

Demon писал(а):
Вот это под вопросом:
scooter, AskJeeves, Teoma, Nutch, MSIECrawler - почему их забанили?


scooter - Альтависта может пригодится, teoma - тоже

_________________
Обмен ссылками. Доска объявлений


Пт ноя 05, 2004 4:43 pm
Профиль WWW
Спамер форума

Зарегистрирован: Сб окт 30, 2004 1:41 pm
Сообщения: 44
Откуда: Из Оренбурга
Сообщение 
Demon писал(а):
Sergey_1971 писал(а):
Еще посмотри эту тему http://seochase.com/viewtopic.php?t=779

Глянул. Но, тема больше просит помощи, чем помогает в решении проблемы...


Я имел в виду глянь сюда http://www.aeroion.ru/cgi-bin/stats/rob ... ction=show может что найдешь полезное

_________________
Обмен ссылками. Доска объявлений


Пт ноя 05, 2004 4:56 pm
Профиль WWW
Lincoln

Зарегистрирован: Вт июн 22, 2004 11:27 am
Сообщения: 264
Откуда: Киев
Сообщение 
Demon писал(а):
так, добавлены в список:
User-agent: psbot, Openbot

Так неверно, правильно будет так:
User-agent: psbot
User-agent: Openbot
Disallow: /


Пт ноя 05, 2004 7:34 pm
Профиль WWW
Спамер форума

Зарегистрирован: Сб окт 30, 2004 1:41 pm
Сообщения: 44
Откуда: Из Оренбурга
Сообщение 
Вот так

User-agent: psbot
Disallow: /
User-agent: Openbot
Disallow: /

_________________
Обмен ссылками. Доска объявлений


Пт ноя 05, 2004 7:51 pm
Профиль WWW
Secretary of the Treasury

Зарегистрирован: Пн июн 21, 2004 1:24 am
Сообщения: 2275
Сообщение 
Demon, это просто список практический роботов всяких. А кого из них банить уже сам решай.

_________________
Золото | Реальность | Серебро | Gun auction


Пт ноя 05, 2004 8:41 pm
Профиль
Квоттер

Зарегистрирован: Вт июл 13, 2004 10:44 am
Сообщения: 26
Сообщение 
Спасибо всем!

Mauser писал(а):
Demon, это просто список практический роботов всяких. А кого из них банить уже сам решай.

Я понял. Спасибо!
Просто хочется: "и рыбку съесть и шкурку продать" (другой вариант: "и рыбку съесть и на *** сесть"): убрать по-максимуму, но оставив тех, кто хоть немного трафа дает.

я уже принял решение...


Сб ноя 06, 2004 2:25 pm
Профиль
Спамер форума

Зарегистрирован: Сб окт 30, 2004 1:41 pm
Сообщения: 44
Откуда: Из Оренбурга
Сообщение 
а мне шкурку (список забабненных) не продашь?

_________________
Обмен ссылками. Доска объявлений


Сб ноя 06, 2004 2:36 pm
Профиль WWW
Квоттер

Зарегистрирован: Вт июл 13, 2004 10:44 am
Сообщения: 26
Сообщение 
список таков:
http://www.webmasterworld.com/robots.txt
я вычел из него: scooter, AskJeeves, Teoma, Nutch, MSIECrawler


Сб ноя 06, 2004 2:45 pm
Профиль
Lincoln

Зарегистрирован: Вт июн 22, 2004 11:27 am
Сообщения: 264
Откуда: Киев
Сообщение 
Sergey_1971 писал(а):
Вот так

User-agent: psbot
Disallow: /
User-agent: Openbot
Disallow: /

Ага, если не вставить пустую строку между второй и третьей строками, то сработает только первое правило, а правило для Openbot будет проигнорировано.


Вс ноя 07, 2004 4:17 pm
Профиль WWW
Квоттер

Зарегистрирован: Сб ноя 06, 2004 6:00 pm
Сообщения: 341
Откуда: Оренбург
Сообщение 
Цитата:
Ага, если не вставить пустую строку между второй и третьей строками, то сработает только первое правило, а правило для Openbot будет проигнорировано.

Не придирайтесь к словам, это и так понятно.
---------------
Позвольте развить тему

Выдержка из авторитетного документа, дополняющего документацию к mod_rewrite

Описание:
Как мы можем заблокировать действительно надоедливых роботов на получение страниц из специфических областей сайта? Файла /robots.txt содержащего записи «Robot Exclusion Protocol» обычно недостаточно для избавления от такого робота.
Решение:
Мы используем набор правил запрещающие доступ для роботов к URL из веб-пространства (возможно это пространство имеет очень глубокую иерархию каталогов, обход которой роботом, привел бы к очень большой нагрузке на сервер). Мы должны убедиться что запрещается доступ только для конкретного робота, т.е. просто запрет для хоста с которого работает робот недостаточен. Это, также блокировало бы доступ пользователей с этого хоста. Этого эффекта мы добьемся проверяя также информацию из HTTP заголовока User-Agent.

Набор правил mod_rewrite для отпугивания надоедливых роботов

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} email [NC,OR]
RewriteCond %{HTTP_USER_AGENT} extractor [NC,OR]
RewriteCond %{HTTP_USER_AGENT} booch_ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} naverbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ibm\.com [NC,OR]
RewriteCond %{HTTP_USER_AGENT} appie [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^obot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} zipppbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [NC,OR]
RewriteCond %{HTTP_USER_AGENT} grub-client [NC,OR]
RewriteCond %{HTTP_USER_AGENT} jetbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} wget [NC]
RewriteRule ^.*$ - [F]

---------------------
а вот еще прикол
после 9 утра отгоняем яху и мснбот

RewriteCond %{TIME_HOUR}%{TIME_MIN} >0900
RewriteCond %{HTTP_USER_AGENT} yahoo
RewriteRule ^.*$ - [F]
RewriteCond %{TIME_HOUR}%{TIME_MIN} >0900
RewriteCond %{HTTP_USER_AGENT} msnbot
RewriteRule ^.*$ - [F]


Занес в .htacces сегодня. Завтра посмотрим результаты

_________________
Профессионал - тот же дилетант, только знающий где ошибётся


Вт ноя 09, 2004 7:37 pm
Профиль WWW
Квоттер

Зарегистрирован: Сб ноя 06, 2004 6:00 pm
Сообщения: 341
Откуда: Оренбург
Сообщение 
Полный список User-Agents (Spiders, Robots, Crawler, Browser)
http://www.psychedelix.com/agents.html

_________________
Профессионал - тот же дилетант, только знающий где ошибётся


Сб ноя 13, 2004 4:48 pm
Профиль WWW
Квоттер

Зарегистрирован: Сб ноя 06, 2004 6:00 pm
Сообщения: 341
Откуда: Оренбург
Сообщение 
Граждане!
Кто может что сказать по поводу turtle.ru
Сам поисковик по видимому не работает. Но следы его паука я вижу почти каждый день в логах TurtleScanner/xxx (xxxx и т.д.)
Стоит ли его глушить описанным выше способом или его базу кто-то использует?
И кто может назвать user_agent mail.ru и vengo.ru

_________________
Профессионал - тот же дилетант, только знающий где ошибётся


Чт ноя 25, 2004 9:18 am
Профиль WWW
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 19 ] 


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
phpBB, китайские телефоны, виагра и мужская сила. © 2000, 2002, 2005, 2007 phpBB Group.
Our workflow designed by Project Management Insights. We trust our backup to Calgary Backup.