Бот-проект «Все морды рунета»™
Дата: 30.01.2008
Рубрики: Базы данных |
Добрался тут до старой задумки под кодовым названием «Все морды рунета». Написан кравлер, методично обходящий рунет и сливающий в базу содержимое морд всех встречающихся на пути сайтов.
Менее чем за час работы уже слито 200Мб голого хтмла (что-то около 7к доменов). Индексируются домены второго уровня в доменной зоне .ру. Изначально хотел еще домены всех уровней вгонять, плюс все ЖЖ и пр. блоги, но пока запретил их к индексации — их слишком много.
Скрин под катом.
Сорри за размер - снимал через рдп, немного стормозил и зачем-то уменьшил вайдскрин, второй раз переснимать уже желания нет (тормозит загруженный сервак с отображением гуя по рдп).
Комментарии
Комментарии (6) на запись “Бот-проект «Все морды рунета»™”
Оставить комментарий




Самая полезная информация и софт для ее добычи.
Хм. А к чему все это, позвольте поинтересоваться?
темы разные палить, базы собирать.
Да, похоже что в действительности - так оно и есть. P.S. Сайт, кстати, у вас прикольно сверстан :)
а как скачать «Все морды рунета»
Мы их не выкладывали :)
Очень признательна, на самом деле полезная информация.