Бот-проект «Все морды рунета»™

Дата: 30.01.2008
Рубрики: Базы данных |

Добрался тут до старой задумки под кодовым названием «Все морды рунета». Написан кравлер, методично обходящий рунет и сливающий в базу содержимое морд всех встречающихся на пути сайтов.
Менее чем за час работы уже слито 200Мб голого хтмла (что-то около 7к доменов). Индексируются домены второго уровня в доменной зоне .ру. Изначально хотел еще домены всех уровней вгонять, плюс все ЖЖ и пр. блоги, но пока запретил их к индексации — их слишком много.

Скрин под катом.

Скриншот бота, обходящего все морды рунета

Сорри за размер - снимал через рдп, немного стормозил и зачем-то уменьшил вайдскрин, второй раз переснимать уже желания нет (тормозит загруженный сервак с отображением гуя по рдп).

Комментарии

Комментарии (6) на запись “Бот-проект «Все морды рунета»™”

  1. Perl! 30.01.2008 17:57

    Хм. А к чему все это, позвольте поинтересоваться?

  2. 99th 30.01.2008 21:59

    темы разные палить, базы собирать.

  3. Витек 03.08.2008 17:29

    Да, похоже что в действительности - так оно и есть. P.S. Сайт, кстати, у вас прикольно сверстан :)

  4. Lev 16.08.2008 16:38

    а как скачать «Все морды рунета»

  5. 99th 17.08.2008 22:56

    Мы их не выкладывали :)

  6. Костина Кристина 23.08.2008 20:35

    Очень признательна, на самом деле полезная информация.

Оставить комментарий