Полная база ключевых слов лайвинтернета — 12kk уникальных ключевиков

Наконец-то допарсили и оформили базу ключевиков лайвинтернета!
Одиннадцать миллионов, девятьсот двадцать девять тысяч, четыреста тридцать два (11929432) уникальных ключевика, по которым пользователи переходили на тридцать восемь тысяч, двести восемь (38208) сайтов, имеющих открытую статистику в лайвинтернете и хотя бы одно слово в статистике переходов. Все это настоящие, живые слова, которые вводили пользователи. Никаких убитых окончаний, отдаваемых […]

База сайтов Яндекс.Каталога

Простенький срез базы данных Яндекс.Каталога, включающий в себя каталожное название и описание 84569-ти урлов. К каждому урлу прилагается список категорий Яки, в которых он учавствует, плюс для многих указаны мыло из хуиза и мыльники, выдранные из содержимого, доступного по этому урлу.

Еще триста метров кейвордов «Прямого Эфира»

Вдогонку к прошлой бесплатной базе ключевых слов, выкладываем новую. Сколько там кеев не мерил, но прошлая нефильтрованная база содержала более трех миллионов ключевиков и весила менее 120-ти метров. Сегодняшняя база весит почти 350 метров (126Мб в архиве).
Сливать здесь: http://depositfiles.com/ru/files/7062224.
Пароль: l00t.ru

3кк+ нефильтрованных ключевых слов «Прямого Эфира» Яндекса

Копался с кеями, попутно смержил базу кеев «Прямого Эфира» Яндекса, собранную с помощью бесплатного парсера YaOnAir.
Вот она: 110Мб (36,5 в архиве), 3′733′113 нефильтрованных кеев (большая часть со статсами, но есть и без). Фильтруйте в свое удовольствие.
Качать здесь, пароль l00t.ru.
np: Slayer — Disciple

Бесплатная база ключевых слов «прямого эфира»

Прошу прощения за пафосный заголовок, но вы ведь знаете — «Сео — дело такое» :)
Пока тестил бесплатный парсер «Прямого эфира» Яндекса, собралась вот такая базка в без малого 50к нефильтрованных кеев: Бесплатная база ключевых слов.

Бот-проект «Все морды рунета»™

Добрался тут до старой задумки под кодовым названием «Все морды рунета». Написан кравлер, методично обходящий рунет и сливающий в базу содержимое морд всех встречающихся на пути сайтов.
Менее чем за час работы уже слито 200Мб голого хтмла (что-то около 7к доменов). Индексируются домены второго уровня в доменной зоне .ру. Изначально хотел еще домены всех уровней вгонять, […]