Парсер директа и вордстата Магадан
Текущая версия: 1.2
Ссылка для скачивания: Бесплатный парсер яндексовского вордстата Магадан.
Предыдущие релизы лежат там же: http://download.l00t.ru/magadan/.
Пароль на архив: l00t.ru
Условия распространения: Freeware, AS IS.
Требования: дотнет 2+.
Скриншот
- Сбор статистики запросов для списка ключевиков
- Сбор ключевиков, которые «искали со словом»
- Сбор ключевиков, которые «искали люди, искавшие заданное слово»
- Автоматическое пополнение очереди ключевиков на парсинг из списка «искали с этим словом» по заданным критериям
- Сохранение результатов в текстовики (вместе, или врозь со статистикой запросов)
- Автоматическая проверка на обновления
- Встроенная утилита для чистки собранных кеев: фильтрафия Вордстатовских «плюсиков», фильтрация слов, отмеченных этими плюсиками, удаление информации о статистике запросов, собранной «Магаданом» ранее, удаление дубликатов ключевых слов.
Комментарии
Комментарии (72) на запись “Парсер директа и вордстата Магадан”
Оставить комментарий






Самая полезная информация и софт для ее добычи.
попробуем
Потестить
Выслали два письма.
Просьба оставлять комментарии о пароле здесь: http://l00t.ru/soft/keywords-mining-soft/yandex-direct-wordstat-parser-magadan-1-0.html , а на текущей странице лучше комментировать саму программу. Спасибо! :)
первые впечатления…
минусы того что есть (придирки):
1. все слова сваливаются в 2 файла - названия у файлов стандартные, зависят от даты. А значит если мне надо собрать слова разной тематики и изменять названия нет возможности - прийдется оттуда ручками все доставать и переносить куда надо
в догонку, не сразу понял где искать сами эти файлы, спасло то, что их названия - это ссылки на них, ну и как оказалось свалены они в Мои Документы
2. ну отпарсить txt вида кей:количество_запросов по этому самому количеству я еще смогу, но тем не менее жажду мускла :)
3. непонятно откуда в количестве запросов взялось число -1 ? Может это запросы которые никто не искал? так вроде ищут - если ручками проверить ;) видимо это повторы, интересный способ очистки базы кеев от повторов =))) - так что ждем RTFM
4. заявлена возможность проверки обновлений, но то ли мой фаер все запретил и меня не спросил, то ли функция не доделана?.. Но можно сходить на сайт аффтаров и самим проверить свежатинку
5. тээээкс, к чему бы еще придраться? а вроде не к чему с первого раза, то что нужен дотнет 2 или 3, так он у всех счас пожалуй есть.
тут продолжение
http://gabbamax.ya.ru/replies.xml?item_no=11
1. “Мои документы” пофиксим. Про имена файлов пока вопрос открыт, ибо не очень понятно, удобнее ли будет задавать каждый раз имена для файлов, или все-таки просто жать кнопку “Поехали!” и сворачивать программу, постф-фактум разбираясь с кеями. Для тех, кто парсит коврово, имхо, предпочтительнее будет все-таки второй вариант. В любом случае, в последующих релизах что-нибудь придумаем по этой теме.
2. Сами недождемся когда допишем сохранение в мускул )
3. -1 - это по умолчанию ставится статса для всех кеев.
Иногда она остается в сохраненных результатах, происходит это тогда, когда вхождений нет. Например, если в очередь кеев засунуть слово “машина”, то вордстат вернет статистику только по слову “машины” (!), в итоге в файл запишутся слова машина со статсой -1, и машины - с актуальной, выданной яндексом статсой.
4. нет, функция работает, смотрите в файрволе http-соединения с update.l00t.ru.
Спасибо за развернутый отзыв, мы все палим и мотаем на ус! :)
Не нужно выкидывать словосочетание, нужно просто оставить ту форму слова, которая была задана и сохранить с числом выданым Директом для формы слова, к которому был приведен заданный запрос. Это на самом деле важный вопрос работы, если
этого не будет, то половина ценности этой программы просто потеряна, так как точной статы по интересующим словам просто не собрать.
ПС: Я потому и спрашивал про парсер Рамы, это был бы зачет (особенно с многологинностью:) ).
ППС: Мускул это хорошая идея :) Очень! :D
ПППС: Имя файла лучше задавать в ручную, кома надо тот сам дату вставит :)
Правильно ли я понял что то что в буфере чистится на дубликаты?
Stripe, да, я уже продумал этот вариант с подстановкой статсы из видоизмененной формы. Сделаем!
Очередь чистится на дубликаты, если стоит соответствующая галочка, а директ сам не выдает дубликатов, афаик.
>>а директ сам не выдает дубликатов, афаик.
Разные запросы могут показать похожие результаты в колонке “что искали со словом” (слова “пиво” и “водка”), по 1 проекту загоняется группа слов сразу.
да, это так, но мне представляется невыгодным жертвовать скоростью в ПАРСЕРЕ. Вы всегда можете очистить базу в текстовом файле от дублей, а в релизе с поддержкой MySQL дубли будут чиститься на лету силами СУБД.
Пожалуйста, не забывайте, что это - парсер, а не редактор баз.
Когда у вас текстовики содержат сотни тысяч кеев, открывать их и каждый раз сканировать на дубли весьма невыгодное занятие (тем более, если все это дело хранить в памяти).
Убедили :)
Спасибо вам за конструктивную беседу, очень приятно! :)
Спасибо.
Скачал, по тестим.
такой глюк сегодня, минут через 40-50 работы в поле задержка у меня вместо 10 сек. меняется на 2700
уже дважды произошло, программа в это время была свернута в трей.
и еще буфер ранжирует кеи по кол-ву не верно
вначале все начинающиеся на 1 потом на 2 и т.д.
соответственно хотелось задавать парсинг не случайно а в первую очередь с болшим кол вом слов.
разобрался с этими 2700 сек. в настройках изменил на 10:)
а почему по умолчанию так много выставили?
Прошу прощения, не понял, о каком именно буффере идет речь? По-умолчанию там ни один из буфферов сортировку не производит.
Насчет задержки: вообще, подразумевается, что таймаут происходит при бане со стороны вордстата. Сейчас очевидно, что однократный таймаут - слабое условие для определения бана, фикс будет реализован в следующих версиях Магадана, спасибо.
в буфере ключевики которые добавляются было бы не плохо если бы их можно ранжировать по количеству запросов.что бы парсились не в том порядке как добавляются, а выстраивались от большего к меньшему.
если сейчас нажать на стрелку запросов они выстраиваются по первой цифре, а не по числу.
Все, понял, спасибо, реализуем!
а если усложнить задачу:
первое и самое простое, для ключевиков в буфере ввести допустимый миниум,чтобы я мог выставить
допустим 1000, и соответственно из связей на парсинг если запросов менее 1000 ничего не попадет.
второе более сложное, реализовать функцию распарсивания кейворда. Ставим чекбокс распарсить, и в буфер с кейвордами подгружается список не связей , а кеев что искали со словом.
соответственно должна быть функция описаная в первом пункте, установки миниума.
тоесть вводим слово “порно” ставим распарсить,выставляем миниум 200 под буфером и нам туда в буфер на парсинг подкидывает все что более 200 по кею “порно”
>> и соответственно из связей на парсинг если запросов менее 1000 ничего не попадет.
Не понял о чем вы. Для связей, попадающих на парсинг, уже есть возможность указать допустимым минимум. Объясните пожалуйста еще раз, только просьба на всякий случай каждый раз уточнять, какой буффер вы имеете ввиду :) Тот, что слева, мы называем очередью, справа соотв. “левый” и “правый” буффер ) Вы можете называть как вам угодно, но чтобы все понятно было :)
>> Ставим чекбокс распарсить, и в буфер с кейвордами подгружается список не связей , а кеев что искали со словом.
Если я правильно понял, вы предлагаете при нахождении связи вида “купить машину”, распарсивать ее на отдельные кем (_слова_ языка), и в итоге, при удовлетворении остальным условиям, добавлять в общую очередь кеев слова “купить” и “машину”? Если это не так, то простите, я снова не очень уловил вашу идею :)
Подобный же подход хоть и рассматривался нами, не был принят (пока) в серьез, поскольку парсинг обычно ведется от ВЧ к НЧ, а если нет, то наверняка вам не очень интересны однословные ВЧ. Пока не хотелось бы на горячую голову условжнять интерфейс. В первую очередь кажется целесообразным ввести фильтр на попадание в очередь тех кеев, которые содержат в себе, например, основной (исследуемый в настоящий момент) кей. Что думаете?
>>
Если я правильно понял, вы предлагаете при нахождении связи вида “купить машину”, распарсивать ее на отдельные кем (_слова_ языка), и в итоге, при удовлетворении остальным условиям, добавлять в общую очередь кеев слова “купить” и “машину”? Если это не так, то простите, я снова не очень уловил вашу идею :)<<
со связями на парсинг однозначно протупил, действительно все есть, просто не прерывал 14 часов,не эксперементировал…
а насчет распарсивания..не так поняли.
берем слово “порно” пошло парсится. чтобы слова которые идут с этим словом попадали в очередь
а не так как сейчас связи.
пример
порно:7776336
порно видео:661252
бесплатное порно видео:148349
бесплатное порно:580173
бесплатные порно ролики:65249
и т.д.
вот эти слова и записывать в очередь чтобы распарсивать потом поочередно
порно видео
бесплатное порно видео
бесплатное порно
бесплатные порно ролики
и под очередью для этого ограничитель на колво запросов, чтобы попадали туда слова с запросом не менее определенного числа
а, т.е. чтобы в очередь попадали кеи из столбца “Что искали со словом «порно»”?
А какой смысл? Вот парсите вы слово “порно”. На первом листе находите кей “бесплатное порно”. Этот кей сохранился. Если мы добавим его в очередь, и начнем парсить, мы получим те же самые кеи, которые получили бы для слова “порно” (ведь “порно” входит в “бесплатное порно”, а мы ищем все, что содержит в себе “бесплатное порно”).
Проведите эксперимент: по запросу “бесплатное порно” мы находим “порно бесплатно без смс” (4178). Если вы распарсите вордстат по слову “порно”, вы стопроцентно получите в результатах то же самое “порно бесплатно без смс” (я проверил).
Единственное - в теории возможно в столбце связей для “бесплатное порно” окажутся новые слова, но вообще надо ставить эксперимент.
/**
Камент стерт (тут были адал-НЧ от комментатора, по которым страница Магадана через пару апов вылезла в топ).
99th.
**/
гм. Хорошо. Я повторю ваше эксперимент и, если что, сделаю возможность пополнять очередь словами из обоих столбцов. А пока повешу на эту страницу пару баннеров смс-партнерок, ибо скоро пойдет траф по адалт-нч ;)
Заценил я парсер. Впечатления положительные, работает вроде без глюков и очень быстро, это хорошо, но вот что расстроило: все что он нашел сохраняется в тхт. это понятно…но результат посмотреть в самой проге нельзя после отработки…а хотелось бы…а то приходиться грузить все в ексель..и уже там глядеть чего и сколько.
Думаю фукнция просмотра результата в самой проге не лишняя….да и соответсвие что бы можно было видеть: что “искал этот человек”, и что он искал “еще”, а то получается что эти результаты мы видим только в момент обработки ключей.
а в целом - очень, очень не плохо!
Первая задача Магадана как парсера - массово собирать слова. Для точечных выборок с последующим ручным анализом связей существует множество других бесплатных инструментов, как десктопных, так и скриптов.
Так или иначе, все связи хранить в текстовиках нам кажется неразумным (разве что как отчет это дело представлять, но тут мы опять отходим от основной задачи Магадана). Однако, сохранение связей между ключевиками будет реализовано в версии с поддержкой СУБД, так что следите за новостями! :)
Спасибо :)
я только “старт” нажал, увидел как слова вывалились, быстро глазами пробежал - ОТЛИЧНО!!!
Хороший парсер, вот только нельзя сделать чтоб при нажатии на крестик (выход) программа не сворачивалась? (ну или сделать чтоб в настройках где-нибудь можно было так сделать), т.к. я в proxyswitcher привык, что на крестик тоже сворачивается программа и несколько раз закрыл ее)))))
2) А чем очистить теперь кеи от количества запросов?
дык она и не сворачивается ) или в смысле чтобы наоборот - сворачивалась? Ок, сам думал об этом, добавлю.
Кеи очистить ручками либо сторонними утилитами. Мы пока свою чистилку не дописали. В крайнем случае можно парсить без сохранения количества запросов :)
Ептаа… Чет я не заметил про количество запросов…
>или в смысле чтобы наоборот - сворачивалась?
Да, чтоб сворачивалась, просто немного не так написал)
Хорошо бы также прикрутить выбор региона при парсинге. Может сделаете?
Будем думать ;)
Отличный инструмент, спасибо!
И в первой версии, отображение “Ключевиков в очереди” отбражалось правильно - уменьшалось последовательно и соответствовало колличеству загруженных. В этой версси хоатично изменяется от запроса к к запросу.
Загрузил 2000, а в процессе отбражает от 5000, до
2000.
Alexander, не могу поймать подобный баг с отображением количества. Не могли бы Вы написать на support@l00t.ru подробнее, что и как вы делали, когда получили подобную ошибку? У меня в очереди сейчас более 2к ключевиков, и количество растет, на первый взгляд, корректно. Если не сложно, скиньте ваши ключевики которые загружаете, и условия, с которыми парсите - я попробую в точности повторить ваши действия. Спасибо.
1. тоже сначала хотел придраться к тому, что нельзя заранее имя файла писать и вообще постоянно в эти файлы все валится, но в принципе, все-таки потом нашел это удобным - пропарсил, изменил имена файлов и далее…
2. хотелось бы чтобы было все таки 2 варианта сохранять: и с количеством запросов, и без него (сейчас для этого надо либо парсить второй раз, либо очищать текстовый файл от цифр). Но блин, думаю как будет реализовано сохранение в мускул, этого не надо будет…
3. Когда я добавил в парсер (поле “очередь кеев на парсинг”) текстовый файл с кеями “что еще люди искали…” , то в поле “кей”, кей был вместе с количеством запросов. т.е. количество запросов не было в поле “запросов”.
4. не понял зачем меню “программа”, в котором всего лишь пункт - “закрыть программу”? думаю это для чего-то дальнейшего?
5. Также пункт меню “инструменты” - назвать бы его уже “настройки” и убрать эту большую кнопку “остальные настройки”…
6. это я уже вообще придираюсь - в заголовке окна буква “М”, выполненная в виде изображения, слишком далеко стоит от “агадан”. Просто как не посмотрю туда - видится мне, что прога называется “агадан”. может не надо этих изысков в виде изображения? :)
7. Парсер мне понравился, все что выше описал, это все то, что “вот блин под меня”. И так жить можно :)
8. Ну и самое главное - глюков пока не заметил.
1. Мне тоже кажется это удобным (этот подход достался Магадану от YaOnAir, где он полностью себя оправдал), но в готовящемся релизе можно задавать свои префиксы для файлов.
2. Ну как бы с текстовиками иначе никак, если не заниматься отдельно вопросом визарда по чистке кеев. В мускуле, конечно же, с этим будет намного удобнее.
3. Вообще очередь не поддерживает загрузку кеев с указанными статсами. Действительно, как-то не задумались над этим ) Доработаем.
4. Задумывалось для дальнейшего, как и блок с данными по MySQL-соединению. Хотя сейчас уже не уверены в необходимости этого пункта.
5. Вообще там будут инструменты, так что этот пункт меню менять не станем :)
6. Можем специально для вас выложить версию с “Магаданом” в заголовке ) Поверьте, это смотрится еще хуже ) Изыск тут не ради изыска :)
7. Бгг ) да мы пока ничего подобного в паблике не видели, не учитывая неудобных (по мнению редакции :)) php-скриптов, и пары ПЛАТНЫХ десктопных приложений, совершенно неприспособленных для коврового парсинга. Чисто так, вручную пару запросов проверить.
8. Мы пока явных глюков тоже не наблюдаем, а мелкие фиксятся нонстопом и будут полностью устранены в следующем, скором релизе.
Спасибо за ваш второй отзыв! :)
Парсит отлично, мои благодарности разработчикам. :)
Из пожеланий: есть очередь кейвордов, кейворд пропарсился и удалился, а следом за ним парсится следующий, благодобря которому из “Что еще искали люди, искавшие это слово?” в очередь попадает кей, который уже отпарсился.
Так вот, суть моего предложения в том, чтобы отпарсившиеся кейворды из очереди не стирались, а переходи в состояние “пропарсился”, чтобы не происходило повторное его отпарсивание. О как :)
Ах да, совсем забыл. Такая же ситуевина с кеями, которые из очереди удаляются ручками. Хорошо было бы сделать, чтобы удаляемые ручками кеи не удалялись буквально, а меняли статус на “нинадапарсить”. :)
Прикольная штука.
2zeoman: да, проблема нам известна. Более того, в грядущем релизе она будет усилена добавленными возможностями по автосортировке очереди и ее (очереди) сохранению в текстовках, чтобы была возможность выходить из программы, а далее продолжать с того места, где остановились во время предудыщей сессии парсинга ключевых слов.
Но решение с неудалением кеев из очереди мы отвергаем по той причине, что очередь может достигать внушительных размеров, что вызовет нереальной торможение графического интерфейса, плюс торможение при проверке на дубли.
Проблема будет качественно решена в версии Магадана с поддержкой СУБД (MySQL) - там все работы по отлову дубликатов будут лежать на СУБД, что, в свою очередь, обернется минимальными временными затратами на весь процесс проверки поступающих кеев.
Поддержка MySQL должна появиться уже в ближайших релизах.
99th, замечательно. :) продолжаем ожидать новую версию.
Спасибо за ваш отзыв! :) Подписывайтесь на RSS: http://l00t.ru/feed :)
все супер
да вот только зачем в файл с кеями писать кол-во запросов, ни когда не понимал, это вообще не нужно, ну разве что для базы, тогда да, а так сразу хочется заюзать готовый файл, а теперь придется как-то очищать от статистики
и еще, такая фишка как удаление кеев по слову, но для этого нужно, чтобы после парсинга база сохранялась в проге, тоисть добавил кей, распарсил, кеи закончились, и все, теперь этот кей будет висеть в левой колонке, и в следующий раз я могу к нему обратится, если понадобится, соотвественно базу хранить в отдельном для этого файле
вообщем, реализовать это, и можно продавать;)
В следующем релизе очередь сохраняется, а вообще все решится в версии с MySQL.
Спасибо за отличную программу. Рекомендую всем.
С Огромнейшим нетерпением пользователи Магадана ожидают выхода следующей версии. Их нетерпение выплескивается через край и заливает пол возле компьютеров. Течет слюна… Руки дрожат…
Мне, как активному пользователю Магадана, Очень хочется знать, когда же появится тот самый, долгожданный, ожидаемый и вожделенный парсер ключиков, который сможет всецело удовлетворить потребности русского дорвейщика в части получения жизненно необходимых компонентов для создания великолепных дорвеев? :)
да я все никак не могу решиться - новая версия конкретно обламывается без mysql, работать стало во многом удобнее, но следить за процессом парсинга теперь необходимо более тщательно.
Сам по себе релиз готов, если есть желание - пишите на admin@l00t.ru, скину бетку на тест.
99th, я за процессом и так слежу постоянно, чтобы всякая бяка не лезла в очередь. письмо написал :)
ну вот это плохо :( Магадан должен работать так, чтобы вообще можно было не следить. Мы к этому стремимся, но платформа текстовиков себя не оправдывает.
В общем делаем mysql, а бетку новой версии на текстовиках будем рассылать только страждущим, как-то так.
спасибо, попробовала, буду юзать )
конечно слегка неэтично тут спрашивать, а для гугла такую штуку расширять не планируете?
Хорошая прога, 2 замечания:
1)Надписи к интерфейсу написаны для тех кто программировал а не для тех кто первый раз видит прогу. До многого доходить приходилось интуитивно или путём тыка. Например “Допустимый минимум” чего? И ещё кажется если не стоит радиокнопка на Что ещё искали люди, искавшие это слово то парсится толкьо первая страница выдачи по запросу…
2)Расскажите подробней как обходится бан? Что за 3 таймаута? о чём речь? капча имеется в виду? и почему такое большое число задержки 2700 сек после ошибки загрузки страницы? Мне друг говорил что он ставил 500 и всё было отлично.
Респект огромнейший авторам!
Запарился руками выгребать
Всегда пожалуйста, приходите еще! :)
Спасибо за отличную программу.
Респект =))) Пасиб =)
Спасибо. Лучший парсер из всех что я видел.
Спасибо автору! Жду с нетерпением других програм. Побольше различных регеров…
Было бы просто здорово, если бы был выбор региона.
Спасибо большое за программу.
Спасибо, остальные проги тоже юзаю и гуд =)
Неплохой инструмент , при тестовой выдаче выдал все адекватные результаты
+1.3(666)
Сложно (не просто) дас гут!
Суперская прога. Спасибо большое.
А возможно в ней поставить настройки подбора слов также по городам? Я что-то не нашел)
Нет, нельзя :)
Было бы неплохо если в новой версии появилась опция одбора кеев по количеству запросов
Да программа спасает лучшая!
Добрый день, а когда ждать обновления ? Особенно поддержку прокси :) Спасибо
Здрасте! Такая проблема, прога что-то не работает, при открытии пишет: “YaOnAir - обнаружена ошибка. Приложение будет закрыто. Приносим извенения за неудобства”. Хотя до этого приложение работало как часы(такая фигень стала вылетать после удаления (по ошибке) и повторного скачивания)
PS: это вопрос уже писал, однако по каким-то неизвестным причинам, он не добавился.
не знаю в чем дело, кидайте скрин с ошибкой.