База поисковых запросов Яндекса
В октябре 2009 года у нас проходил практику студент
одного из местных ВУЗов. Внешне ничем не выдающийся практикант, на
последней неделе практики привлёк наше внимание к своей персоне. В
тот день он принёс нам базу популярных поисковых запросов, которые
пользователи ищут (спрашивают) у самого популярного российского
Интернет-поисковика "Яндекс".
Вообще-то, в базе были все запросы за один из дней
октября 2009 года. Но так как в ней были не только слова и
словосочетания, но и статистика по количеству обращений с ними к
поиску, то составить из них рейтинг
"Самые
популярные поисковые запросы Яндекса" труда не составило. Мы
немного поработали с этой базой, выкинув всё неприличное и не
интересное. И мы убедились, по косвенным признакам, что эта база
вполне правдива. Но студент сохранял интригу и не рассказывал нам,
где он разжился такой информацией.
Один наш коллега предположил, что студент купил
базу Пастухова и взял информацию из неё. Остальные сотрудники сразу
отмели эту идею, так как: "Откуда у бедного студента
$500 для покупки базы Пастухова?". А в
свободном доступе (у пиратов или хакеров) этой базы нет. Все
объявления типа: "База Пастухова скачать бесплатно" или "скачать на
халяву Базы Пастухова" ведут в никуда... И по объявлениям
"База 66,000,000 русских ключевых слов (слова с данными, 600МБ)
скачать" либо вирусы, либо трояны, рассчитанные на отклик со стороны
совсем необразованной молодёжи. Наш же студент, хоть и был
молод, но необразованным его никак было не назвать.
Тогда, кто-то предположил, что студент просто тупо
копировал данные из last20.xml Яндекса, а
потом как-то "сшивал" их. Примитивно, но мы не большие гении в плане
парсеров, поэтому до большего не додумались. Зато додумались
надавить на студента и отказались подписывать ему отчёт и дневник по
производственной практике, пока он нам свою технологию составления
базы поисковых запросов в Яндексе не поведает.
Наш студент загрустил, но куда деваться? И поведал
нам свою нехитрую технологию. Оказалось, что он использовал и
last20.xml, и wordstat,
и парсер, и сервер своего ВУЗа, и 6 разных IP-адресов.
Парсер он написал сам. Поставил его на сервер института и "привязав"
к нему 6 раздобытых разными путями IP-адресов,
"натравил" на last20.xml. С каждого
IP-адреса шли запросы и грабились
результаты их last20 с интервалами в 3-5
секунд. Результаты сохранялись в базе данных
MySQL и через определённые интервалы прогонялись по
wordstat'у и сохранялись в новой базе.
Дамп этой финальной базы он нам и принёс.
А мы её долго и нудно, почти вручную чистили. Да
ещё зачем-то (изначально неправильно) пытались скопировать данные в
MS Excel. Просто не подумали, что у Экселя
есть ограничение на число строк (и прочих параметров).
Таким образом, студент показал себя в этом вопросе
умнее нас, за что получил наше признание и хорошую (но не отличную!)
оценку за прохождение практики. Некоторые могут посчитать, что мы не
аргументировано поставили студенту-практиканту хорошую оценку. Мол,
можно было оценить его инициативу и на "отлично". Но мы посчитали,
что его идея не нова и ещё довольно "сыра". Ведь от статистики
поисковых запросов Яндекса самой по себе мало толку. Вот если бы наш
практикант смог сделать выборку по запросам мужчин и женщин или же
по возрастам или ещё как, то он получил бы "отлично", а так, за
набор слов и словосочетаний, хорошей оценки вполне достаточно.
Кстати, ВУЗ ему тоже поставил "хорошо". И это тоже довольно много,
ведь студент "гонял" их компьютеры в своих интересах (хоть и не
корыстных).
Текст © Спицын Владимир, 2009 (специально для сайта
"Интернет Коми": www.internet-komi.ru)
|
Интересные статьи
Четырёхсимвольные домены в зоне RU
Как сменить IP-адрес?
Самые популярные запросы в Яндексе
Как восстановить флешку?
Интересные сайты
www.komiarenda.ru -
сайт-навигатор по организациям и предпринимателям, оказывающим услуги аренды и
проката различных предметов, вещей и имущества в Республике Коми.
www.posutochno11.ru - сайт компании "Комфорт": посуточная аренда квартир в Сыктывкаре.
Полезные сервисы
Домены и хостинг от регистратора №1 в России
Если не устраивает хостинг в Москве, то берём в СПб
Нанять фрилансера или самому пофрилансить
Купить готовый сайт, или продать свой
|