Новая разработка Звоните: +7 (929) 285-70-80 (МегаФон Урал)

Сайт "Работа в Республике Коми"

Информация о рынке труда в Республике Коми.

Новости и статьи о работе.

Подробнее

База поисковых запросов Яндекса

В октябре 2009 года у нас проходил практику студент одного из местных ВУЗов. Внешне ничем не выдающийся практикант, на последней неделе практики привлёк наше внимание к своей персоне. В тот день он принёс нам базу популярных поисковых запросов, которые пользователи ищут (спрашивают) у самого популярного российского Интернет-поисковика "Яндекс".

Вообще-то, в базе были все запросы за один из дней октября 2009 года. Но так как в ней были не только слова и словосочетания, но и статистика по количеству обращений с ними к поиску, то составить из них рейтинг "Самые популярные поисковые запросы Яндекса" труда не составило. Мы немного поработали с этой базой, выкинув всё неприличное и не интересное. И мы убедились, по косвенным признакам, что эта база вполне правдива. Но студент сохранял интригу и не рассказывал нам, где он разжился такой информацией.

Один наш коллега предположил, что студент купил базу Пастухова и взял информацию из неё. Остальные сотрудники сразу отмели эту идею, так как: "Откуда у бедного студента $500 для покупки базы Пастухова?". А в свободном доступе (у пиратов или хакеров) этой базы нет. Все объявления типа: "База Пастухова скачать бесплатно" или "скачать на халяву  Базы Пастухова" ведут в никуда... И по объявлениям "База 66,000,000 русских ключевых слов (слова с данными, 600МБ) скачать" либо вирусы, либо трояны, рассчитанные на отклик со стороны совсем необразованной молодёжи.  Наш же студент, хоть и был молод, но необразованным его никак было не назвать.

Тогда, кто-то предположил, что студент просто тупо копировал данные из last20.xml Яндекса, а потом как-то "сшивал" их. Примитивно, но мы не большие гении в плане парсеров, поэтому до большего не додумались. Зато додумались надавить на студента и отказались подписывать ему отчёт и дневник по производственной практике, пока он нам свою технологию составления базы поисковых запросов в Яндексе не поведает.

Наш студент загрустил, но куда деваться? И поведал нам свою нехитрую технологию. Оказалось, что он использовал и last20.xml, и wordstat, и парсер, и сервер своего ВУЗа, и 6 разных IP-адресов. Парсер он написал сам. Поставил его на сервер института и "привязав" к нему 6 раздобытых разными путями IP-адресов, "натравил" на last20.xml. С каждого IP-адреса шли запросы и грабились результаты их last20 с интервалами в 3-5 секунд. Результаты сохранялись в базе данных MySQL и через определённые интервалы прогонялись по wordstat'у и сохранялись в новой базе. Дамп этой финальной базы он нам и принёс.

А мы её долго и нудно, почти вручную чистили. Да ещё зачем-то (изначально неправильно) пытались скопировать данные в MS Excel. Просто не подумали, что у Экселя есть ограничение на число строк (и прочих параметров).

Таким образом, студент показал себя в этом вопросе умнее нас, за что получил наше признание и хорошую (но не отличную!) оценку за прохождение практики. Некоторые могут посчитать, что мы не аргументировано поставили студенту-практиканту хорошую оценку. Мол, можно было оценить его инициативу и на "отлично". Но мы посчитали, что его идея не нова и ещё довольно "сыра". Ведь от статистики поисковых запросов Яндекса самой по себе мало толку. Вот если бы наш практикант смог сделать выборку по запросам мужчин и женщин или же по возрастам или ещё как, то он получил бы "отлично", а так, за набор слов и словосочетаний, хорошей оценки вполне достаточно. Кстати, ВУЗ ему тоже поставил "хорошо". И это тоже довольно много, ведь студент "гонял" их компьютеры в своих интересах (хоть и не корыстных).

Текст © Спицын Владимир, 2009 (специально для сайта "Интернет Коми": www.internet-komi.ru)

Интересные статьи

Четырёхсимвольные домены в зоне RU

Как сменить IP-адрес?

Самые популярные запросы в Яндексе

Как восстановить флешку?

Интересные сайты

www.komiarenda.ru - сайт-навигатор по организациям и предпринимателям, оказывающим услуги аренды и проката различных предметов, вещей и имущества в Республике Коми.

www.posutochno11.ru - сайт компании "Комфорт": посуточная аренда квартир в Сыктывкаре.

Полезные сервисы

Домены и хостинг от регистратора №1 в России

Если не устраивает хостинг в Москве, то берём в СПб

Нанять фрилансера или самому пофрилансить

Купить готовый сайт, или продать свой

Авторское право © Агентство "Интернет Коми", 2007-2017. Все права защищены

Копирование материалов разрешено только с указанием видимой ссылки: http://www.internet-komi.ru

Создание сайтов в Сыктывкаре, реклама в Интернете, купля/продажа/аренда доменов и сайтов, баннеры и веб дизайн, хостинг сайтов Республики Коми

Хостинг для серьёзных проектов