
Забавная навигационная закономерность
Недавно написал, что не верю в то, что существует удачный алгоритм выделения навигационных запросов, но Виталий подсказал очевидную идею. Согласно Бродеру, навигационный поиск - это поиск известного объекта. Если "объект" = "сайт", то поиск его осуществляется с помощью т.н. "навигационного" запроса. Но что интересно: видимо, некоторые запросы кажутся пользователям не очень уж навигационными и они усиливают требование "известного объекта" с помощью фразы "официальный сайт".
Например, формулировок запросов типа "картошка + официальный сайт", "пластиковые окна + официальный сайт", "дизайн + официальный сайт", "продвижение сайтов + официальный сайт" нет, а вот "официальный сайт megafon", "официальный сайт гибдд", "официальный сайт honda" - пожалуйста. Кто знает, почему люди так делают...
- Сколько времени?
- Пять часов.
- Точно пять?
- Да.
- А ты уверен?
- Я на часы смотрю!
- А уверен, что часы точные?.. и т.д.
Таким образом приставка "официальный сайт" как бы показывает, что все, что находится в запросе, кроме нее, представляет собой отдельный навигационный запрос. Формулировки для анализатора навигационного поиска вручную отбирались из наиболее частотных запросов. Можно ли было найти их как-то совсем автоматически?
Для проверки определим наличие для каждого запроса из списка-281 запроса вида
/запрос/ + официальный сайт, либо
официальный сайт + /запрос/
Причем учитывать будем только "тупые" комбинации, когда пара существует в единственном экземпляре и без морфоразбора. Например, есть запрос "хундай" с частотой аж 10611 обращений в месяц, и проверка показала, что существует запрос "официальный сайт хундай" с частотой 72 обращения в месяц. В этом случае автоматически делаем вывод, что "хундай" - запрос самый что ни на есть навигационный.
В случае же запроса "макдональдс" (частота 7541), видим, что есть запросы "официальный сайт макдональдс" (165) и "официальный сайт макдональдса" (52). Так как слить вариант в родительном падеже с именительным мы пока не умеем, то считаем, что запрос не в единственном варианте, поэтому автоматически считать его навигационным не будем.
Оказалось, что автопоиском по этой максимально простой методе можно было найти 150 запросов из 281 - 53%! Причем, большинство формулировок вполне склоняются, см. список.
- - -
1с бухгалтерия
5 канал
абсолют банк
авиакомпания сибирь
авторадио
адидас
аиф
альфа банк
альфабанк
аптека 36 6
аргументы и факты
аэропорт внуково
балтийский банк
банк ренессанс капитал
банк русский стандарт
банк уралсиб
библио глобус
библиоглобус
бин банк
большой театр
ввц
вгик
верховный суд рф
вестерн юнион
википедия
газета жизнь
газета спорт экспресс
гидрометеоцентр
гисметео
глюкоза
голден телеком
госкомстат
гостиница космос
государственная дума
дельта банк
единая россия
желтые страницы
жж
живой журнал
журнал максим
журнал радио
журнал эксперт
иль де боте
импексбанк
импэксбанк
инвестсбербанк
ингосстрах
инком авто
инком недвижимость
инна тур
интерфакс
итар тасс
кавказ центр
камаз
канал спорт
капитал тур
карбина
касперский
киевстар
комус
консультант плюс
корал тревел
корбина
красный куб
лексус
ленком
ленэкспо
лэтуаль
м видео
магазин мир
мазда
мариинский театр
мастер банк
масяня
мгимо
мгиу
мгсу
мгту им баумана
мдм
мдм банк
миан
миит
министерство обороны
миэль
ммвб
московский дом книги
московский зоопарк
московский кредитный банк
москоммерцбанк
моторола
нева тур
новая газета
номос банк
норбеков
нтв плюс
орифлейм
планета фитнес
плейбой
почта россии
пробизнесбанк
пятерочка
работа для вас
рамблер
рбк
рено
ресо гарантия
риа новости
рольф
росбанк
росевробанк
росно
россельхозбанк
российская газета
российские железные дороги
росстрой
ростелеком
ртс
сатирикон
седьмой континент
сектор газа
сити банк
скайлинк
скайп
советский спорт
соло на клавиатуре
спасские ворота
спорт экспресс
справедливая россия
стрим тв
сургутнефтегаз
техно сила
техносила
транснефть
триал спорт
тройка диалог
уаз
фаберлик
федеральная регистрационная служба
финансбанк
фк спартак москва
фонд социального страхования
хонда
хундай
экспобанк
экспоцентр
экспресс газета
элекснет
эхо москвы
юкос
якитория
- - -
Вроде, алгоритм несложный, но поисковики, кажется, в этом направлении не особо копают, хотя подумать есть над чем. Например,
Запрос "якитория", Гугл, первая позиция - yakitoriya.ru
- якитория официальный сайт - gomelskie-sayty.net.ru/Jl_10.htm
Запрос "государственная дума официальный сайт", Яндекс, первая позиция -
www.duma.gov.ru
- государственная дума -
www.akdi.ru/gd/
И т.п. Разницы в выдаче для таких вот даже автоматически определяемых навигационных запросов сколько угодно.
Не все, конечно, определяются автоматически, но уж определить падежи или даже влегкую пробежать список глазами - проблема намного меньшая, чем выделять навигационники из общего списка, в котором свыше 10 млн формулировок.