Адрес: https://polit.ru/article/2010/08/09/poiskoviki/


09 августа 2010, 09:30

Шмуглы

 

Альтернативные поисковики

Нынешний поисковый гигант Google неуклонно рос с момента рождения (1998 г.), но теперь заговорили о том, что его доля стала сокращаться под напором конкурентов, которые тоже осваивают новые технологии и методы и набирают популярность. Недавно на сайте CNN Money опубликовали статью с подробным анализом того, кто и на каком основании конкурирует с Google и какие у этого могут быть последствия (пересказ статьи по-русски можно найти здесь). В числе его конкурентов, в частности, называют Apple с его операционной системой (iOS), гораздо более популярный, чем ее аналог Android, который теперь принадлежит Google; растущие социальные сети (прежде всего FaceBook) как более надежный и эксклюзивный источник информации; поисковики YahooBaidu и Microsoft Bing [1], которые по эффективности поиска уже мало уступают Google (а в России, скажем, Google заметно отстает от Яндекса).

Но помимо Google и его мейнстримных конкурентов, в сети есть масса так называемых «альтернативных» поисковиков, число которых неизменно растет. Среди них есть и коммерческие, и любительские, и исследовательские проекты. Каждый поисковик обычно специализируется на разработке какого-то определенного принципа.

«Нишевые» поисковики

По-английски их называют “niche search engines”, и это, пожалуй, самый распространенный тип поисковиков. Их задача в том, чтобы отбирать ссылки определенной тематики – например, только картинки (например, Picsearch), аудио (Poiskm) или видеозаписи (Blinx). Поиск текстовый: в строку вводятся ключевые слова, и система выдает подборку более или менее релевантных ответов. Специализаций существует множество: Technorati.com ищет по англоязычным блогам; FilesTube и DownloadAnyStuff ищут всё, что можно скачать; Scirus ищет размещенные в Интернете материалы научной тематики; Интернет-архив, появившийся в 1996 г., использует сервис WayBack, позволяющий смотреть, как выглядела та или иная страница в прошлом, даже если этой страницы больше нет.

Бывают совсем экзотические поисковики. Например, FindSounds специализируется на звуках (храп, коровье мычание, скрип двери и многое другое); ищет по английским, французским, немецким и испанским ключевикам. Наконец, встречаются устройства, которые показывают, какие из ближайших магазинов сейчас открыты, ищут цитаты и крылатые выражения и рецепты разных блюд.

Классифицирующие поисковики

Кластеризующие поисковые системы стали появляться с середины 2000-х гг. Это поисковики, которые выдают результаты, группируя их по темам. В 2005 г. в России появилась такая система – Nigma.ru. В ответ на запрос (например, «Полiт.UA») она выдает список тематических групп (в случае с Полiт.UA – «полiт», «политика», «публичные лекции», «Полит.ру», «Украина» и т.д.). Если выбрать одну из групп, откроется ряд подгрупп, которые тоже можно выбирать, уточняя таким образом подборку ссылок в соответствии с поисковым запросом. При этом она ищет как по собственной базе, так и с помощью крупных поисковиков. Немного раньше появился аналогичный американский поисковик Clusty, который потом переименовали в Yippy. В свое время о нем писали как о серьезном конкуренте Google (на том основании, что ранжирование страниц, благодаря которому Google стал поисковым гигантом, позволяет только отсеивать заведомо неинформативные рекламные сайты, а кластеризация подразумевает интеллектуальную обработку материала и тематический подбор). В 2006 г. появилась еще одна российская кластеризирующая система Quintura.

Мультимедийные поисковики

Год назад Google провел исследование, чтобы выяснить, чего хотят пользователи от современных поисковиков. Как и следовало ожидать, основная масса пожеланий свелась к тому, чтобы система читала мысли пользователя (а также понимала человеческую речь «на слух», угадывала настроение, говорила человеческим языком, оберегала детей от зла и т.п.). Так как технических средств, чтобы добиться всего этого сразу, не хватает, разработчики идут разными путями.

3D

Одно из направлений напрямую связано с расширением мультимедийных возможностей у современных компьютеров. С одной стороны, в сети становится всё больше аудио и видеофайлов, с другой стороны, у нынешних компьютеров появляются такие параметры, которые позволяют загружать тяжеловесные страницы с анимацией и 3D. В связи с этим, например, стали развиваться так называемые 3D поисковики, которые, правда, пока остаются в основном громоздкими системами с претензией на развлекательность. Таков, например, запущенный в 2008 г. проект ExitReality. ExitReality – это браузерный плагин, показывающий любой вебсайт в формате 3D, иными словами в виде помещения, по которому можно перемещаться в качестве аватара или без него, щелкать по ссылкам, просматривать видео (отображаются в виде изображения на теле/киноэкране) или картинки (размещенные на стенах). В качестве поисковика ExitReality специализируется на поиске 3D-контента: например, если там набрать «Paris» (по-русски система не понимает и кириллицу не распознает), то выпадут ссылки на 3D-симуляторы окрестностей Триумфальной арки, по которым опять же можно ходить в виде аватара. Зачем это нужно, не вполне ясно, из-за обилия расчетов страшно тормозят даже вполне быстрые компьютеры, и пользовательских симпатий система не завоевала. Те, кому нужен обширный 3D-чат с Триумфальной аркой и Красной площадью, видимо, обитают в сети Second Life, принцип которой проект ExitReality пытался применить к работе в Интернете.

Тем не менее, элементы 3D в оформлении поисковиков продолжают использовать. Такие системы становятся известными, прежде всего, благодаря своему внешнему виду и формату, в котором они выдают данные. Space Time 3D представляет собой скорее интерфейс поисковика. Результаты берутся из крупнейших поисковых систем (запросы можно делать только латиницей) и оформляются в виде скриншотов вебстраниц в разной степени удаленности от пользователя. Классификации страниц нет, релевантность весьма относительная, скорость очень низкая. Единственное достижение системы — необычный внешний вид и, действительно, своего рода 3D.

Еще один пример — поисковик изображений и видео (на основе результатов Google) SearchCube. Он выдает результаты в виде картинок, налепленных на грани куба, который можно вращать во все стороны и выбирать понравившиеся. Работает тоже довольно медленно и носит, по-видимому, развлекательный характер.

Нетекстовый поиск

Эти поисковики совершенно иного рода. Их разработчики пытаются создать систему, которая бы искала не по словам. У текстового поиска, при несомненных достоинствах, есть серьезные ограничения. Например, если нужно определить музыкальное произведение по мелодии (а иногда других данных нет), текстовый поиск не поможет. Обычно в таких случаях приходится обращаться к сообществу социальных сетей, что тоже не всегда эффективно. В качестве промежуточного варианта создаются специальные сообщества, где можно напеть/наиграть/загрузить мелодию, чтобы другие члены сообщества попытались определить, что это. В этом смысле наиболее прогрессивное решение предложил проект Musipedia (музыкальная энциклопедия, созданная по образцу Википедии). Этот поисковик позволяет вводить запрос в нескольких форматах — записать музыкальный фрагмент нотами, наиграть на флеш-пианино, напеть, выбить на клавиатуре ритм. Всё это можно сопровождать текстовыми дополнениями. Musipedia в основном использует собственную базу данных, пополняемую пользователями, а также ищет MIDI-файлы по сети. Эффективность поиска относительна. Musipedia хорошо, хотя и неидеально, находит академическую музыку, но пока доступные ей базы далеки от всеохватности.

Поисковики изображений ставят перед собой аналогичные задачи. Помимо текстового поиска, они предлагают пользователю загружать картинки со своего компьютера и ищут подобные им; предполагается, что таким образом удастся определить, что изображено на картинке. Поиск осуществляется примерно так же, как в случае с текстом. В тексте выделяются ключевые слова, в изображении — ключевые элементы (например, композиция, форма, цвет). В качестве примера можно привести такие системы, как TinEye.com, Sapir (довольно слабый поисковик, разработанный IBM) или отечественный Piccolator. Наконец, некоторые разработчики уделяют особое внимание поиску по загруженным видеофрагментам. Здесь дело осложняется тем, что нужно в сжатые сроки обрабатывать файлы очень большого размера. Таких поисковиков пока нет, зато есть несколько проектов. В 2009 г. в Интернете промелькнуло несколько статей о запуске инновационного проекта DIVAS, использовавшего метод идентификации видео по параметрам, которые называли «цифровыми отпечатками пальцев» (digital fingerprints). Но страницы с бета-версией уже не существует, а о проекте больше не говорят. Этот проект разрабатывался в рамках программы Европейской комиссии CORDIS, которая занимается IT-проектами. На сайте комиссии можно найти целый список проектов, развивающих технологии мультимедийного поиска.

Человеческий язык

Как показали данные опроса Google, потребность в голосовом общении с поисковиками у пользователей есть. В сети пока практически нет поисковых систем, которые бы отзывались на человеческий голос. В принципе, такую возможность предполагает экспериментальный поисковик Voccal, но чтобы вступить с ним в устное взаимодействие (по-английски), нужно сначала договориться с операционной системой на своем компьютере и настроить в ней расшифровку речи, если это предусмотрено. Более серьезные шаги в этом направлении предпринимает Google, который открыл бета-версию сервиса GOOG-411, позволяющий американским пользователям связаться с поисковой системой с помощью мобильного телефона.

Но распознавания речи и реагирования на ключевые слова еще недостаточно: в идеале система должна разговаривать с пользователем, задавать ему уточняющие вопросы, понимать, в каком смысле он употребляет слова. Этим занимаются разработчики многочисленных «интеллектуальных» поисковиков, ставящие себе задачей обучить машину так, чтобы она учитывала человеческий фактор.

Среди таких разработок выделяется целая категория систем, специализирующихся на разговоре с пользователем (по-английски это называется natural language search engines). Одной из первых попыток стала система Ask.com (есть русскоязычный вариант, но возможностей у него гораздо меньше), которая, с одной стороны, может искать по ключевым словам (с тематической группировкой результатов), а с другой стороны, умеет отвечать на обычные вопросы (например, «Который час?» - здесь она попросит уточнить, где пользователь находится).

Поисковик Lexxe.com тоже отзывается на некоторые вопросы. Если его о чем-нибудь спросить, он сначала выдаст собственный ответ (да/нет/краткую информационную справку), а ниже покажет результаты поиска. Некоторые ответы, правда, иногда далеки от истины. Например, на вопрос «Do you speak Russian?» система отвечает “Yes”, но на русскоязычные запросы, тем не менее, не реагирует.

Забавный поисковик START, созданный в Массачусетском технологическом университете, скорее похож на виртуального бота-собеседника, но заточен именно под информационные запросы. При этом его задача — ответить на вопрос, а не дать максимальную подборку релевантных ссылок. Поэтому ответом, скорее всего, будет выжимка из какой-нибудь (англоязычной) статьи в Википедии со ссылкой на источник.

Поисковик Powerset, использующий алгоритм семантического поиска и заточенный под Википедию (по-русски не ищет), реагирует на вопросы и при этом, исходя из запроса, предоставляет обширный инструментарий и навигационные приспособления для извлечения информации из Википедии.

Любопытный эксперимент представляет собой созданный, видимо, забавы ради англоязычный поисковик Omnipelagos.com. Эта система устанавливает связи между двумя понятиями (например, между вороном и письменным столом — правда, довольно условно).

Совсем недавно, в 2010 г., запустили поисковик Yebol. Наряду с поисковиками Hakia и Powerset, эта система использует алгоритм семантического поиска, который подразумевает интерпретацию запроса и призван решать гораздо более сложные задачи, чем те, с которыми работает, скажем, Google (система, в основе которой лежит поиск по ключевым словам и ранжирование страниц). У Yebol удобный интерфейс — он сразу распределяет результаты по различным категориям (с учетом «Твиттера», новостных лент, форумных обсуждений и пр.), — и в ответ на простые запросы он выдает вполне полезные ресурсы. С другой стороны, пока нельзя сказать, чтобы результаты его поиска значительно отличались от результатов Google, хотя иногда ему быстро добираться до не самых очевидных, но полезных ресурсов. Впрочем, вероятно, пользователям, со своей стороны, нужно учиться по-новому формулировать задачи по мере развития поисковых возможностей.

[1] Один сотрудник Microsoft – по его утверждению совершенно бескорыстно, для развлечения, - сделал сайт BlindSearch, который обрабатывает запрос в трех поисковиках (Bing, Google и Yahoo) одновременно. Результаты выдаются в трех колонках, причем какая колонка какому поисковику принадлежит – не видно. Пользователь должен проголосовать за колонку с лучшими, на его взгляд, результатами, и только тогда выяснится, какой это был поисковик.