13 лет назад 9 ноября 2005 в 6:06 59

ЕСЛИ ВДРУГ ОТВЕТ GOOGLE НА ВАШ ЗАПРОС ОКАЗАЛСЯ НЕ ТАКИМ, НА КОТОРЫЙ ВЫ РАССЧИТЫВАЛИ, ЭТО НЕ ПОВОД ОТСТУПАТЬ. ПОПРОБУЙТЕ СДЕЛАТЬ ШАГ В СТОРОНУ.

КЛАСТЕРИЗАЦИЯ
Один из способов уточнить, что именно вы хотели найти – кластеризация. После нахождения массива страниц, соответствующих вашему запросу, система анализирует их содержимое и выделяет ключевые слова, которые встречаются на них вместе с терминами из вашего запроса. В результате формируются подмножества-кластеры страниц, связанных тематически и с большой долей вероятности посвященных различным аспектам заданной темы. Это несколько напоминает работу с веб-каталогами, однако есть и принципиальное отличие: если в каталогах разделы заранее определены людьми и довольно статичны, то кластеры генерируются непосредственно при получении вашего конкретного запроса и получены статистическими методами.

TEOMA
www.teoma.com
Поисковик Teoma (“эксперт”) основан на разработанном IBM алгоритме HITS. В 2001 году он был приобретен компанией Ask Jeeves, которая использовала полученные технологии для совершенствования собственной поисковой машины. На уровне обработки страниц Teoma широко использует наработки теории сообществ, разбивая множество найденных ссылок на тематические кластеры. Кроме улучшения отбора ресурсов кластеры дают возможность реализовать некоторые дополнительные сервисы.

На стартовую страницу Teoma вынесен девиз “Три результата для одного запроса” – и это правда. На странице результатов поиска выделены три раздела, и если простой список найденных и отсортированных ссылок выглядит подобно аналогичным спискам других поисковиков, то два оставшихся раздела (Refine и Resources) характерны именно для Teoma.

Раздел Refine работает на уточнение запроса. Здесь выводятся термины, которые встречаются на найденных страницах вместе с вашим запросом. Добавляя их к запросу, вы переходите к поиску в кластере, соответствующем вашим потребностям, быстро отсекая ненужные ссылки. В результате вам не надо продираться через множество страниц, формально подходящих под запрос, но совершенно бесполезных в данный момент.

Раздел Resources содержит подборку каталогов и страниц, содержащих ссылки на документы, найденные по вашему запросу. По сути, это средство быстрого выявления специализированных каталогов и страниц со списками ссылок по интересующей вас тематике. Не секрет, что такие материалы могут быть поистине бесценным ресурсом для дальнейшей работы.

Возьмем конкретный пример – программирование на PHP. По такому запросу Google выдает единым списком ни много ни мало 20 миллионов ссылок. Teoma же по запросу “php-programming” формирует группу кластеров первого уровня, среди которых кроме всего прочего выделены категории “PHP Tutorials”, “PHP Manual”, “Free PHP Code”. Для начала, согласитесь, неплохо. В разделе Resources выводятся ссылки на ряд крупных порталов, посвященных работе с PHP. В результате буквально через пару минут поиска по, казалось бы, безнадежно широкому запросу, появляется представление о заданной теме и хороший выбор путей дальнейших действий.

Принципиальное отличие Teoma от Google состоит в алгоритме сортировки ссылок по релевантности. Рейтинг страницы, как и в Google, определяется путем обработки ссылок, ведущих на нее с других сайтов. Далее в дело вступает все та же кластерная технология. В отличие от Google Teoma учитывает только ссылки с ресурсов, тематически соответствующих запросу, а не со всех проиндексированных страниц базы.

Есть у Teoma и режим расширенного поиска. Набор опций ожидаемый: фильтр ключевых слов, ограничение по домену или сайту, поиск в заголовках и ссылках, поиск документов на определенном языке. В настоящее время Teoma поддерживает десять языков. К сожалению, русского среди них пока нет, и для нас это главный недостаток данного поисковика.

A9
a9.com
Интересный пример того, что можно сделать на основе известной технологии, сосредоточившись на разработке дополнительных персонализированных сервисов, демонстрирует поисковик a9.com. Официально A9 стартовал в сентябре 2004 года. Принадлежит этот ресурс небезызвестной компании Amazon. Основа поиска A9 – база Google, поэтому ожидать в результатах каких-либо откровений не стоит. A9 берет другим.

Первое, на что обычно обращают внимание при знакомстве с A9, это хорошо отработанные Amazon технологии отслеживания пользовательской активности с последующей подстройкой поисковика под его привычки. После регистрации на A9 активируется ряд дополнительных сервисов: составление собственных аннотаций к сайтам, дневник, поиск по сделанным закладкам и просмотр истории своей работы с A9. Проанализировав собранные сведения о вашем поведении в системе, A9 через некоторое время начнет предлагать вам списки ресурсов, которые, по мнению поисковика, наиболее точно соответствуют вашим интересам.

Вторая особенность A9 – концепция многоколоночного настраиваемого интерфейса. Известно, что тематический поиск по специализированным ресурсам, как правило, более точный и конкретный, чем поиск по источникам общего назначения. В A9 для поиска по различным ресурсам не нужно открывать отдельные окна, достаточно отметить необходимые пункты, расположенные рядом с полем запроса. Результаты выводятся на одной странице в нескольких колонках. По умолчанию это веб, книги и картинки. На странице царит полнейший drag&drop – колонки можно перетаскивать, разворачивать и закрывать, не затрагивая соседние разделы.

Разработчики A9 на этом не остановились и предложили заинтересованной публике API OpenSearch, с помощью которого владельцы крупных тематических сайтов могут создавать собственные колонки для A9, отражающие содержимое их ресурсов. Если такая колонка соответствует требованиям A9, то она будет добавлена в список дополнительных, доступных пользователям поисковика. Представители A9 любят сравнивать эту возможность с RSS, только не для контента, а для технологий поиска. В результате у пользователей появляется возможность собрать именно тот набор дополнительных источников поиска, который будет наиболее точно соответствовать их требованиям. Выбор дополнительных колонок весьма достойный: сейчас там предлагается более двухсот вариантов.

В списке результатов для каждой найденной ссылки приводится пункт Site Info. Щелкнув по нему, вы узнаете некоторые сведения о найденном сайте: от его приблизительного трафика и даты запуска до количества ссылок на него с других сайтов, для чего используется база данных Alexa. В итоге получился своеобразный гибрид поисковика и онлайнового органайзера. Оригинальный, гибкий и довольно удобный интерфейс, набор дополнительных персонализированных сервисов, некоторые из которых уникальны – это безусловные плюсы.

“Мы хотели построить поисковик с памятью, поисковик, который поможет организовать информацию самостоятельно” – это весьма точно характеризующие ресурс слова Уди Манбера, шефа a9.com. Однако функциональность имеет свою цену. Людям, трепетно относящимся к тому, что обозначается емким термином “privacy”, этот поисковик не рекомендован по медицинским соображениям – через недельку активного использования A9 им впору будет бежать в аптеку за валерьянкой. Справедливости ради отметим, что можно просто не регистрироваться в системе, ограничиваясь стандартными средствами поиска.

МЕТАПОИСК
Сам факт наличия множества баз данных сетевых документов, причем проиндексированных с использованием разных методов, создает нишу для целого класса метапоисковых систем. Такие системы не занимаются самостоятельным сбором информации, а отсылают ваш запрос сразу на несколько поисковых серверов, объединяют результаты поиска, производят их дополнительную обработку и выдают обобщенный ответ.

Это улучшает результативность поиска за счет охвата различных баз данных и экономит время, которое пришлось бы потратить на личное обращение ко всем нужным серверам. Такова схема работы полноценной метапоисковой системы. В то же время существует значительное количество “метапоисковых” сервисов, пренебрегающих анализом собранных результатов. В предельном случае вы рискуете получить пару-тройку отдельных окон браузера с результатами от разных поисковиков. Рассказывать о таких системах попросту неинтересно.

Есть у метапоиска и обратная сторона. Для того чтобы свести число выдаваемых ссылок к приемлемому для восприятия уровню, многие машины включают в свои ответы только топовые результаты, полученные от задействованных поисковиков. Поэтому, воспользовавшись метапоиском, нелишне будет дополнительно заглянуть на те ресурсы, с которых пришли самые интересные ссылки. Благо многие метапоисковики стараются облегчить такой переход.

VIVISIMO
vivisimo.com
Проблема сортировки и дополнительной обработки результатов метапоиска стоит даже более остро, чем в случае отдельного поисковика. Неудивительно, что интерес к кластерным технологиям пришел и в эту сферу. Vivisimo использует собственный механизм кластеризации данных, извлеченных из баз различных поисковых машин. Это во многом роднит его с уже рассмотренным выше поисковиком Teoma. Но здесь результат в чем-то даже лучше.

Если Teoma просто предлагает дополнительно найденные ключевые слова для уточнения запроса, то здесь кластеры представлены в виде наглядного иерархического дерева. По умолчанию показывается не все дерево, и для того чтобы увидеть все разделы, потребуется щелкнуть по ссылке More. Доступна опция быстрого поиска в найденных кластерах (Find in clusters). Если после выполнения запроса “php-programming” внести в это поле слово “security”, то все кластеры, в которых встречается данный термин, получат цветную подсветку.

Есть несколько интересных находок и в интерфейсе поисковика. В аннотациях к ссылкам показывается традиционная для метапоисковиков строка, сообщающая, в чьих именно базах был найден данный документ, а также его рейтинг в этих системах. Удобная особенность Vivisimo – предварительный просмотр найденных страниц в небольшом окошке прямо на странице результатов поиска, рядом со ссылками. Это значит, что вам не придется уходить с поисковика или бороться с толпой новых окон браузера, чтобы взглянуть на найденные сайты.

Vivisimo в определенной степени дружит с русским языком и успешно отрабатывает запрос “php-программирование”, выделяя довольно корректные кластеры. Правда, результат такого поиска будет неполным, поскольку система практически ничего не знает о русских поисковиках.

CLUSTY
clusty.com
Данный метапоисковик запущен в 2004 году. В его основу положен движок Vivisimo, к которому был добавлен ряд новых функций. Как и положено прямому потомку Vivisimo, Clusty выводит порядка двухсот лучших результатов поиска, организованных в тематические категории – кластеры. Кроме общей кластеризации по собственному алгоритму системы можно заказать кластеризацию по источнику или по URL. Есть у Clusty и свой язык запросов. Так, например, запрос “site:org php-programming” вернет результаты только из зоны.org.

Интересен метапоиск по блогам и базам данных RSS (ведется по Daypop, Technorati и Feedster).
Интересная функция Clusty – ручной выбор источников поиска. Всего доступен десяток категорий, включающих общий метапоиск по вебу, изображениям, блогам и новостям. Выбирать можно как из списка тематических категорий, так и конкретных ресурсов – например Slashdot, Wikipedia и eBay. Более того, можно самому указать адрес нужного ресурса – для этого потребуется перейти на страницу Customize. Просмотрев результаты, можно сразу отправиться на самые полезные поисковики. К сожалению, среди них вы не найдете Google и Yahoo, что стоит признать существенным недостатком.

EZ2FIND
ez2find.com
Как и Vivisimo, этот ресурс использует кластеризацию для обработки собранных ссылок, при этом поддерживая поиск по базам Google и Yahoo. Метапоиск ведется по вебу, каталогам, изображениям, новостям, коммерческим предложениям и энциклопедиям. Среди последних Encarta, Wikipedia, InfoPlease, Encyclopedia, XReferer и Bartleby. В каждом разделе поиска используется собственный набор поисковиков. Выбрать среди них нужные можно, просто проставив галочки в предлагаемом списке. Это дает одну любопытную возможность: отметив какой-нибудь один поисковик, вы, по сути, получите для него внешний “кластерный” интерфейс. Заметим, что если вы попытаетесь провернуть такую операцию с Google, то с большой долей вероятности получите сообщение о том, что ничего не найдено. С другими машинами все работает как часы.

В отличие от Vivisimo с его иерархическим деревом ez2Find показывает кластеры единым одноуровневым списком. Уточнить запрос можно только один раз, после чего дополнительная панель становится недоступной. Если один ресурс выдали сразу несколько поисковиков, то ez2Find показывает рядом со ссылкой несколько звездочек – по числу нашедших ее серверов. Перед основным списком ссылок на странице выводится небольшая панель, содержащая извлеченную из онлайновых энциклопедий справку о предмете запроса или же предложения тематических товаров.

Под общим списком дается статистика обработки вашего запроса использованными поисковиками, что может оказаться полезным для принятия решения о пути дальнейших розысков. Из дополнительных сервисов отметим доступ к справочным данным о найденных сайтах (используется Alexa) и онлайновому переводчику веб-страниц (основан на Systran). Результаты перевода, как это пока свойственно машинным переводчикам, во многом оставляют желать лучшего, однако общий смысл понять можно.

NIGMA
www.nigma.ru
Отечественные разработчики поисковых систем не остаются в стороне от современных тенденций – в МГУ ведется разработка сервиса Nigma. Если у вас возникнет желание попробовать кластеризацию для поиска документов на русском языке, обязательно обратите внимание на этот некоммерческий проект. Предварительная версия сервиса была запущена в начале 2005 года.

Nigma опрашивает Google, Yahoo!, Altavista, MSN, Yandex и Rambler, обеспечивая тем самым замечательный охват источников. Интересная особенность системы состоит в том, что поисковикам отправляются запросы не только по точно заданному вами слову, но и по его автоматически сгенерированным формам, что существенно увеличивает количество найденных страниц. Работа этого механизма видна в служебной информации о ссылке: если документ найден без морфологического преобразования запроса, то там указан использованный поисковик и рейтинг страницы; если же была найдена сгенерированная словоформа, то после названия поисковика стоит буква “М”.

Для дальнейшей обработки массива ссылок Nigma, как уже было сказано, использует кластеризацию по собственному алгоритму, оптимизированному с учетом особенностей русского языка. Результат получается в лучших традициях уже рассмотренных зарубежных метапоисковиков. Попробуем задать в Nigma запрос “php-программирование”. Сразу отображаются полезные тематические разделы. Отметим, что степень детализации кластеров здесь довольно высока, поэтому примененная в Nigma иерархическая схема их демонстрации очень даже кстати.

Nigma, несмотря на все еще ведущуюся доработку, уже сейчас показывает достойный результат. Кстати говоря, поскольку Nigma это, в первую очередь, научный проект, авторы обещают открыть его коды после того, как получат полностью стабильную версию системы.

Как нетрудно заметить, прелесть кластерных технологий в полной мере ощущается при поиске по широким запросам. Благодаря возможности уточнять свой запрос по подсказке системы вы найдете искомый результат гораздо быстрее, чем при работе с традиционными поисковиками. На выходе получается не просто перечень ссылок, а набор тематических разделов, позволяющий быстро составить мнение о предмете поиска. Появляется шанс познакомиться с ресурсами, которые в другом случае вы бы, скорее всего, никогда не увидели, поскольку в списке Google они оказываются за пределами тех нескольких десятков результатов, на знакомство с которыми обычно хватает времени и терпения.

У подобных поисковиков есть еще несколько полезных свойств. Это возможность отследить ассоциативные связи между различными темами, а также в определенной степени избежать синонимии естественного языка – кластерный поисковик не спутает натуралиста Дарвина с одноименным австралийским портом.

Если же у вас есть абсолютно конкретный очень точно сформулированный запрос, то вам, скорее, будут нужны не уникальные технологии, а максимально большая база проиндексированных страниц и мощный язык запросов, так что немедленной революции в сфере интернет-поиска с повальным переходом на новые рельсы пока ожидать не стоит.

Ценность метапоиска состоит в широком охвате ресурсов. С его помощью можно наглядно убедиться в том, что, обращаясь к одному, пусть даже самому лучшему поисковику, вы рискуете пройти мимо ресурсов, отраженных в альтернативных базах данных. По нашему мнению, оптимальной стратегией будет комбинация различных технологий поиска, что позволит добиваться положительного результата даже в самых сложных случаях.

Калибровка
Один из приемов выбора поисковика под собственные нужды можно условно назвать “методом маркера”. Такой способ использовался, например, командой Search Engine Watch для оценки работы поисковых машин. Суть его состоит в том, что вначале выбирается некий тематический поисковый запрос, после чего опрашивается группа людей-экспертов в данной области на предмет выявления лучших, по их мнению, интернет-ресурсов по избранной теме. Получается список сайтов-маркеров, гарантированно релевантных запросу и содержащих качественную информацию. Затем тестовый запрос отправляется подопытным поисковикам.

Логика оценки проста: чем выше в результатах поиска расположены сайты-маркеры, тем лучше ресурс подходит для поиска информации по конкретной теме. Эту схему вполне может применить и частник. Поскольку далеко не у всех под рукой имеется группа экспертов, основная проблема заключается в нахождении маркеров. Здесь пригодятся разделы ссылок, часто встречающиеся на тематических сайтах. Найдя действительно серьезный ресурс по своей теме, загляните в такой раздел – там вы найдете ссылки, отобранные энтузиастами своего дела, а приведенные описания ресурсов являются хорошими заготовками для конструирования тестового запроса.

Метапоиск без кластеров
Среди “классических” метапоисковиков, не использующих кластеризацию, стоит назвать такие ресурсы, как Dogpile (www.dogpile.com) и Metacrawler (www.metacrawler.com). Они основаны на одном алгоритме и работают с Google, Yahoo!, MSN, Ask Jeeves, LookSmart, About, FindWhat и некоторыми другими машинами. Полученные списки обрабатываются и сортируются по релевантности. У Dogpile кроме этого есть интересная функция Comparison View, с помощью которой наглядно показываются отличия в результатах разных поисковиков. Еще один полезный адрес – www.mamma.com, ветеран рынка метапоиска. Для сортировки результатов Mamma применяет алгоритм rSort. Он работает таким образом, что на первых позициях оказываются ссылки, найденные максимальным количеством поисковиков.

Если говорить о метапоиске по русским ресурсам, то следует вспомнить о проекте Metabot/Metabear. Обитает он сразу на двух адресах: на metabear.com расположена английская версия, а на www.metabot.ru живет поиск по русскоязычным ресурсам. Обращается к Yandex, Rambler и Aport. Metabot работает и со специфичными ресурсами. Особо отметим наличие метапоиска по FTP-архивам. Здесь также используются сторонние поисковики, список результатов которых проходит дополнительную обработку – например, удаляются повторяющиеся ссылки. Кроме того, с помощью Metabot можно вести поиск видео и музыки.