14 лет назад 31 мая 2005 в 20:20 124

Как найти нужный текст на собственных дисках, если по структурированности они напоминают городскую свалку? Без поисковых программ, скорее всего, никак.

ПОИСК С ИНДЕКСАЦИЕЙ
Можно только позавидовать скорости работы сетевых поисковых сервисов – секунда, и к вашим услугам список ссылок! Разумеется, существуют программы и для локального поиска, умеющие индексировать документы на компьютере, а потом их быстро находить.

Самое простое решение – включение службы индексирования “Помощника по поиску” Windows. После ее настройки все операции, включая создание и обновление индекса, производятся автоматически, а отбор нужных документов по запросу выполняется за доли секунды.

На первый взгляд, задача решена. Однако при внимательном рассмотрении работы поисковой службы Microsoft и, главное, результатов этой работы, можно отметить ряд недостатков и неудобств. Главная проблема – изначальная “заточенность” службы на поиск англоязычных документов: при работе в русскоязычной среде с ее довольно развитым словоизменением теряются все производные слов, входящих в запрос. Итак, есть смысл отказаться от использования встроенной в Windows поисковой системы в пользу программ от других разработчиков.

ВЕЛИКОЛЕПНАЯ ПЯТЕРКА
– Google Desktop Search (GDS) (desktop.google.com) – разработка компании Google. Программа интегрирована в поисковую систему Google, распространяется бесплатно и позволяет осуществлять полнотекстовый поиск информации как в интернете, так и на жестких дисках.

– “Следопыт 3.0 Профессиональный” (www.sledopyt.ru) – персональная система интеллектуального поиска от компании “МедиаЛингва”. Эта программа предназначена для быстрого поиска документов на ПК, съемных носителях, а также в локальной сети по их содержанию и атрибутам. Цена – 1200 рублей.

– “Ищейка Проф Deluxe 4.5” (www.isleuthhound.com) – полноценная поисковая система от iSleuthHound Technologies. Цена пакета – $29.00.

– “Архивариус 3000 (2.91)” (www.wizetech.com/ru/document-search/index.shtml) – система компании Wizetech Software для быстрого поиска документов и почтовых сообщений на компьютере, съемных дисках и в локальной сети. Цена – 300 рублей.

– Cros (www.cronos.ru) – система компании “Кронос-Информ”, предназначенная для накопления и обработки текстовых документов различных форматов и быстрого поиска по накопленному массиву данных. Цена – 4248 рублей.

Судя по описаниям этих программ, любая из них ищет документы чуть ли не мгновенно. Проверим их в деле.

ЧТО ИНДЕКСИРУЮТ ПРОГРАММЫ
Все программы индексируют документы самых популярных типов: простые текстовые файлы, сообщения электронной почты MS Outlook, документы Microsoft Office (Word, Excel и другие), Adobe Acrobat (PDF), гипертекстовые документы (HTM, HTML). Этот набор можно назвать базовым, и именно с ним позволяют работать “Следопыт” и GDS. Правда, GDS индексирует файлы PDF только по имени и делает то же самое для графических файлов JPEG и GIF.

Остальные три программы позволяют работать с более обширным списком типов документов. Например, “Ищейка” дополнительно обрабатывает документы Corel Word Perfect (WPD) и аудиофайлы (MP3, WMA – ID Tags информация) и без проблем работает с PDF-файлами на русском языке. “Ищейка” и “Архивариус” осуществляют поиск не только в почте, но и во вложениях почтовых сообщений Outlook Express. “Архивариус” работает таким же образом с несколькими другими почтовыми программами, среди которых почта Netscape и The Bat!. Кроме того, программой индексируются сообщения популярных интернет-пейджеров – ICQ, Miranda, Odigo и рассылки групп новостей.

Однако было бы некорректно просто пересчитать типы файлов, с которыми работают программы, и назвать победителя. Да и сделать это весьма затруднительно. В частности, Cros индексирует файлы любых форматов, в том числе и графические. Однако для возможности поиска нужных документов файлы должны содержать текст в поддерживаемой кодировке: DOS, ANSI, KOI8, Unicode. Таким образом, индексируемый файл может иметь любое расширение (и даже вовсе не иметь его). Аналогично “Ищейке” Cros индексирует и выполняет поиск среди документов с произвольными расширениями или без расширений, опять-таки при условии, что эти документы относятся к списку поддерживаемых типов документов и кодировка текста совместима с ASCII, ANSI, Unicode. Здесь стоит упомянуть о “Следопыте”, который хоть и работает с четко ограниченным набором типов документов, но поддерживает большее число кодировок: 866, CP1251, KOI8, ISO-8859-5, MAC.

О ЯЗЫКАХ
Все программы осуществляют поиск на английском и русском языках. Вот только GDS, как и его коллега от Microsoft, “заточен” на английский, в результате чего ищет на русском языке так же коряво. “Ищейка” настроена на работу с русским языком как с основным и поставляется с тремя языками интерфейса: русским, украинским и английским. Англоязычная версия программы – The Sleuthhound! – работает с 15 центральноевропейскими языками пользовательского интерфейса. “Ищейка” автоматически поддерживает символы латинского и греческого алфавитов, а также основных европейских языков, использующих кодировку Latin-1.

Отдельного разговора заслуживает “Архивариус”, работающий со ВСЕМИ известными кодировками и 24 языками, каждый из которых можно выбрать в качестве языка интерфейса. Только в этой программе обрабатываются все кодировки кириллицы вплоть до того, что можно видеть псевдографику в старых ДОСовских текстах (для этого нужно нажать на иконку “Пропорциональные шрифты”). Правильно показываются и другие национальные символы, например азиатские иероглифы или иврит. И только “Архивариус” правильно обрабатывает документ более чем на двух языках. Более того, проиндексировав, например, русский текст с японскими иероглифами, “Архивариус” находит впоследствии этот документ как по русским словам, так и по иероглифам.

РАБОТА С АРХИВАМИ
GDS не работает с архивами. Все остальные программы индексируют документы перечисленных выше форматов, упакованные архиватором ZIP. “Следопыт” дополнительно обрабатывает архивы почтовых сообщений MS Outlook. Нужно отметить, что индексация файлов в архивах идет значительно медленнее, чем обычно, поскольку программам требуется время на их распаковку.

“Архивариусу” и Cros распаковщики не требуются – эти программы обладают встроенными архиваторами. У первого их шесть, у второго – 13. К Cros можно подключить и внешние распаковщики – на случай, если документы упакованы архиватором более поздней версии, чем встроенный.

ЗОНЫ ПОИСКА
Зона (область) поиска – это пространство на жестком диске, состоящее из каталогов или папок, в пределах которого системы ищут документы и файлы. В любой программе эти зоны нужно создать и дать им осмысленное наименование. Поисковые утилиты индексируют эти участки, после чего приобретают способность находить в них информацию практически мгновенно.

Исключение составляет Google, которому не нужно указывать никаких зон. Программа считает областью поиска все содержимое компьютера и сразу после установки начинает индексировать файлы доступных ей форматов на всех жестких дисках. Делается это в фоновом режиме во время простоя компьютера и абсолютно не мешает работе с другими программами.

На первый взгляд, такой подход к индексации логичен – не нужно ломать голову над созданием продуманной структуры областей поиска, и ни один документ не ускользнет из сферы внимания программы, даже сохраненный по ошибке в корневой каталог диска или в системную папку. Но, с другой стороны, поиск по огромной области неизбежно приводит к появлению в итоговом списке кучи “мусора”.

Чтобы добиться более точных результатов, запрос приходится постоянно усложнять. Забегая вперед, скажем, что Google не умеет искать в найденном, а значит, последовательно сузить диапазон поиска вам не удастся. Вот почему правильнее будет создать набор тематических зон поиска, включающих в себя все возможные области хранения документов на дисках. Эту возможность как раз и предоставляют все остальные программы.

ОГРАНИЧЕНИЯ ИНДЕКСИРОВАНИЯ
Тех, кто хотел бы, несмотря ни на что, создать единую зону поиска по типу GDS, хотелось бы предупредить об одной досадной мелочи. К сожалению, все программы имеют ограничения или на размер индексируемой области, или на вес создаваемого индекса, в результате чего при большом количестве текстов на дисках создание такой единой зоны становится попросту невозможным.  Так, суммарный объем документов, индексируемых “Следопытом”, не может превышать 4 Гб, а максимальный размер индекса, создаваемого “Архивариусом”, составляет 1,5 Гб. (Что, кстати, не помешало последнему проиндексировать все документы на компьютере (120 тысяч) за исключением архивных.)

В инструкции к “Ищейке” подобные ограничения не указаны, однако область “Весь компьютер”, содержащую около 120 тысяч документов, она лишь создала и пересчитала, но не проиндексировала. То же самое произошло и со “Следопытом” – сразу после установки программа кинулась индексировать все документы на компьютере, но не смогла этого сделать. Программа Cros хоть и имеет ограничение на максимальный размер файла “Банк Документов” (БД), но он настолько велик, что, по сути, и ограничением-то не является. Файл размером 16 млн. Тб даже представить трудно. (Сказанное справедливо лишь для файловой системы NTFS; на диске с FAT32 Сros не может создавать БД размером более 4 Гб).

Справедливости ради следует сказать, что в “Следопыте” никто не мешает вам объединить несколько областей поиска (пусть и ограниченных по размеру) в одной тематической папке. Набор этих папок будет ограничен по размеру разве что наличием свободного места на жестком диске. Использование папок в “Следопыте” дает возможность создать организованную многоуровневую структуру из множества областей поиска. Кстати, хранить внушительные файлы индексов на рабочем диске необязательно – все программы (кроме Google) позволяют выбрать для этого любой накопитель.

СТАТИСТИКА И ОШИБКИ ПРИ ИНДЕКСИРОВАНИИ
Все программы отображают процесс индексации в отдельном окне и выводят как текущие, так и окончательные результаты. Наиболее полную информацию выдает “Архивариус”, который указывает не только число проиндексированных файлов, но и объем полученного индекса, затраченное время, число обработанных архивов и многое другое.

Не все документы, содержащиеся в области поиска, могут быть обработаны при индексировании. Программы не индексируют документы и архивы, защищенные паролями. Не обрабатываются и “чужие” документы, если каждый пользователь компьютера хранит их в собственной папке, доступ к которой запрещен на уровне операционной системы (например, “Мои документы”). Могут быть пропущены файлы, расширение и внутренний формат которых не совпадают.

“Следопыт” после обновления индекса выдает список таких документов. Среди документов, попавших в этот список, например, оказались файлы HTML с “апострофами” в имени. “Ищейка” запнулась при индексировании на файле HTML с экзотическим названием, содержащим спецсимволы. Проблему решило простое переименование файла, но индексирование области пришлось начать заново.

Cros пропускает файлы с выдачей сообщения “Ошибка при чтении файла”, если они хранятся в папках с очень длинным названием, да еще и со знаками препинания. “Архивариус” в результатах индексирования указывает число пропущенных файлов, дополнительную информацию о которых можно увидеть в журнале статистики индекса. GDS не ведет подробной статистики, но в любой момент позволяет увидеть общее число проиндексированных файлов и их раскладку по типам документов.

ОБНОВЛЕНИЕ ЗОН ПОИСКА
Чтобы результаты поиска были корректными, при изменении проиндексированных файлов необходимо обновлять индексы. Индексы, созданные “Ищейкой” или “Архивариусом”, актуализируются вручную или автоматически с помощью встроенных планировщиков заданий. “Следопыт” имеет отдельное приложение, позволяющее управлять процессом автоматического индексирования – “Автоиндексатор “Следопыта”.

GDS постоянно мониторит изменения в документах, обновляет индексы и, что любопытно, сохраняет в собственном кэше не только последнюю версию измененного документа, но и все предыдущие. Так, только для данной статьи к моменту ее окончания сохранилось 107 (!) кэшированных вариантов. Кроме этого в кэше GDS оказываются все когда-либо просмотренные в интернете страницы. Новую порцию документов в БД программы Cros можно добавить только вручную. Однако в программе имеются средства, позволяющие несколько автоматизировать этот процесс.

КОНТРОЛЬ НАД ТЕМ, ЧТО ИНДЕКСИРОВАТЬ
В каждой программе (за исключением Google) при создании области поиска необходимо указать не только путь к папке с документами, но и другие параметры: учитывать ли подкаталоги, какие типы файлов индексировать, обрабатывать ли архивы. В “Архивариусе” для одной области можно выбрать сразу несколько объектов, например: целый диск С, папку на сетевом диске R, почту The Bat! и сообщения ICQ. Установив все настройки, можно подсчитать приблизительный размер индекса и при желании отложить индексирование на потом, а не выполнять его немедленно.

В каждую из областей “Следопыта” можно добавить сколько угодно путей поиска. Для каждого пути указывается один объект (папка, диск, почта). В качестве типа файлов можно выбрать или “все файлы”, или одну из групп файлов, например “интернет-файлы”. В Cros для отбора импортируемых файлов по имени или расширению требуется ввести перечень шаблонов с использованием операторов “*” и “?”, разделенных точкой с запятой. Это несколько неудобно – в других программах выбор форматов производится из готового списка.

Зато с помощью тех же шаблонов можно указать, какие файлы нужно исключить. Еще одной уникальной возможностью Cros является способность полностью перемещать индексируемые документы в БД. Это может здорово сэкономить место на диске и исключить дублирование информации. Полный контроль над тем, что индексировать, имеет “Ищейка”. Например, только файлы *.xls, из всех архивов ZIP, которые, в свою очередь, находятся в приложениях (attachments) e-mail-сообщений Outlook или Outlook Express. То же самое возможно для любого типа или папки.

Параметры индексирования
В качестве теста программам был предложен структурированный набор различных текстовых документов (без архивов) общим количеством более пяти тысяч. Результаты индексации приведены в таблице. По понятным причинам GDS не участвовал в этом испытании.

Notes “Архивариус” “Ищейка” “Следопыт” Cros
Найдено документов 5312 5257 5320 5303
Общий вес, Мб 81,1 127,9 80,8 85
Объем индекса, Мб 51,6 48 20,8 5,7
Время, мин 9,2 14,5 12,5 13,4
Скорость, док/мин 577,4 362,6 425,6 395,7
Скорость, Мб/мин 8,8 8,3 6,4 6,3

Не удивляйтесь большому разбросу размера индексов. Программы могут всегда хранить текст документов в индексе (как “Ищейка”) или не хранить его (как “Следопыт”). В “Архивариусе” хранение текста можно отключить, тогда индекс будет меньше – 34 Мб вместо 51,6 Мб. Для Cros приведен только размер индексного массива, а для вычисления размера всей БД необходимо добавить размеры файлов, содержащих структуру БД, и документы в сжатом виде – получится 110 Мб.

ПОИСК ДОКУМЕНТОВ
Для поиска файлов во всех программах нужно указать критерии поиска и выбрать область поиска. У GDS вместо такой зоны можно выбрать лишь группу документов, среди которых будет выполняться поиск, например документы Word. Все программы позволяют выполнять и глобальный поиск – по всем проиндексированным документам.

Для получения максимально точного результата необходимо применять язык запросов – свой для каждой программы. С помощью языков запроса можно, например, выполнить поиск по точной фразе или исключить из результатов некоторые слова.

В качестве критериев поиска можно использовать пользовательский запрос, а также значения атрибутов файлов. В GDS последнее можно сделать лишь при помощи операторов языка запросов, добавленных в строку поиска (по типу DocTitle=”рыжая собака”).

Cros при поиске кроме стандартных атрибутов применяет и пользовательские (источник, дата сообщения). Программа предлагает две формы задания запроса: “общий запрос”, представляющий собой объединение одного или нескольких условий поиска по любым атрибутам в табличной форме, и “строчный запрос”, в котором одно или несколько условий поиска по атрибуту “текст” объединены в логическом выражении – строке.

“Следопыт” выполняет три вида поиска: формальный, строгий и нечеткий. При строгом поиске в список результатов будут включены только те документы, которые содержат все информативные слова запроса. При формальном поиске ввод критериев поиска в поле “текст” осуществляется на формальном языке запросов. При нечетком поиске запрос составляется на естественном языке.
“Архивариус” имеет те же режимы поиска, что и “Следопыт”: формальный, строгий и интеллектуальный (называется иначе, но суть та же).

МОРФОЛОГИЯ ПОИСКА
Все программы (за исключением GDS) позволяют искать документы по словам во всех словоформах и падежах – выполняют так называемый морфологический поиск. Но только “Следопыт” использует наряду с нечеткой и словарную морфологию.

Это дает возможность составлять запросы на простом человеческом языке без знания всяких правил и алгоритмов запроса. Попробуем поискать с помощью разных программ документ, содержащий следующую фразу: “HAL – самообучающийся компьютер из будущего”. Если ввести эту фразу один к одному в строку поиска GDS, то результат будет абсолютно точным – два документа, в которых содержится данная фраза. Однако чаще всего мы не помним точного текста, поэтому запрос может быть таким: “компьютеры будущее HAL”. В ответ на это GDS выдает: “did not match any items” – ничего, дескать, не нашел. Все остальные программы прекрасно справились с заданием – нашли документ, в котором искомые слова содержались не в той форме, что в запросе.

Следует отметить еще одну возможность “Следопыта”, способствующую формированию требования в естественном виде, – программа отсеивает из запроса неинформативные слова (предлоги, союзы, местоимения и другое). “Ищейка” для той же цели имеет словарь стоп-слов, который можно редактировать.

ПРЕДОСТАВЛЕНИЕ РЕЗУЛЬТАТОВ
GDS, “Ищейка” и “Архивариус” выводят результаты поиска в стиле поисковых интернет-систем – примерно так же, как “большой” Google. Рядом с именами документов показываются логотипы приложений, соответствующие их типу. По ссылке, содержащейся в имени документа, можно открыть его в этом приложении. GDS для некоторых кэшированных документов показывает небольшие скриншоты. Видны фрагменты найденных текстов с подсвеченными словами запроса, называемые вхождениями.

“Следопыт” выводит простой список найденных документов с указанием основных его параметров и веса (точности поиска в процентах). На такой же простой список умеет переключаться и “Архивариус”, а параметры при этом можно выбирать. Результатом выполнения запроса к БД программы Cros является выборка документов, для работы с которой предназначено специальное окно.

Все программы (кроме GDS) позволяют открывать документы не только в окнах связанных с ними приложений, но и во встроенных просмотрщиках. При этом можно последовательно перемещаться как между документами, так и внутри (по вхождениям). Во внутреннем окне Cros можно просматривать даже графические файлы.

Список файлов “Ищейки” можно сортировать по возрастанию или убыванию многих параметров документа. GDS – лишь по дате и релевантности. Порядок вывода документов “Архивариуса” определяется специальными алгоритмами, в результате чего файлы, наиболее соответствующие запросу, оказываются сверху. Сортировка документов в Cros выполняется по множеству атрибутов и даже по набору из них.

В “Архивариусе”, “Следопыте” и “Ищейке” “старые” запросы можно выбрать из выпадающего списка. Кроме того, последняя позволяет сохранить в “избранном” наиболее популярные требования. Cros сохраняет строчные запросы в отдельном списке. Более того, состояние текущей выборки Cros с результатами поиска можно сохранить в файле, а в дальнейшем открыть его для продолжения работы.
“Ищейка”, “Архивариус” и Cros имеют возможность уточнения выполненного запроса – позволяют запустить вторичный поиск в полученных результатах.

Есть у программ и уникальные способности. “Ищейка” может создать комплект из документов, полученных в результате нескольких операций поиска по различным зонам поиска. Cros позволяет в отдельном сплит-окошке делать отчет – что-то вроде конспекта из просмотренных документов. Кроме этого Cros умеет экспортировать документы в файлы исходного формата и даже удалять их из БД.

ИНТЕГРАЦИЯ С ИНТЕРНЕТОМ
Для поиска в интернете с помощью GDS достаточно нажать на ссылку Search the Web – и большой брат (поисковик Google) будет к вашим услугам. Более того, искать можно одновременно как по веб-страницам, так и по жестким дискам.

Сервер удаленного поиска “Архивариуса” позволяет производить поиск и получение документов на другом компьютере через любой браузер, например MSIE. Даже начинающий пользователь сможет настроить и запустить этот сервис.

Работа с БД в режиме удаленного доступа через интернет обеспечивается и с помощью интернет-компонента Cros. Для поиска в Сети iSleuthHound Technologies предлагает своим пользователям собственный поисковый сервис “Интернет-Ищейка”.

Типичные “домашние” пользователи, у которых собственный жесткий диск так же неупорядочен, как www, нуждаются в поисковом механизме для поиска ранее сохраненной или когда-то увиденной в браузере информации. Именно эту возможность им предоставляет Google Desktop Search.
Тем же обычным пользователям, использующим нестандартные почтовые программы и интернет-пейджеры (например, The Bat! или Miranda) и желающим выполнять поиск как по базам этих программ, так и по документам в различных архивах, стоит обратить внимание на “Архивариус”.

Эта же программа очень пригодится и тем, кто ищет документы на различных языках. Использование “Архивариуса” можно назвать оптимальным по соотношению цены и предоставляемых возможностей.
Профессионалы, работающие с сотнями документов, испытывают несколько другие трудности, нежели домашние пользователи. Обычно они точно знают, что им нужно найти, примерно представляют, где это находится на диске, и могут помнить, когда они с документом работали.

Для них важно перелопатить массив документов, найти нужные, быстро сгруппировать файлы, просмотреть их, обработать. Бесценную помощь таким серьезным работникам может оказать “Ищейка”, обладающая возможностью отбирать нужные документы по результатам многих поисков и позволяющая каждому пользователю работать со своими зонами поиска.

Возможность создания иерархического дерева областей поиска с помощью папок и использование для хранения информации такого серьезного средства, как Microsoft SQL Server Desktop Edition, позволяет рекомендовать “Следопыт” таким же профессиональным пользователям, работающим со стандартным набором документов – без всяких экзотических типов.

Недетские возможности Cros: способность индексировать неограниченные объемы текстовых файлов (порядка нескольких миллионов документов), выполнять поиск по этим массивам без снижения скорости, хранить документы в собственных БД, выполнять над ними любые операции – все это выгодно отличает программу от других. Cros будет прекрасно работать на домашнем компьютере или в офисе, но самое место ему все-таки в большой корпоративной компании.

Прямой или медленный поиск
Поисковые инструменты присутствуют в любой операционной системе, во многих приложениях и файловых менеджерах. Эти средства всегда под рукой – и это главное их достоинство. А вот недостатков гораздо больше: не всегда находится то, что нужно, слишком долго ищется, ограничен перечень форматов и кодировок файлов, по которым возможен поиск, неудобное предоставление результатов, невозможность сохранения поисковых запросов и так далее.

Избавиться практически от всех этих досадных мелочей поможет программа AVSearch (www.avtlab.ru). Она ищет файлы по фрагментам текста в любой русской кодировке и, главное, находит их в любых местах: в архивах (около 20 форматов), в кэшах браузеров, на сетевых дисках, в “Корзине” и так далее. Среди ее достоинств такие свойства, как: просмотр найденных документов в текстовом виде с помощью встроенных средств, автоматическое выделение (подсветка) искомых слов и навигация между ними, сохранение списка файлов для дальнейшей обработки, доступность всех файловых операций (удаление, переименование, копирование), выбор для поиска различных папок (в том числе находящихся на разных дисках), “фильтрация” файлов (по размеру, типу, дате изменения). Однако ищет AVSearch так же медленно, как и стандартные средства.

Недостатки службы индексации Microsoft
– Индексируется ограниченный набор типов файлов, для которых имеются фильтры: документы Microsoft Office, текстовые документы, почта интернета и группы новостей.

– Результат поиска предоставляется в неудобной и некомпактной форме. Зачем-то в отдельном поле в текстовом виде отображается путь к найденному документу, хотя эта ссылка прекрасно видна при наведении указателя мыши на название документа. Зато самое необходимое в результирующем списке отсутствует: не указывается тип документа, не выводятся фрагменты найденного текста; непонятно, какие именно слова были найдены в этом тексте, не говоря уже о предоставлении кэшированных версий документов.

– Найденные документы нельзя открыть в окне “родного” приложения – только лишь в MSIE.

– Сортировка по “Рангу” не приводит к появлению в начале списка документов, наиболее отвечающих запросу, – впереди зачастую оказывается “мусор”. Отсутствует функция уточнения поиска (поиск в найденном).

Морфология поиска
Существует два типа морфологии поиска – словарная и нечеткая. Тип морфологии поиска определяет алгоритм, по которому будет составляться индекс и выполняться поиск файлов в указанной области. Если выбрана словарная морфология, при поиске будут учитываться все грамматические варианты слов. Будут найдены документы, которые содержат фразы и слова запроса во всех грамматических формах (“человека”, “человеку”, “люди”, “людьми” и т. д.).

Результаты поиска будут более точными, однако составление или обновление индекса будет занимать довольно много времени. Если же выбрана нечеткая морфология, слова будут приведены к наиболее вероятной основе без учета грамматических форм (“соль”, “соловей”, “солить”). Использование нечеткой морфологии значительно уменьшает время индексации и поиска.