Если бы компьютер был высокоинтеллектуальной системой, которой можно было легко объяснить, что вы ищете, то он выдавал бы два-три документа - именно те, которые вам нужны. Но, к сожалению, это не так, и в ответ на запрос пользователь обычно получает длинный список документов, многие из которых не имеют никакого отношения к тому, о чем он спрашивал. Такие документы называются нерелевантными (от англ. relevant - подходящий, относящийся к делу). Таким образом, релевантный документ - это документ, содержащий искомую информацию. Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной документов называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.
Таким образом, качество поиска определяется двумя взаимозависимыми параметрами: точностью и полнотой поиска. Увеличение полноты поиска снижает точность, и наоборот.
Проект Web первоначально предусматривал только навигационный доступ к представленным в его среде информационным ресурсам с использованием гиперссылок, встроенных в HTML-страницы на стадии их разработки.
Однако в связи с беспрецедентно быстрым ростом объема поддерживаемых информационных ресурсов стало ясно, что для эффективного доступа к ним пользователей необходимо иметь возможности поиска нужных ресурсов по их свойствам.
Вот почему в середине 90-х годов начали появляться разнообразные общедоступные системы текстового поиска для Web.
Эти системы называются по-разному: поисковыми машинами Web, поисковыми роботами, пауками и т.п. Их реализации не являются составной частью Web. Это приложения Web.
Поисковые системы с определенной периодичностью (от нескольких часов до нескольких дней) сканируют страницы “подведомственных” им Web-серверов, формируют или актуализируют индексы, с помощью которых обрабатываются поступающие пользовательские запросы.
Крупные поисковые системы Web поддерживают индексы гигантских объемов, обрабатывают большое количество пользовательских запросов. Поэтому они требуют очень крупных вычислительных ресурсов.
Ранние поисковые системы Web обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска.
В последние годы интерес к проблемам текстового поиска в Web значительно вырос. Разными коллективами проводятся многочисленные и разнообразные исследования в этой области. Высокая активность исследовательского сообщества, многочисленные разработки в рассматриваемой области привели к учреждению в рамках конференций TREC специальной секции, посвященной проблемам поиска в Web.
В настоящее время существует целый ряд систем текстового поиска для Web, универсальных и ориентированных на определенные предметные области, международных и национального масштаба: крупнейшая многоязыковая поисковая система AltaVista, системы Yahoo, Google, поисковая система по русским страницам Web Yandex и многие другие. Они различаются областью действия - составом сканируемых Web-серверов, организацией пользовательских интерфейсов, функциональными возможностями механизмов поиска. Все они поддерживают различные версии булевской модели поиска. Ряд систем обеспечивает ранжирование результирующего множества документов. Система AltaVista реализует некое подобие обратной связи релевантности - предоставляет пользователю гистограмму, характеризующую статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информационных ресурсов, доступных системе.
Одним из примеров функционирующих в среде Web специализированных поисковых систем является система СОЦИОНЕТ http://socionet.ru, в которой поддерживается на федеративных началах архив распределенных информационных ресурсов - множество коллекций публикаций по экономике и другим общественным и гуманитарным наукам, доступных на Web-сайтах ряда отечественных академических институтов, учебных заведений, публичных библиотек и других организаций.
СОЦИОНЕТ создана в Институте экономики и организации промышленного производства Сибирского отделения РАН. Система основана на принципах, рассмотренных выше. Имеется стандарт метаданных для описания публикаций. Для включения данной публикации в какую-либо коллекцию распределенного архива необходимо зарегистрировать ее в каталоге системы. После этого она становится доступной пользователям. Поисковая машина системы обрабатывает запросы пользователей.
Система позволяет персонализировать пользовательские интерфейсы благодаря тому, что каждый пользователь может определить в системе свой профиль, в частности коллекции архива, которые представляют для него интерес. В 2001 году в состав архива СОЦИОНЕТ было включено уже более 150 тысяч публикаций.