Вот почему стали создаваться приложения Web, называемые поисковыми машинами. Поисковая машина с некоторой периодичностью просматривает страницы закрепленной за ней группы Web-сайтов и строит либо актуализирует полнотекстовые индексы для этих страниц (см. Документальные системы). На этой основе осуществляется обработка пользовательских запросов так, как это делается в системах текстового поиска.
Более тонкую организацию имеют механизмы управления хранением данных и пространством памяти в информационных системах, основанных на технологиях баз данных. Причины заключаются в том, что в системах баз данных используются более сложные структуры данных, требуется значительно более мелкая гранулярность доступа к ресурсам, более динамичный характер имеют хранимые данные.
Управление хранимыми данными в системах баз данных включает поддержку структуры хранимых данных, их размещение в пространстве памяти, поддержку физической целостности и обеспечение эффективного доступа к ним. Чаще всего используются прямой и последовательный доступ к единицам информационных ресурсов в каком-либо определенном порядке.
Прямой доступ осуществляется по известным значениям некоторых свойств (ключей) единиц информационных ресурсов. Для этой цели используются вспомогательные хранимые структуры данных, обеспечивающие отображение ключей в адреса размещения соответствующих единиц информационных ресурсов, например строк таблиц в реляционных базах данных.
Чаще всего в качестве таких вспомогательных структур используются эффективно организованные индексы и хеш-таблицы.
Индексные структуры, организованные в виде деревьев специальных видов, обеспечивают быстрый поиск с помощью навигации в этих деревьях по коротким цепочкам указателей и, возможно, ограниченного перебора. Существует большое многообразие способов построения индексов.
Хеш-таблицы, в отличие от индексов, обеспечивают определение адреса размещения искомой (или размещаемой) единицы информационных ресурсов не путем навигации в индексной структуре, а с помощью вычисления некоторой функции отображения ключа в адрес. Значения этой функции представляют собой случайные числа, равномерно распределенные в заданном интервале, которые используются как номера участков во внешней памяти или строк таблицы хеширования, содержащих соответствующие единицы информационных ресурсов или их адреса.
Индексные структуры поддерживают доступ к хранимым единицам информационных ресурсов в порядке соответствующих им ключей. Простая техника хеширования таких возможностей не предоставляет. Для этих целей применяют усовершенствованные методы хеширования.
Последовательный доступ к хранимым единицам информационных ресурсов осуществляется в порядке их физического размещения либо по значениям некоторых содержащихся в них или ассоциированных с ними идентификаторов (ключей). В последнем случае для поддержки необходимой упорядоченности обычно используют индексы по заданным ключам.
Нужно заметить, что в унаследованных СУБД, основанных на графовых моделях данных, использовался также и навигационный доступ к хранимым данным.
Управление ресурсами памяти в СУБД включает такие операции, как учет свободного пространства памяти, выделение пространства для размещения новых вводимых в систему информационных ресурсов, так называемая сборка мусора — возвращение освободившегося пространства памяти в пул свободного пространства для повторного его использования. Нужно назвать здесь также операцию реорганизации среды хранения базы данных. В результате выполнения этой операции изменяется размещение хранимых данных в пространстве памяти системы таким образом, чтобы стало возможным более эффективное использование ресурсов свободной памяти, а также чтобы сократить время доступа к часто используемым хранимым данным и т.п.
Важно заметить, что способы размещения информационных ресурсов в пространстве памяти системы и способы доступа к ним тесно связаны.
Среда хранения в системах баз данных также базируется на файловой организации. Однако над файловой системой надстраиваются механизмы, обеспечивающие более тонкие методы управления данными в терминах элементов содержания файлов. Единицей доступа здесь является, как уже отмечалось, не файл или порция файла, предусмотренная в файловой системе, а порции информационных ресурсов с гораздо более мелкой гранулярностью.