Один из важнейших принципов организации текстового поиска состоит в использовании в процессе поиска вместо самих документов их структурированных представлений, иногда называемых представителями документов. Работа со структурированными представлениями документов, формируемыми в результате анализа их текстов, позволяет применять в процессе поиска формализованные методы, основанные на различных эвристических подходах.
Важное значение в выборе такого пути имеет и другой фактор. Анализ текста документа – довольно трудоемкая процедура. Документы могут быть довольно объемными. Коллекции могут содержать большое количество документов. Поэтому производительность системы текстового поиска, анализирующей полные тексты хранимых документов в процессе обработки пользовательских запросов, даже если эта система базируется на очень мощном компьютере, была бы весьма невысока.
Использование представлений документов вместо непосредственно самих документов позволяет избежать трудоемкого процесса просмотра и анализа их полных текстов при выполнении поиска и вместе с тем использовать преимущества структурированного представления содержания документов для упрощения алгоритмов поиска.
Указанный подход возможен, поскольку введенные в систему текстовые документы остаются, как правило, неизменными на протяжении всего времени их существования в системе. Построение представления каждого имеющегося в системе документа можно осуществлять однократно при вводе его в систему.
В современных системах текстового поиска используются различные подходы к построению представлений хранимых документов. От характера используемых представлений документов существенным образом зависит качество поиска - его точность, полнота, производительность и другие характеристики.