Содержание
В главе использована книга [KAGA01], c. 28-40.
Рассмотрим теперь функции, которые должны выполнять информационные системы для решения стоящих перед ними задач, связанных с поддержкой динамической информационной модели предметной области и с удовлетворением информационных потребностей ее пользователей.
К числу этих функций относятся сбор и регистрации информационных ресурсов, их хранение, обработка, актуализация, обеспечивающая актуализацию поддерживаемой информационной модели предметной области (для простоты здесь рассматривается только статическая часть модели), а также обработка запросов пользователей.
Эти функции обеспечивают «фотографирование» предметной области, формирование и поддержку на этой основе модели предметной области экстенсионального уровня.
Для выполнения этих функций проводятся работы как вне программно-аппаратного комплекса системы (в "ГОСТ 34.003-90. Информационная технология" он называется комплексом средств автоматизации), так и непосредственно в его среде. Способы реализации указанных функций зависят от характера используемых источников информации, в качестве которых могут служить: сущности и процессы в предметной области системы, различного рода автоматизированные технические системы, другие информационные системы, всевозможные данные на бумажных или электронных носителях и т.п.
Функции сбора и регистрации информационных ресурсов могут совмещаться во времени или выполняться последовательно. Возможны различные варианты их осуществления, например:
путем измерений (наблюдений) фактов в реальном мире и ввода данных в систему вручную с помощью клавиатуры и/или каких-либо манипуляторов;
полуавтоматически путем ввода в компьютер с некоторых носителей и в случае необходимости их оцифровки (например, при использовании текстов на бумажных носителях или аналоговых аудиозаписей);
автоматически с помощью различного рода датчиков или обмена .данными с другими автоматизированными системами.
С этими функциями механизмов информационных систем и их персонала связана необходимость решения ряда сопутствующих задач, таких как очистка, верификация, сжатие данных, конвертирование их из одного формата в другой и т.д.
Очистка данных – необходимая стадия предварительной обработки данных и подготовки их к загрузке в систему, особенно в случаях, когда используется несколько источников данных. Обычно она включает процедуры фильтрации данных, верификации, обеспечения логической целостности, устранения несогласованности, избыточности и различных ошибок, восполнения пропусков, а также другие процедуры, направленные на улучшение качества данных. Задачи перечисленных процедур в некоторой мере пересекаются.
В результате фильтрации производится отбор нужных данных из множества имеющихся в распоряжении. Верификация данных обеспечивает достоверность и логическую целостность данных. Проверка достоверности данных – это содержательная процедура, которая позволяет установить, адекватно ли характеризуют состояние предметной области собранные для ввода в информационную систему информационные ресурсы. Эта процедура, к сожалению, не может быть в полной мере формализована. Поэтому она в значительной мере возлагается на системный персонал и привлекаемых к этой работе экспертов. В системах баз данных за достоверность данных ответственен администратор данных. Проверка логической целостности данных может осуществляться на стадии предварительной их обработки, а также непосредственно при вводе в систему. Для этих целей в системах баз данных могут, в частности, использоваться механизмы СУБД, специально предназначенные для проверки ограничений целостности, которые были объявлены в схеме базы данных. Такая проверка осуществляется при обновлении состояния базы данных. Проверку целостности XML-документов может выполнять Web-браузер при условии, если для этого документа задано описание типа документов (DTD, см. раздел 4.7). Выбор конкретных методов обеспечения верификации данных зависит от характера их источников, качества данных, видов ограничений целостности и т.п.
В некоторых информационных системах информационные ресурсы хранятся в сжатом виде. Сжатие данных осуществляется с целью минимизации ресурсов памяти, необходимых для их хранения, а также для снижения затрат на передачу данных по коммуникационным каналам. Такой подход часто используется в различных репозиториях информационных ресурсов с файловой организацией среды хранения. Механизмы среды хранения данных некоторых СУБД включают встроенные средства, обеспечивающие сжатие отдельных значений данных, кортежей, доменов значений атрибутов и т.д., сжатие индексных файлов, резервных копий базы данных. Для рационального использования ресурсов памяти в некоторых классах систем, например в системах управления документами, документы подразделяются на активные и архивные. Хранение архивных документов осуществляется в сжатых форматах.
Конвертирование данных при вводе в систему используется для преобразования данных из одного формата в другой, допускающий автоматизированный импорт их в информационную систему. Конвертирование данных часто необходимо в случаях, когда источником данных является некоторая другая система.