Данные — представление идей и фактов в формализованном виде, пригодном для обработки и дальнейшей передачи в каком-либо информационном процессе. Существует множество типов данных, помогающих оптимизировать их хранение, обработку и визуализацию в различных продуктах. Например, логический тип данных используется для представления истинности или ложности, указатели используются для хранения адресов памяти, а абстрактные типы данных существуют для представления сложных структур данных.
Метаданные могут использоваться для описания не только самих данных, но и абстракций, которые они представляют и связей между ними.
Метаданные часто сравнивают с картотекой огромной библиотеки, которая помогает сложить представление о книгах, имеющихся в ней и ускорить поиск необходимой. Действительно, на практике корпорации обладают настолько огромным объёмом данных, что ни один CDO (англ. Chief Data Officer) не способен полностью описать их структуру. Это обрекает любую организацию на кропотливый аудит и упорядочение метаданных, ведь это важно помимо прочего и для информационной безопасности, а значит, репутации компании.
Плохо управляемые метаданные — путь к дополнительным расходам со стороны организации на поддержку информационных систем, дополнительным рискам. Ведь появление, например, избыточных или устаревших данных грозит организации не только создание процессов управления ими, но и часто противоречие между одними и теми же данными. Это ведет к подрыву доверия основных пользователей бизнес-отчётности, а значит, и бесполезность принятия решений на её основе в принципе.
Таким образом, к роли метаданных можно отнести несколько аспектов управления данными:
- Обеспечение единообразной трактовки данных всеми, кто их использует;
- Предоставление стандартных и единственных каналов доступа к данным;
- Ускорение операций по обработке данных и аудиту возможных ошибок и рисков.
Классификация метаданных необходима для того, чтобы разграничить ответственность между стейкхолдерами — кто имеет право редактировать метаданные, и кто отвечает за их корректность.
По месту происхождения метаданных их можно разделить на:
- Бизнес-метаданные
Это метаданные, обычно включающие в себя определения, специфические для конкретного бизнеса, алгоритмы и бизнес-правила (нередко представляющие собой коммерческую тайну), расчётные формулы для целевых метрик и показателей.
- Технические метаданные
Это метаданные, характеризующие технические характеристики систем хранения метаданных, процессы перемещения между ними, свойства, права доступа и т. д.
- Операционные метаданные
Это метаданные, которые содержат информацию, необходимую для мониторинга и управления операциями обработки данных. Они включают в себя данные о статусе выполнения процессов, такие как время начала и окончания операций, статус задач, информацию о производительности и ресурсах, а также ошибки и исключения, возникшие во время обработки данных. Эти метаданные помогают отслеживать и оптимизировать процессы, а также обеспечивают возможность аудита и контроля за выполнением операций.
Данная классификация помогает классифицировать метаданные, которые часто кратно превосходят объём изначальных данных. При этом нельзя назвать классификацию строгой — многие метаданные могут относиться одновременно к двум видам. Например, информация о копии данных может относиться как к техническим метаданным, так и к операционным. Если рассматривать их с точки зрения того, сколько места в хранилище они занимают, то это однозначно технические метаданные. Если же рассматривать их как элемент бизнес-процесса, который является триггером для последующего события, то эти же метаданные можно отнести к операционным метаданным.
Другим примером можно считать, например, классификацию данных на публичные данные и коммерческую тайну компании. Это одновременно операционные метаданные, так как в зависимости от их типа выбирается формат хранения, режим доступа к этим данным и так далее. В это же время это и бизнес-метаданные: в зависимости от типа данных определяется возможность для включения их в предиктивные модели, степень доверия к этим данным и возможность делиться ими с заказчиками для более эффективного диалога.
Наконец, примером метаданных, которые можно одновременно отнести к бизнес- и техническим метаданным является схема метаданных: информация о колонках в данных может использоваться бизнесом для определения их использования в своих моделях. При этом эта же информация может использоваться для нормализации данных — по ключевым словам можно заранее относить данные к транзакционным или мастер-данным, определять их по месту хранения.
Наиболее подходящей архитектурой для построения архитектуры метаданных в компании станет двунаправленная архитектура. Она сбалансирована с точки зрения производительности и доступности метаданных, а её относительно высокая стоимость может быть в дальнейшем оптимизирована, путем применения других архитектур на отдельных, не критически важных, участках ИТ-ландшафта.







