Хранилище данных

Что такое Хранилище данных?

Хранилище данных – это электронное хранилище большого объема информации, выполняемое предприятием или организацией. Хранилище данных – жизненно важный компонент бизнес-аналитики , использующий аналитические методы для бизнес-данных.

Концепция хранилищ данных была представлена ​​в 1988 году исследователями IBM Барри Девлином и Полом Мерфи. Потребность в хранении данных развивалась по мере того, как компьютерные системы становились все более сложными и обрабатывали все большие объемы данных. Ключевой книгой по хранилищам данных является книга WH Inmon «Building the Data Warehouse», которая была впервые опубликована в 1990 году и с тех пор переиздавалась несколько раз.

Как работает хранилище данных

Хранилище данных используется для обеспечения более глубокого понимания эффективности компании путем сравнения данных, консолидированных из нескольких разнородных источников. Хранилище данных предназначено для выполнения запросов и анализа исторических данных, полученных из источников транзакций.

После того, как данные были включены в хранилище, они не изменяются и не могут быть изменены, поскольку хранилище данных выполняет аналитику уже произошедших событий, уделяя особое внимание изменениям в данных с течением времени. Хранение данных на складах должно быть безопасным, надежным, легко извлекаемым и простым в управлении.

Для создания хранилища данных необходимо выполнить определенные действия. Первым шагом является извлечение данных, которое включает сбор больших объемов данных из нескольких исходных точек. После того, как данные были скомпилированы, они проходят очистку данных, процесс анализа данных на предмет ошибок и исправления или исключения любых обнаруженных ошибок.

Затем очищенные данные преобразуются из формата базы данных в формат хранилища. После того, как данные хранятся в хранилище, они проходят сортировку, консолидацию, суммирование и т. Д., Что делает их более скоординированными и удобными в использовании. Со временем в хранилище добавляется больше данных по мере обновления нескольких источников данных.

Ключевые моменты

  • Хранилище данных – это электронное хранилище большого объема информации, выполняемое предприятием или организацией.
  • Хранилище данных предназначено для выполнения запросов и анализа исторических данных, полученных из источников транзакций, для бизнес-аналитики и интеллектуального анализа данных.
  • Хранилище данных используется для более глубокого понимания эффективности компании путем сравнения данных, консолидированных из нескольких разнородных источников.

Особые соображения: интеллектуальный анализ данных

Компании могут хранить данные для использования в исследованиях и интеллектуальном анализе данных в поисках шаблонов информации, которые помогут им улучшить свои бизнес-процессы. Хорошая система хранения данных также может упростить различным отделам компании доступ к данным друг друга.

Например, хранилище данных может позволить компании легко оценить данные отдела продаж и помочь принять решение о том, как улучшить продажи или оптимизировать работу отдела. Бизнес может решить сосредоточиться на привычках своих клиентов к расходам, чтобы лучше позиционировать свои продукты и увеличить продажи.

С помощью хранилищ данных компания может собирать исторические данные о расходах своих клиентов за последние, скажем, за 20 лет, и проводить аналитику на этих данных. Полученная информация может дать представление о предпочтениях потребителей; время дня, месяца или года с более высокими продажами; или покупатель с самыми высокими расходами за год.

Эффективное хранение данных и управление ими также делают возможными такие процессы, как начало бронирования поездок и использование банкоматов.

Процесс интеллектуального анализа данных разбивается на пять этапов:

  1. Организации собирают данные и загружают их в свои хранилища данных.
  2. Затем они хранят данные и управляют ими либо на собственных серверах, либо в облаке.
  3. Бизнес-аналитики, команды менеджеров и специалисты по информационным технологиям получают доступ к данным и определяют, как они хотят их организовать.
  4. Затем прикладное программное обеспечение сортирует данные на основе результатов пользователя.
  5. Наконец, конечный пользователь представляет данные в удобном для обмена формате, таком как график или таблица.

Хранилище данных против баз данных

Хранилище данных – это не обязательно то же понятие, что и стандартная база данных. База данных – это транзакционная система, которая настроена на мониторинг и обновление данных в реальном времени, чтобы иметь в наличии только самые свежие данные. Хранилище данных запрограммировано на агрегирование структурированных данных за период времени. Например, в базе данных может быть только самый последний адрес клиента, а в хранилище данных могут быть все адреса, по которым клиент жил в течение последних 10 лет.