Требование в тесте fasmi означает что система должна предоставлять пользователям
Что относится к OLAP?
Проблема, которая встала перед нами с самого начала исследований OLAP, заключалась в решении того, какой продукт правомерно относить к категории OLAP. Решить является ли продукт «именно OLAP» становилось все сложнее в связи с тем, что все больше и больше поставщиков утверждали, что они имеют «именно OLAP», в то время как это могло означать все что угодно. Нельзя было полагаться на собственные описания поставщиков независимо от их членства в Совете OLAP (OLAP Council). Такое членство не являлось надежным индикатором того, что компания действительно производит OLAP продукт. Например, несколько известных поставщиков OLAP не являются членами Совета, в то же время существуют члены Совета, которые не являются поставщиками OLAP.
Мы хотели определить характеристики OLAP приложения специфическим образом без указания на то, каким образом оно должно быть осуществлено. Поскольку наше исследование показало, что имеется много путей реализации OLAP приложений, то никакая конкретная технология не должна была быть обязательной, или даже рекомендованной. Конечно, мы изучили технологии, используемые в коммерческих OLAP продуктах, и в этом отчете затрагиваются многие детали реализации. Мы предположили, что при разных условиях и обстоятельствах один подход может быть предпочтительнее другого, а также идентифицировали области, где, как мы полагаем, все продукты в настоящее время теряют то, что мы считали бы идеалом технологии.
Техника реализации включает много различных патентованных идей, которыми так гордятся поставщики: разновидности архитектуры «клиент-сервер», анализ временных рядов, объектная ориентация, оптимизация хранения данных, параллельные процессы и т.д. Мы также имеем свое представление об этом, но мы не хотели бы, чтобы какие-то технологии стали частью определения OLAP. Поставщики, которые охвачены нашим отчетом, имели все возможности сообщить нам о своих технологиях, однако нас интересовала более всего их способность достигнуть целей OLAP в соответствующих прикладных областях, выбранных ими.
Правила и особенности Кодда
Эта статья включала 12 правил, которые теперь хорошо известны. В 1995 году к ним были добавлены еще шесть (которые известны в значительно меньшей степени). Доктор Кодд разбил на четыре группы эти правила, назвав их «особенностями». Ниже дано краткое описание этих особенностей, однако заметим, что сегодня они редко цитируются и мало используются.
Основные особенности (B)
Специальные особенности (S)
Особенности представления отчетов (R)
Управление измерениями (D)
Поскольку мы начинали разработку своей системы (МИСТЕР) задолго до появления статьи д-ра Кодда, то я с большим удивлением и удовлетворением нашел, что наш продукт практически полностью удовлетворяет соображениям авторов издания The OLAP Report.
Например, у нас в каждом конкретном отчете, создаваемом пользователем, количество измерений не может быть больше 9-ти, но за многолетний опыт эксплуатации мы не встречали задачу, которая требовала бы увеличения размерности.
Тема 8. Аналитические банковские системы
Цель
Познакомиться с принципами организации аналитической обработки информации в банковских автоматизированных системах.
Оглавление
8.1. Назначение аналитической обработки данных в АБС
Расширение спектра услуг и усложнение правил игры на финансовом рынке требуют систематизации информации и углубленного анализа с целью оптимизации оперативной деятельности, определения тактических действий и разработки стратегии развития. Именно поэтому аналитические системы в настоящий момент уже являются необходимым инструментом банковской деятельности.
Основные требования к аналитической подсистеме банка:
Информационную систему банка по принципам обработки информации, как уже упоминалось выше, условно можно разбить на две части: подсистема оперативного учета и подсистема аналитической обработки информации. Первая подсистема предназначена для выполнения повседневных задач оперативного учета всех банковских операций. Главной задачей в этой подсистеме является обеспечение корректной параллельной работы многих пользователей с единой базой данных. Типичными операциями, которые выполняются в данной системе, являются операции изменения данных. И основной задачей системы управления данными является задача недопущения некорректного изменения данных при одновременной работе множества пользователей. Вторая подсистема предназначена для глубокого и всестороннего анализа уже введенных данных. В этой подсистеме не предполагается ввод новых данных или изменение уже существующих фактов. Основной задачей аналитической подсистемы является получение различных отчетов из уже существующих и собранных данных. И здесь основной проблемой является предоставление аналитикам банка удобного инструментария для работы с собранными данными и обеспечение высокой скорости обработки информации.
8.2. Архитектуры хранилища данных
В основе современного подхода к построению аналитических систем лежит идея интегрированного хранилища данных, обеспечивающего единый логический взгляд и доступ к информации, разбросанной по разнообразным оперативным системам организации и поступающей из внешних источников. При этом существенно, что данные в хранилище имеют исторический характер, т. е. обеспечивается интеграция не только разнородных источников, но и архивных данных, возникающих в процессе функционирования той или иной оперативной системы.
Данные из оперативных систем и внешних источников подвергаются различным преобразованиям, согласованию и загружаются в централизованное хранилище, которое содержит всю информацию, необходимую для всевозможных процессов принятия решений, но оно не ориентировано на выполнение тех или иных прикладных функций и с этой точки зрения является нейтральным по отношению к приложениям. Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, т. е. он должен иметь развитые инструменты доступа к данным хранилища и их обработки. Для информационного обеспечения отдельных функционально замкнутых задач используются так называемые витрины данных, в которые информация попадает либо из хранилища (зависимые витрины) либо непосредственно из источников данных, проходя предварительные согласования и преобразования (независимые витрины). Витрины данных строятся на основе реляционных или, что более популярно, многомерных СУБД. Дело в том, что для решения большинства задач анализа оказываются полезными принципы многомерной модели данных и соответствующие им многомерные базы данных.
Как известно, хранилища данных — это сравнительно новое технологическое решение, которое стало широко использоваться только в начале 1990-х гг. На сегодняшний день существуют два основных подхода к архитектуре хранилищ данных. Это так называемая корпоративная информационная фабрика (Corporate Information Factory, сокр. CIF, см. рис. 8.1) Билла Инмона и хранилище данных с архитектурой шины (Data Warehouse Bus, сокр. BUS см. рис. 8.2) Ральфа Кимболла (Ralph Kimball).
Работа хранилища в первой модели начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных1 с третьей нормальной формой2, содержащая атомарные данные. Получившееся нормализованное хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т. е. данных, подготовленных для анализа. Эти репозитории, в частности, включают специализированные хранилища для изучения и «добычи» данных (Data Mining), а также витрины данных.
При таком сценарии конечные витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное хранилище данных. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.
Отличительными характеристиками архитектуры CIF хранилищ данных можно назвать следующие:
В модели пространственного хранилища первичные данные преобразуются в информацию, пригодную для использования на этапе подготовки данных. При этом обязательно принимаются во внимание требования к скорости обработки информации и качеству данных. Как и в модели Билла Инмона, подготовка данных начинается со скоординированного извлечения данных из источников. Ряд операций совершается централизованно, например поддержание и хранение общих справочных данных, другие действия могут быть распределенными.
Область представления пространственно структурирована, при этом она может быть централизованной или распределенной. Пространственная модель хранилища данных содержит ту же атомарную информацию, что и нормализованная модель (см. подход Билла Инмона), но информация структурирована по-другому, чтобы облегчить ее использование и выполнение запросов. Эта модель включает как атомарные данные, так и обобщающую информацию (агрегаты в связанных таблицах или многомерных кубах) в соответствии с требованиями производительности или пространственного распределения данных. Запросы в процессе выполнения обращаются к все более низкому уровню детализации без дополнительного перепрограммирования со стороны пользователей или разработчиков приложения.
Типичные черты архитектуры с общей шиной:
Как компромиссное рещение был предложен гибридный подход (см. рис. 8.3).
Стоит подчеркнуть, что если окончательное представление данных приемлемо для использования, то такой подход можно считать жизнеспособным. Но двойная работа по подготовке и хранению атомарных данных сопровождается существенными дополнительными расходами и задержками. Поэтому, вероятно, стоит потратить инвестиции в ресурсы и технологии на то, чтобы соответствующим образом представить дополнительные ключевые показатели производительности для бизнеса.
8.3. Принципы обработки данных в хранилищах
Поддержка принятия управленческих решений на основе накопленных данных может выполняться в трех базовых сферах:
В основе концепции OLAP лежит принцип многомерного представления данных. Эта концепция была предложена В 1993 г. Е.Ф. Коддом, который рассмотрел недостатки реляционной модели, в первую очередь указав на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом», и определил 12 общих требований к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик. Позже его определение было переработано в так называемый тест FASMI (Fast Analysis Shared Multidimensional Information), требующий, чтобы OLAP-приложение предоставляло возможности быстрого анализа разделяемой многомерной информации.
8.4. Классификация продуктов OLAP по способу представления данных
В основе OLAP лежит идея многомерной модели данных. Человеческое мышление многомерно по определению. Когда человек задает вопросы, он налагает ограничения, тем самым формулируя вопросы во многих измерениях, поэтому процесс анализа в многомерной модели весьма приближен к реальности человеческого мышления. По измерениям в многомерной модели откладывают факторы, влияющие на деятельность предприятия (например: время, продукты, отделения компании, географию и т. п.). Таким образом получают гиперкуб (конечно, название не очень удачно, поскольку под кубом обычно понимают фигуру с равными ребрами, что, в данном случае, далеко не так), который затем наполняется показателями деятельности предприятия (цены, продажи, план, прибыли, убытки и т. п.). Наполнение это может вестись как реальными данными оперативных систем, так и прогнозируемыми на основе исторических данных. Измерения гиперкуба могут носить сложный характер, быть иерархическими, между ними могут быть установлены отношения. В процессе анализа пользователь может менять точку зрения на данные (так называемая операция смены логического взгляда), тем самым просматривая данные в различных разрезах и разрешая конкретные задачи. Над кубами могут выполняться различные операции, включая прогнозирование и условное планирование (анализ типа «что, если»). Причем операции выполняются разом над кубами, т. е. произведение, например, даст в результате произведение-гиперкуб, каждая ячейка которого является произведением ячеек соответствующих гиперкубов-множителей. Естественно, возможно выполнение операций над гиперкубами, имеющими различное число измерений.
Различают два основных вида аналитической обработки, к которым относят те или иные продукты.
MOLAP. Собственно многомерная (multidimensional) OLAP. В основе продукта лежит нереляционная структура данных, обеспечивающая многомерное хранение, обработку и представление данных. Соответственно и базы данных называют многомерными. Продукты, относящиеся к этому классу, обычно имеют сервер многомерных баз данных. Данные в процессе анализа выбираются исключительно из многомерной структуры. Подобная структура является высокопроизводительной.
ROLAP. Реляционная (relational) OLAP. Как и подразумевается названием, многомерная структура в таких инструментах реализуется реляционными таблицами, а данные в процессе анализа соответственно выбираются из реляционной базы данных аналитическим инструментом.
Недостатки и преимущества каждого подхода в общем-то очевидны. Многомерная OLAP обеспечивает лучшую производительность, но структуры нельзя использовать для обработки больших объемов данных, поскольку большая размерность потребует больших аппаратных ресурсов, а вместе с тем разреженность гиперкубов может быть очень высокой и, следовательно, использование аппаратных мощностей не будет оправданным. Наоборот, реляционная OLAP обеспечивает обработку на больших массивах хранимых данных, т. к. возможно обеспечение более экономичного хранения, но вместе с тем значительно проигрывает в скорости работы многомерной. Подобные рассуждения привели к выделению нового класса аналитических инструментов — HOLAP. Это гибридная (hybrid) оперативная аналитическая обработка. Инструменты этого класса позволяют сочетать оба подхода — реляционный и многомерный. Доступ может вестись как к данным многомерных баз, так и к данным реляционных.
Помимо перечисленных средств существует еще один класс — инструменты генерации запросов и отчетов для настольных ПК, дополненные функциями OLAP или интегрированные с внешними средствами, выполняющими такие функции. Эти хорошо развитые системы осуществляют выборку данных из исходных источников, преобразуют их и помещают в динамическую многомерную БД, функционирующую на клиентской станции конечного пользователя.
8.5. Системы интеллектуального анализа данных
Системы OLAP, так же как и классические системы математической статистической обработки информации, в настоящий момент далеко не всегда могут удовлетворить потребности современных аналитиков. Прежде всего они построены на принципах существования гипотез у пользователя. Однако нередко именно формулировка гипотезы оказывается самой сложной задачей при реализации бизнес-анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда. И в этом случае применяются системы интеллектуального анализа данных (ИАД), называемые в зарубежной литературе Data Mining. Термин Data Mining означает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные услуги либо зависимость их приобретения от каких-то характеристик потребителя).
В общем случае процесс ИАД состоит из трех стадий:
Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).
Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными.
В первой группе исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу.
Во второй группе методов информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо «прозрачными» (интерпретируемыми), либо «черными ящиками» (нетрактуемыми).
Выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:
Cегодня существует довольно большое количество разнообразных методов исследования данных, применяемых в системах ИАД:
OLAP: тест FASMI
Универсальным критерием определения О LAP как инструмента является тест FASMI (Fast Analysis of Shared Multidimensional Information — быстрый анализ разделяемой многомерной информации). Рассмотрим детально каждую из составляющих этой аббревиатуры.
Fast (быстрый). Это свойство означает, что система должна обеспечивать ответ на запрос пользователя в среднем за пять секунд. При этом большинство запросов обрабатывается в пределах одной секунды, а самые сложные из них должны обрабатываться в пределах двадцати секунд. Недавние исследования показали, что пользователь начинает сомневаться в успешности запроса, если он занимает более тридцати секунд.
Analysis (анализ). Система должна справляться с любым логическим и статистическим анализом, характерным для бизнес-приложений, и обеспечивать сохранение результатов в виде, доступном для конечного пользователя. Средства анализа могут включать процедуры анализа временных рядов, распределения затрат, конверсии валют, моделирования изменений организационных структур и некоторые другие.
Shared (разделяемый). Система должна предоставлять широкие возможности разграничения доступа к данным и одновременной работы многих пользователей.
Multidimensional (многомерный). Система должна обеспечивать концептуальное многомерное предоставление данных, включая полную поддержку множественных иерархий.
OLAP-инструмента следует учитывать целый ряд факторов, включая дублирование данных, требуемую оперативную память, использование дискового пространства, эксплуатационные показатели, интеграцию с информационными хранилищами и т. п.
Тест FASMI
Содержание:
Вступление
Современный уровень развития аппаратного и программного обеспечения позволил нам использовать базы данных оперативной информации на различных уровнях управления. В ходе своей деятельности промышленные предприятия, корпорации, рынки труда и сбыта, ведомственные структуры, органы государственной власти и управления накопили большие объемы данных. Они содержат большой потенциал для извлечения полезной аналитической информации, которая может быть использована для выявления скрытых тенденций, построения стратегий развития и поиска новых решений.
Существует несколько концепций хранения и анализа корпоративных данных:
1) Хранилища данных, или Склады данных (Data Warehouse)
2) Оперативная аналитическая обработка (On-Line Analytical Processing
Технологии OLAP тесно связаны с технологиями построения хранилищ данных и методами интеллектуального анализа данных. Поэтому оптимальным вариантом является комплексный подход к их реализации.
1. OLAP
Концепция OLAP основана на принципе многомерного представления данных. В статье 1993 года Э. Ф. Кодд рассмотрел недостатки реляционной модели, прежде всего указав на невозможность «комбинировать, просматривать и анализировать данные с точки зрения множественных измерений, то есть наиболее понятным для корпоративных аналитиков способом», и определил общие требования к OLAP-системам, расширяющим функциональные возможности реляционных СУБД и включающим многомерный анализ в качестве одной из их характеристик.
Основные требования к инструментам OLAP:
2. Куб OLAP
Что такое куб OLAP? В определении OLAP ключевым требованием является многомерность. Куб OLAP предоставляет многомерное представление данных. Куб сопоставляется с таблицей в реляционной базе данных. Конкретный проект куба OLAP обеспечивает оптимизацию сообщений.
Рис. 1 Пример информационного куба
3. Тест FASMI
Тест FASMI (Fast of Shared multi-dimensional Information), созданный в 1995 году, по-прежнему популярен. Найджел Пендс и Ричард Крит разработали этот подход на основе правил Кодда. В данном контексте основное внимание уделяется скорости обработки, многопользовательскому доступу, актуальности информации, наличию инструментов статистического анализа и представлению анализируемых данных в виде функций большого числа их характерных параметров. Можно определить OLAP с помощью следующих пяти ключевых слов: Fast (Быстрый), Analysis (Анализ), Shared (Разделяемой), Multidimensional (Многомерной), Information (Информации). Давайте рассмотрим каждую из этих характеристик более подробно.
Вывод
Технология OLAP является альтернативой традиционным методам анализа данных, основанным на различных системах реализации SQL-запросов к реляционной базе данных. Системы OLAP играют важнейшую роль в анализе и планировании крупных предприятий и являются одним из направлений развития ИТ. Она основана на требованиях людей, принимающих решения, к предоставляемой информации, их индивидуальных особенностях ведения бизнеса и принятом механизме принятия решений. С точки зрения пользователя, главной особенностью OLAP-системы является предметная структура информации. Работая с приложением OLAP, пользователь применяет привычные категории и показатели – виды материалов и готовой продукции, регионы продаж, объем продаж, себестоимость, прибыль и так далее. А для того чтобы сгенерировать любой запрос, даже достаточно сложный, пользователю не нужно изучать SQL. В этом случае ответ на запрос будет получен в течение нескольких секунд. Кроме того, при работе с системой OLAP экономист может использовать привычные инструменты, такие как электронные таблицы или специальные инструменты для построения отчетов.
Анализ данных в современном мире является важнейшим инструментом для всех сфер деятельности. В погоне за прибылью компании должны анализировать рынки, продажи и потребности и получать анализ быстрее, чем конкуренты, что и реализовано в системах OLAP и пройденными тестами FASMI.
Требование в тесте fasmi означает что система должна предоставлять пользователям
Разработчик: доц. Оскерко В.С.
3. Классификация ХД по Б. Инмону
Информационные системы можно разделить на два класса:
· ориентированные на оперативную обработку данных (OLTP-системы);
OLTP—системы создаются, чтобы способствовать повседневной деятельности корпорации, и опираются на актуальные для текущего момента данные, хранящиеся в оперативной БД.
OLAP-системы служат для анализа деятельности организации, ее структурных подразделений и прогнозирования их будущего состояния
Сейчас бизнес невозможен без принятия обоснованных решений. Такие решения могут быть построены на основе всестороннего анализа результатов выполнения бизнес-процессов в организации и деятельности организации на рынке товаров и услуг. Время принятия решений в современных условиях и потоках информации сокращается. Роль анализа на основе новых ИТ возрастает.
Традиционный анализ, как правило, осуществляется при помощи изучения набора готовых отчетных форм, а его результатом является принятие одного из бизнес-решений.
На практике руководителю может потребоваться исследование множества комбинаций данных, не укладывающихся в имеющийся набор готовых отчетных форм.
Эти проблемы легко решаются, если использовать OLAP-технологию. Она предполагает:
· возможность полной и легкой настройки отчета без программиста;
· возможность детализации отчета в процессе анализа данных;
· непротиворечивость данных между отчетами;
· простоту использования и восприятия отчетов.
OLAP (On-lineAnalyticalProcessing – оперативная аналитическая обработка) – это способ представления данных в простом и понятном для конечного пользователя виде.
12 определяющих принципов OLAP сформулировал в 1993 г. Е. Ф. Кодд. Позже они были переработаны в тест FASMI, требующий, чтобы OLAP-приложение предоставляло возможности быстрого анализа разделяемой многомерной информации.
Analysis (Анализ) – должна быть возможность основных типов числового и статистического анализа, предопределенного разработчиком приложения или произвольно определяемого пользователем.
Shared (Разделяемой) – множество пользователей должно иметь доступ к данным, при этом необходимо контролировать доступ к конфиденциальной информации.
Multidimensional (Многомерной) – это основная, наиболее существенная характеристика OLAP.
Information (Информации) – приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения.
OLAP – это совокупность средств многомерного анализа данных, накопленных в хранилище данных (ХД).
В ХД погружается информация о деятельности организации в прошлом, а также из внешних источников данных. В накопленных данных организации находится «информационный снимок» хронологии ее поведения на рынке. Анализ истории деятельности организации позволяет:
· существенно увеличить эффективность ее управления;
· оперативно организовать взаимоотношения с клиентами, производство и сбыт продукции.
Отправной точкой концепции складирования данных является ретроспективный взгляд на данные, накопленные в организации.