sas viya что это
Вия, Уая, Вая, Вайя – “трудности перевода”, или что скрывается за новой платформой SAS Viya (Вайя)
В сети можно найти огромное количество разнообразных статей о методах использования алгоритмов математической статистики, о нейронных сетях и в целом о пользе машинного обучения. Данные направления способствуют существенному улучшению жизни человека и светлому будущему роботов. Например, заводы нового поколения, способные работать полностью или частично без вмешательства человека или машины с автопилотом.
Разработчики объединяют комбинации этих подходов и методов машинного обучения в различные направления. Эти направления впоследствии получают названия, оригинальные и не очень, например: IOT (Internet Of Things), WOT (Web Of Things), Индустрия 4.0 (Industry 4.0), Artificial Intelligence (AI) и другие. Данные концепции объединяет то, что их описание является верхнеуровневым, то есть не рассматриваются ни конкретные инструменты и технологии, ни уже готовые к внедрению системы, а основной целью является визуализация желаемого результата. Но технологии уже существуют, хотя часто не имеют единой платформы.
Решения предоставляют как крупные вендоры ПО: SAS, SAP, Oracle, IBM, так и маленькие стартапы, составляющие крупным игрокам сильную конкуренцию, а также решения с открытым исходным кодом — open source решения. Все это многообразие сильно осложняет быстрое и эффективное выполнение поставленной задачи, так как требует трудоемкой интеграции различных систем между собой, огромных трудов разработчиков по созданию хороших моделей машинного обучения и будущую имплементацию этих решений в продуктив. Но в то же время основной критерий успешности любого инновационного проекта, который меняет подход компании к ведению бизнеса часто требует быстрого доказательства успешности и состоятельности, а иначе никто не рискнет его запустить. А это невозможно без использования единой платформы, которая позволит выполнять быстро весь цикл подготовки (поиска, сбора, очистки, консолидации) данных и получать финальные результаты в виде качественной аналитики (в том числе с использованием алгоритмов машинного обучения), и, как следствие, прибыли для компании.
Про SAS
Трудности выбора
Мы уже выяснили, что сейчас на рынке существует огромное количество продуктов известных вендоров и игроков поменьше, а также open source, который позволяет решать различные аналитические задачи во всех сферах бизнеса. Какие же критерии, кроме цены, должны учитываться при принятии решения о выборе той или иной платформы?
Начнем с того, что сейчас бизнес пользователь становится все больше вовлечен в полный аналитический цикл и требует большей независимости от ИТ. На первый план выходят понятные этим пользователям критерии – удобство использования (единые интерфейсы), минимизация обучения новым системам (меньше кода, больше графики), производительность (в разрезе аналитики — это возможность быстрого получения результата на больших массивах данных), наличие готовых алгоритмов и моделей для работы. Время “черных” экранов уходит, терминальные окна, хотя и в другом виде, все еще доступны и позволяют писать и отлаживать код прямо на ходу, но большую часть функций уже давно можно реализовать в виде блоков в графическом интерфейсе, что открывает двери для пользователей любых уровней для работы с продвинутой аналитикой (хотя математику знать все же желательно).
Второй тренд, который неизбежно завоевывает рынки – это облачные технологии. С точки зрения компаний это возможность гибкого управления доступными ресурсами под любые проекты. Существует много исследований о времени полного вытеснения облачными технологиями классических решений. Но здесь важно понимать, что облачные вычисления — это не только железо, которое живет где-то далеко во внешних цодах, но и сам подход гибкого предоставления всевозможных услуг в виде сервисов, которые можно получить быстро и без необходимости выстраивания или перестраивания сложной IT инфраструктуры.
Еще один тренд – использование Big Data технологий. Да и использование всей Hadoop экосистемы в целом со своими языками и технологиями, а также других доступных open source систем, которые дают интерфейсы для работы с данными, такие как R, Python и другие. В этой области нет смысла конкурировать, но есть смысл иметь технологии для интеграции с этой экосистемой. Или не просто интегрироваться, а использовать возможности этой экосистемы как в случае с SAS Hadoop Embedded Process или использование Kafka для построения High Availability для систем ESP (SAS Event Stream Processing). А иногда даже улучшать и ускорять, как например возможность запускать код на R на движке CAS в SAS Viya.
Универсальная платформа
Спрос рождает предложение и SAS Viya не исключение из правил. Если обратиться к официальному определению SAS Viya, которое было дано Джимом Гуднайтом (очень сильно сокращено, но смысл сохранен) во время анонса в 2016 году на глобальном SAS форуме, то SAS Viya это: «Облачная система, которая использует подходы распределенных вычислений…и дает единую платформу для аналитики«
Ну а если коротко сформулировать идею и цели платформы SAS Viya – то это универсальная платформа для любого вида анализа на всех стадиях проекта от подготовки данных до применения сложных алгоритмов машинного обучения. Можно выделить 4 блока задач:
1. Подготовка данных
2. Визуализация и исследование данных
3. Прогнозная аналитика
4. Продвинутая аналитика в виде алгоритмов машинного обучения
Информация для читателей
Так как в рамках одной статьи все рассказать достаточно трудно без ущерба важным нюансам, то эти шаги будут рассмотрены в следующих статьях на примерах. В этой статье мы рассмотрим важную тему движка SAS Viya, который обеспечивает быструю работу аналитических инструментов. Статьи про современные и красивые интерфейсы следующие в очереди.
Основа платформы SAS Viya
Почему Cloud?
SAS при разработке платформы Viya и CAS в частности использовала преимущества концепции облачных вычислений. Их можно выделить в 4 группы:
1. Доступность через большой набор API разных клиентов. Для SAS это большой шаг вперед. Больше нет ограничений на использование только языка SAS Base для аналитики. Можно использовать Python (Например, из Jupiter Notebook), R, Lua и др., выполнение которых будет происходить в CAS на платформе SAS Viya.
2. Эластичность. Можно легко масштабировать систему, подключая/отключая узлы кластера CAS. Приложения доступны через web и организованы в виде микросервисов. Они независимы друг от друга в вопросах установки, обновления и работы.
3. Высокая доступность. В CAS используется система зеркалирования данных между узлами кластера. Один набор данных хранится на нескольких узлах, что уменьшает риск потери данных. Переключение в случае отказа одного из узлов происходит автоматически с сохранением состояния выполнения задания, что часто бывает критично для тяжелых аналитических расчетов.
4. Повышенная безопасность. Так как облако может быть получено от публичного провайдера, то реализация должна соответствовать более жестким требованиям к надежности каналов передачи данных.
Развернуть платформу Viya можно где угодно — в облаке, на выделенной машине в своем цоде, в кластере из любого количества машин. Автоматически обеспечивается отказоустойчивость решения.
Как же CAS работает?
Я буду разбирать работу CAS на примере MPP установки. SMP упрощает, но сохраняет принципы работы CAS. В реальной жизни SMP можно использовать в качестве тестовых локальных сред для отработки моделей с последующим переносом разработки на MPP платформу для лучшей производительности.
Давайте еще раз посморим на верхнеуровневую архитектуру CAS на SAS Viya:
Если говорить про CAS, то он состоит из контроллера, по-другому, мастер ноды (плюс есть возможность выделить еще один узел для резервной ноды контроллера) и рабочих узлов. Мастер нода хранит метаинформацию о данных, расположенных на узлах кластера, и отвечает за распределение запросов на эти узлы (CAS Workers), выполняющие обработку и хранение данных. Отдельно выделен сервер, на котором находятся аналитические сервисы и дополнительные модули, необходимые для работы платформы. Их тоже может быть несколько в зависимости от задач. Например, можно использовать на отдельной машине в рамках инсталляции Viya сервер для SPRE (SAS Programming Runtime Environment), который позволит запускать классические задачи SAS 9 на платформе Viya как с использованием CAS, так и SPRE.
Есть интересная конфигурация, которая расширяет возможности использования CAS на платформе Viya, и оправдывает первую букву своего названия Cloud:
Мультиарендность (multitenancy) дает возможность разделить ресурсы и данные между департаментами. При этом “арендаторам” дается единый интерфейс доступа к платформе и обеспечивается логическое разделение различных функций платформы Viya. Вариантов достаточно много. Возможно, этот вопрос будет рассмотрен в отдельной статье.
Как же быть с надежностью оперативной памяти и как загрузить данные в CAS?
Любая in-memory система для надежности требует бэкапирования данных, которые находятся в RAM. RAM не умеет сохранять состояние при отключении питания плюс все данные могут не поместиться в область оперативной памяти, и необходим механизм для быстрой перезагрузки данных в RAM. Поэтому для таблиц, которые загружаются в CAS для аналитики, создаются копии в области постоянной памяти специального формата SASHDAT. Для обеспечения высокой доступности эти файлы зеркалируются на нескольких узлах кластера. Этот параметр можно настроить. Идея в том, что при потере узла данные будут автоматически загружены в оперативную память на соседнем узле из копии файла SASHDAT. Область хранения этих копий в структуре CAS называется CAS_DISK_CACHE.
CAS_DISK_CACHE это важная часть в составе CAS, которая нужна не только для обеспечения отказоустойчивости, но и оптимизации использования памяти. На схеме ниже отображены разные способы хранения SASHDAT и принцип загрузки данных в RAM. Например, датасет A получен из БД Oracle и хранится на одном узле CAS в RAM и на диске. Плюс этот датасет A дублируется на другом узле только на жесткий диск. Вариантов много (некоторые из них не требуют дополнительного резервирования – это будет рассмотрено ниже), но основная идея в том, чтобы всегда иметь копию для быстрого восстановления ранее загруженных данных в оперативную память. Кстати, в случае установки двух параметров: MAXTABLEMEM=0 и COPIES=0 на уровне сессии, данные будут жить только в оперативной памяти.
Отдельно хочется рассмотреть интересную конфигурацию CAS с Hadoop. Для использования этой конфигурации CAS вместе с Hadoop системой нужна установка SAS Plugins for Hadoop. Основная идея подхода в том, что узлы кластера Hadoop становятся также рабочими узлами CAS. Данные затягиваются в оперативную память напрямую из файлов в hdfs без сетевой нагрузки. Это лучший вариант с точки зрения производительности. Можно использовать Hadoop либо только для хранения SASHDAT файлов (HDFS на кластере будет выполнять роль CAS_DISK_CACHE –резервирование на уровне HDFS), либо вместе с другими данными. Распределение ресурсов на кластере Hadoop выполняется через YARN. Схема установки CAS на кластер Hadoop:
Загрузка
С загрузкой данных все просто. Мы можем указать различные источники на вход CAS. Их можно загружать или в один поток или параллельно. Так как реляционные базы данных используются гораздо чаще в качестве источников, мы рассмотрим тему загрузки данных в CAS из RDBMS. Для оптимизации загрузки данных в кластер CAS желательно установить клиентское ПО базы данных источника на каждый узел кластера. В этом случае каждый узел CAS кластера будет получать свою порцию данных в параллельном режиме. При установке клиента только на контроллер все данные будут передаваться через CAS контроллер.
Например, при установке параметра numreadnodes=3 таблица будет автоматически разбиваться на 3 порции данных для загрузки на разные узлы CAS – в этом случае распределение данных будет основано на группировке по первому числовому столбцу с применением операции mod 3.
Если же в качестве источника используются Hadoop или Teradata, то с использованием Embedded Process для Hadoop или Teradata загрузка будет выполняться напрямую с каждого узла кластера Hadoop или Teradata. Обратите внимание, что в случае с отдельной инсталляцией кластера Hadoop (CAS установлен не на узлах Hadoop) область CAS_DISK_CACHE будет создана на кластере CAS.
С чего начать работу с CAS?
Важными терминами в работе CAS являются библиотеки и сессии. При начале работы с CAS первое, что создается – это сессия. Ее можно определить вручную при работе через SAS Studio, или она автоматически создается через доступные графические интерфейсы на SAS Viya при подключении к CAS. Внутри сессии все данные и преобразования, которые определяются в новых библиотеках, по умолчанию создаются с локальной областью видимости. Данные (определенные в caslib) и результаты шагов локальной сессии видны только в этой сессии. В случае, если нам нужно сделать результаты общедоступными, то мы можем переопределить caslib параметром global и оператором promote, и данные будут доступны из других сессий. Библиотеки, которые уже определены с параметром global, будут доступны из любых сессий. Сделано это для оптимального разделения ресурсов и управления правами доступа к данным. После отключения от локальной сессии удаляются все временные данные, если caslib не был переопределен в global. Мы можем настроить параметр TIMEOUT для удаления данных при отключении от сессии, чтобы избежать возможных потерь при кратковременных сетевых сбоях или чтобы вернуться к этой сессии для дальнейшего анализа (например, можно выставить параметр TIMEOUT на 3600 секунд, что даст нам 60 минут времени для возврата к сессии). Плюс данные можно сохранить на любом шаге преобразований в специальный формат SASHDAT или в доступную БД, к которой настроено подключение простым оператором SAVE.
Библиотеки caslibs описывают наборы данных, которые будут доступны в CAS. При создании caslib указывается тип подключения и параметры подключения. В определении caslib мы указываем сразу на источник данных и на целевую область в in-memory. Также на уровне caslib удобно задавать права доступа группам пользователей к данным, которые описаны в caslib. Делается это в графическом интерфейсе.
Пример описания caslib для разных типов источников:
После определения caslib мы можем загружать данные в оперативную память для дальнейшей обработки. Пример загрузки данных caslib hivelib:
Внутри каждой сессии запросы (actions) выполняются последовательно. Это важно при написании кода вручную, но при использовании графических интерфейсов, доступных на Viya, об этом можно не думать. Клиентские приложения с GUI сами создают раздельные сессии для выполнения шагов в параллельном режиме.
Полноценно графические интерфейсы и подходы работы через них мы рассмотрим в следующих статьях. Здесь добавлю скриншоты шагов по созданию caslib DM_ORAHR и загрузки данных в RAM через GUI:
Это только начало
На этом я заканчиваю часть про CAS и возвращаюсь к платформе Viya. Так как Viya создана для бизнес-пользователей, то в процессе работы не нужно будет глубоко понимать специфику работы CAS. Для всех операций есть удобные графические интерфейсы, а CAS будет обеспечивать быструю работу всех аналитических шагов за счет in-memory и распределенных вычислений.
Теперь можно переходить к пользовательским интерфейсам, которые доступны на Viya. На текущий момент их достаточно много, и количество продуктов постоянно увеличивается. В начале статьи они были выделены в 4 группы, которые нужны для полного аналитического цикла. Возвращаясь к основной идее, Viya – это единая платформа для исследования данных и продвинутой аналитики. А начинается работа с подготовки и поиска этих данных. И в следующей части цикла статей про Viya я расскажу про инструменты подготовки данных, которые доступны аналитикам.
Вместо заключения, название Viya происходит от слова Via (от англ. “посредством” или “через”). Основная идея этого названия в простом переходе от классического решения SAS 9 к новой платформе, которая создана, чтобы перевести аналитику на новый уровень.
SAS Viya
Содержание
SAS Viya — облачная платформа, которая позволяет решать аналитические задачи, сокращая время между первоначальным аналитическим исследованием и конечным бизнес-результатом. SAS Viya развертывается как в облаке, так и локально, поддерживает работу со множеством облаков и может быть масштабирована по мере роста организации и развития ее ИТ-инфраструктуры. Результаты работы и модели, используемые на SAS Viya, также можно впоследствии перемещать из одного облака в другое и использовать повторно.
В составе решения Clarion
16 августа 2021 года компания SAS, представитель в области аналитики и искусственного интеллекта (ИИ), сообщила, что совместно с компанией bioMerieux Inc., работающей в сфере решений для диагностики инфекционных заболеваний in vitro, заключили партнерское соглашение, чтобы совместно решать проблемы применения антибактериальных препаратов. Решение Clarion отслеживает устойчивость бактерий к препаратам и c помощью SAS Viya. Подробнее здесь.
SAS Studio Analyst и SAS Information Governance
По информации компании, большинство специалистов по анализу тратят слишком много времени на подготовку данных, вместо того чтобы строить модели и предоставлять аналитические выводы руководителям компаний. Неважно, сложные или простые данные, компаниям нужны продукты, обеспечивающие гибкость и эффективно преобразующие данные для принятия правильных решений. SAS объявила о двух таких продуктах.
По мере того, как аналитика и искусственный интеллект все больше внедряются в повседневную жизнь, компаниям уже требуются данные. Доступная теперь в SAS Viya, SAS Studio Analyst дает возможность специалистам в области данных и аналитикам использовать среду самообслуживания для ускорения предоставления надежных данных для аналитики. SAS Studio Analyst позволяет пользователям настраивать визуальные цепочки трансформации данных, которые можно повторно использовать и гибко настраивать – в том числе создавать свои собственные блоки и определять для них интерфейс. Это помогает быстро запустить инициативы в области аналитики и организовать необходимые для нее данные.
В мире, где уже есть большое количество источников информации, компаниям трудно охватить все имеющиеся данные, определить содержание набора данных и оценить их пригодность для анализа. А с ростом числа источников данных эти проблемы усугубляются, влияя на качество аналитических результатов. SAS Information Governance, также доступный теперь в SAS Viya, предоставляет интуитивно понятный каталог данных и средство поиска метаданных для аналитиков, бизнес-пользователей и ИТ-специалистов для обнаружения и управления ресурсами данных, одновременно регулируя и защищая данные. Благодаря этому решению специалисты по работе с данными могут тратить меньше времени на поиск и организацию данных и больше времени на реальный анализ.
Округ Риверсайд в Южной Калифорнии полагается на аналитику от SAS для здоровья и благополучия более 2,5 млн жителей. Округ столкнулся с проблемой объединения больших объемов данных из различных источников. Цель – удовлетворить потребности граждан в медицинском обслуживании. Средство – система здравоохранения, состоящая из крупного медицинского центра, стационарной психиатрической клиники и нескольких поликлиник.
Округ Риверсайд сотрудничал с SAS для разработки решения, которое сочетает в себе возможности подготовки и визуализации данных, а также углубленную аналитику. Продукты на базе SAS Viya позволяют округу интегрировать медицинские и не медицинские данные из государственной больницы, окружной тюрьмы, а также системы поведенческого здоровья, социальных услуг и информацию о бездомных.
Соединив эти базы данных, округ Риверсайд теперь видит, какие медицинские и социальные услуги получают самые разные слои населения, а также может сопоставить процесс и результаты лечения. Этому способствует технология, которая может идентифицировать человека, даже если имя, адрес или другие личные параметры не совпадают в разных базах данных.
Обновленная SAS Viya включает решения по управлению данными – SAS Studio Analyst и SAS Information Governance и обеспечивает непрерывное развертывание и обновление. Облачное ПО позволяет клиентам эффективно демократизировать аналитику в своих компаниях, одновременно беспрепятственно управляя аналитическими рабочими нагрузками и встраивая аналитику в различные операционные приложения для принятия правильных решений.
В составе портфолио облачных решений для ритейла и CPG
Анонс SAS Viya 4
22 июня 2020 года SAS анонсировала версию аналитической платформы SAS Viya 4. Обновленная версия SAS Viya 4 станет доступна в конце 2020 года. Предстоящее обновление переосмысливает способ принятия аналитических решений, сочетая возможности платформы с гибкостью и масштабируемостью облака. Это обновление SAS Viya является одним из результатов инвестиций SAS в ИИ на сумму 1 млрд долларов.
По информации компании, SAS упрощает встраивание ИИ и машинного обучения в процесс принятия решений. Благодаря переосмысленной облачной архитектуре и наличию интерактивных и программных интерфейсов пользователи не привязаны к языку программирования, хранилищам данных и не нуждаются в особых навыках. Автоматизированная подготовка данных, машинное обучение (AutoML) и развертывание моделей повышают производительность дефицитных специалистов по data science и расширяют возможности искусственного интеллекта для тех, кто обладает более широким набором навыков. Результаты интерпретируются легко и понятными терминами.
С акцентом на API, SAS Viya 4 упрощает совместную работу разработчиков приложений с командами специалистов по исследованию данных и позволяет быстро реагировать на меняющиеся потребности бизнеса.
В SAS Viya 4 используется процесс непрерывной интеграции и непрерывного развертывания (CI/CD), который позволяет клиентам выбирать время обновления продукта и согласовывать его со своим рабочим графиком. Архитектура на основе контейнеров под управлением Kubernetes, обеспечивает переносимость в различные облачные среды, включая широко распространенные Azure, Google, AWS и OpenShift.
SAS Viya 4 упрощает развертывание моделей, помогая преодолеть критическую «последнюю милю» аналитики, и предлагает централизованный репозиторий для мониторинга и управления эффективностью всех аналитических моделей.
По мере распространения ИИ и машинного обучения, SAS Viya 4 централизует управление всеми моделями с открытым исходным кодом и написанных на SAS, обеспечивая полную прозрачность и контроль над всей деятельностью по моделированию. Архитектура SAS Viya 4 позволяет ей развиваться одновременно с развитием облачных технологий.
В составе решения для эффективного использования аналитики в гибридной облачной среде
23 декабря 2019 года стало известно, что SAS и Red Hat совместно создали решение для эффективного использования аналитики в гибридной облачной среде.
В рамках технологического партнерства SAS предоставляет свою платформу SAS Viya на инфраструктуре Red Hat OpenShift.
Платформа Red Hat OpenShift предоставляет решение для работы с контейнерами Kubernetes.
Благодаря ему компании могут управлять своей ИТ-инфраструктурой в гибридном облаке. Используя аналитику SAS в среде Red Hat OpenShift, они также оперативно получают практические результаты, сохраняя при этом гибкость и контроль над инфраструктурой для решения своих задач.
В рамках этого сотрудничества SAS создает центр экспертизы (OpenShift Center of Excellence) для совместных разработок в части методологии распределения аналитических нагрузок в контейнерах Kubernetes и Red Hat OpenShift.
Автоматизированное управление данными и машинное обучение
23 октября 2019 года компания SAS объявила о разработке ряда дополнений и обновлений платформы SAS Viya. Теперь она содержит такие возможности, как автоматизированное управление данными, автоматизированное машинное обучение и продвинутые функции интерпретации моделей. Это сделано, чтобы технологии ИИ стали прозрачнее и доступнее для всех пользователей, подчеркнули в компании.
Обновленная SAS Viya выйдет в 4 квартале 2019 года. Включенные в нее возможности ИИ и углубленной аналитики будут доступны как специалистам в области данных, так и бизнес-пользователям. SAS автоматизирует весь жизненный цикл аналитики – от обработки данных до проектирования объектов и выбора алгоритмов в один клик. Добавленные функции упрощают и ускоряют этапы подготовки данных и построения моделей машинного обучения, которые раньше проходили в ручном режиме, требовали времени и отдельных компетенций от пользователя.
Также SAS продолжает реализацию концепции об открытой платформе, где можно развертывать любые модели и приложения. Ряд доработок в SAS Model Manager позволяет развертывать на SAS Viya ИИ-модели с открытым исходным кодом.
Анонс программы SAS Viya for Learners
14 мая 2019 года компания SAS представила программу SAS Viya for Learners, позволяющую учащимся и преподавателям бесплатно использовать платформу SAS на основе ИИ.
В рамках программы SAS Viya for Learners компания бесплатно предоставит ряду вузов доступ к SAS Viya — открытой аналитической платформе, которую можно развернуть как в облаке, так и локально, а также масштабировать по мере роста и развития организации. Кроме того, часть инвестиций пойдет на организацию бесплатных семинаров для преподавателей и учебные материалы.
В результате педагоги получат доступ к мировым практикам и смогут обменяться опытом, а студенты научатся работать с данными, развертывать модели искусственного интеллекта и машинного обучения, а также получат практический опыт в ходе работы с реальными бизнес-кейсами, отметили в SAS.
Viya — это платформа аналитики и визуализации, которая может работать в среде общедоступного или частного облака. Это ПО следующего поколения, которое дебютировало в апреле, являет собой первый реальный выход SAS в облако и закладывает фундамент для ее будущего ПО бизнес-аналитики.
Для работы с этой платформой можно использовать не только собственный язык программирования SAS, но и другие, включая Python, Luya и Java, а также поддерживаемые общедоступные RESTful API.
SAS перерабатывает также версии некоторых своих аналитических приложений, чтобы они могли работать на платформе Viya, в том числе SAS Visual Analytics, SAS Visual Statistics, SAS Visual Investigator и SAS Visual Data Mining & Machine Learning.
- сегодня день ангела хранителя открытки
- one punch mode dead island что это