sber data exchange что это

Как мы научились управлять данными глобального масштаба: кейс разработки Супермаркета Данных

sber data exchange что это. Смотреть фото sber data exchange что это. Смотреть картинку sber data exchange что это. Картинка про sber data exchange что это. Фото sber data exchange что это

Мария Юшанова, Управление распространения данных Департамента SberData

Однако может возникнуть проблема, когда данные разрознены и нет единого механизма обмена информацией владельцев данных с их потребителями. Например, в Фабрике Данных Сбера более 350 источников данных, 90 аналитических приложений, 270 лабораторий данных, где работают боле 1300 пользователей и обращается около 15 Пб разной информации. Важно было создать решение, которое автоматизирует процессы по работе с данными и позволит пользоваться им в формате self-service.

Именно за эту амбициозную задачу, которую до этого никто не решал, взялась объединенная команда Сбера и ADV/web-engineering, и в этой статье расскажем, что у нас получилось.

sber data exchange что это. Смотреть фото sber data exchange что это. Смотреть картинку sber data exchange что это. Картинка про sber data exchange что это. Фото sber data exchange что это

Задача

Стандартный сценарий поиска информации представлял собой поход по начальникам департаментов, формирование договоренностей и согласование получения доступов. При этом владельцы данных могли не знать о том, что кому-то вообще нужны данные, тем более в определенном формате, с определенной регулярностью, что их данные могут быть недостаточно качественными и тп. Даже после того, как данные были найдены и доступ был получен, для каждого такого потока данных должно было быть спроектировано и согласовано технологическое решение. Time-to-market мог составлять до полугода.

Среди потребителей данных мы выделяем две большие группы:

Data scientists, Data-инженеры, аналитики данных, разработчики витрин данных, DataOps — для исследования данных и построения моделей

Представители бизнес-подразделений Сбера — от построения автоматизированных процессов решения бизнес-задач до формирования управленческой отчетности в режиме реального времени.

В организациях масштаба Сбера невозможно построить работу с данными в масштабе всей компании без выстраивания процессов управления данным. Обязательно должен быть data governance. И в связи с этим появляются такие роли, как владелец данных, менеджер данных, бизнес-пользователь данных.

Чтобы воспользоваться необходимыми данными потенциальный пользователь данных должен:

Найти нужные данные

Объяснить, зачем ему эти данные и получить к ним доступ

Поддержать техническую составляющую процесса получения данных

При этом необходимые данные могли быть разбросаны по куче разных систем, а их описание могло не давать полноценного понимания, устроят они потребителя или нет.

Поэтому мы сформировали требования к решению, которое позволит:

Легко и быстро искать необходимые данные

Получать данные по нужным условиям (формат / фильтры / условие поставки данных / периодичность и продолжительность поставки)

Получать данные там, где это необходимо получателю (здесь и далее будет использован термин «площадка получения данных»)

Поддерживать различные сопровождающие процессы, которые будут возникать при работе с данными (например, согласования, переходы пользователей между отделами и т.п.)

Соответствовать требованиям безопасности по работе с данными

В целом, удовлетворять нужды разных групп пользователей и стать единым механизмом распространения данных внутри Сбера.

Концепция и старт проекта

Как упоминалось в лиде, основная идея — создать целевое решение, которое соберет в себе рутинные процессы по работе с данными, автоматизирует их и позволит пользоваться им в формате self-service. Чтобы радикально сократить time-to-data, упростить доступ к данным пользователей Сбера и при этом повысить контроль за доступом к данным и data governance.

Рассматривалась идея «Супермаркета данных», которая есть у других компаний, в том числе коробочные решения, которые предоставляют интеграторы. Однако проанализировав рынок, мы поняли, что коробочное решение не приживется в контуре Сбера, где на момент принятия решения уже существовала Фабрика данных со своими процессами, реализованными сервисами и гигантскими объемами колоссального разнообразия данных (один лишь каталог данных сейчас составляет более полутора миллионов элементов). Исходя из этого было принято единственное и правильное решение — разрабатывать Супермаркет данным самим.

Нужно было собственное решение, которое станет единой точкой входа и фронтом для всех сервисов SberData, решит не только технические задачи, но и будет понятным относительно широкой аудитории пользователей.

Среди компаний-подрядчиков мы выбрали команду ADV/web-engineering.co, показавшую сильную экспертизу и предложившую концепт, максимально приближенный к тому, что мы хотели. Мы стартовали в 2019 году, и вот уже на протяжении двух лет вместе с коллегами из ADV постепенно развиваем уровень зрелости продукта и регулярно улучшаем внутренние процессы разработки, внедрения и сопровождения. Список решённых бизнес-задач исчисляется сотнями, а количество релизов — десятками.

Сегодня СМД используется для ряда промышленных трактов и снабжает данными из более чем 300 источников витрины и аналитические решения бизнес блоков Сбера. Ежедневно через СМД проходит около 3Пб данных, включающих более 70 тыс таблиц и миллиона атрибутов. И эти цифры продолжают расти.

О том, какие шаги мы прошли за эти два года, от лица совместной команды ADV и SberData расскажет Виктор Колдаев @vkoldaev, ведущий аналитик компании ADV/web-engineering:

Сильные e-commerce и data-подразделения позволили ADV собрать команду, использующую опыт построения больших каталогов, работу с дистрибуцией данных и большими нагрузками, экспертизу в области обеспечения безопасности данных для реализации cовместно с сильной командой SberData удобного и интуитивного self-сервиса для поиска и получения данных в контуре Сбера.

Разработку концепта мы с аналитиками команды Сбера начали с представления всего многообразия данных. Здесь используются метаданные — данные о данных, содержащие информацию о списке данных, структуре, показателях качества, актуальности, data governance информации. Метаданные могут обогащаться и использоваться, например, для поиска нужных данных.

Второе — это получение данных с учетом различных критериев и с определенной регулярностью. Пришли к формату заказа данных по типу подписки.

Добавляем пользователей, которые со всем этим могут работать, и получаем верхнеуровневую концептуальную модель сущностей, содержащую:

Далее строится концепция пользовательского интерфейса, через который мы уже более детально прорабатываем пользовательские кейсы и возможности. Появляется:

Каталог, построенный на основании метаданных и содержащий доступный ассортимент, с инструментами поиска и фильтрации

Корзина, позволяющая оформить «заказ на данные» — подписку

Реестр подписок (заказов пользователей)

Стартовая разводящая страница, содержащая базовый дашборд

sber data exchange что это. Смотреть фото sber data exchange что это. Смотреть картинку sber data exchange что это. Картинка про sber data exchange что это. Фото sber data exchange что это

Вот и получился Супермаркет данных. Бонусом в концепции закладывался сопроводительный функционал, типа общего поиска, глобальных справочников, систем рекомендации и административного интерфейса.

Параллельно архитекторами Сбербанка прорабатывается базовая архитектура решения, фиксируется:

Портал Супермаркета данных — интерфейсная часть, с которой работает пользователь и которая сама по себе работает не с данными, а только с метаданными

Технический компонент, отвечающий непосредственно за работу с данными и их поставку согласно требованиям подписок — Ядро Супермаркета данных

Источники данных — условное обозначение всех точек, метаданные которых опубликованы в ассортименте Супермаркета данных и доступных для заказа

Получатели данных — условное обозначение потребителя данных независимо от технологического стека

Использование единого технологического решения позволяет пользователям не заниматься проработкой нового технологического канала обмена данными для каждого инфопотока, а лишь раз настроить свой приёмник для получения данных из Супермаркета.

sber data exchange что это. Смотреть фото sber data exchange что это. Смотреть картинку sber data exchange что это. Картинка про sber data exchange что это. Фото sber data exchange что это

MVP и развитие решения

Супермаркет данных — довольно сложное архитектурное решение, которое на начальных этапах отличалось от того, что мы имеем сейчас. Внутри него огромное количество интеграций с системами Сбера. Релиз формируется из работы нескольких команд, каждая из которых решает свой пул задач и реализует свой бэклог.

MVP включал в себя базовый функционал:

Ограниченный набор данных в ассортименте

Ограниченная аудитория в рамках работы с MVP продукта

Из всех вариантов поставки данных — только снепшот (полный объем таблицы источника, без возможности наложить фильтр или получить дельту изменений данных за период) по расписанию не чаще раза в день

Запрошенные данные можно получить только после процесса их подготовки и из специализированного hadoop-кластера под именем DDA — data distribution area, область распространения данных

Многие опции подписок (например, сложные фильтры на данные) и прочие полезные бантики были пущены под нож

Очень много идей из концепции также были перенаправлены в бэклог для дальнейшей приоритезации.

После запуска MVP первым делом:

Cервис был интегрирован в инфраструктуру Сбера, из самого важного:

Обеспечили поддержку сервиса централизованного управления пользователями и их ролями,

Запустили процесс регулярного получения метаданных для построения актуального ассортимента из сервиса управления метаданными Фабрики данных Сбера

Реализован базовый функционал уведомлений пользователей о различных событиях, связанных с их подписками, на портале и через почту

Добавлен поиск по объектам ассортимента

В рамках первой вехи развития решения наша совместная команда:

Предоставила возможность построения промышленных трактов, которым требуется повышенная надёжность и безопасность. Здесь добавили поддержку выделенных технических учётных записей. Их использование позволяет оформлять специальные «промышленные» подписки, которые не зависят от конкретного человека, предполагают двойной контроль изменений и отдельные условия поддержки.

Расширила возможность использования СМД внутри контура Сбера. Начали поддерживать больше платформ-приемников, расширяя список бизнес-задач, которые можно решить.

Добавила полноценную фильтрацию запрошенных данных при оформлении подписок

Расширила доступный для заказа ассортимент. Из важного — добавили возможность заказа данных с использованием Единого Семантического Слоя (ЕСС) Сбера.

Полноценное описание ЕСС заслуживает отдельной статьи. Если коротко, то это изначально общая логическая модель данных всего Сбера, структурированная по предметным областям и наполненная данными из разных источников. Использование ЕСС дает пользователю возможность оперировать бизнес-данными без необходимости разбираться в какой-то конкретной структуре хранения данных какого-то конкретного источника.

Следующая веха была заточена под развитие условий поставки данных. Продукт стал доставлять данные:

Не только по расписанию, но и по факту обновления данных в источнике

Не только снепшоты, но и инкременты, чтобы позволить экономить время и вычислительные ресурсы

Не только пакетным способом, но и потоковым, в режиме около реального времени

Не только поставлять данные (перекладка данных, ETL), но и управлять доступом к данным по подписке через сервисы проксирования. Так получатель обращается к запрошенным данным напрямую, без ETL-процесса подготовки данных и размещения их в DDA. Подобная оптимизация особенно актуальна для гигантских объемов информации, так как, по сути, получение данных выполняется в два раза быстрее и с экономией места на дисках.

Следующая важная задача — поддержка обновленных требований кибербезопасности по поставке чувствительных данных через Супермаркет данных. Это был отдельный большой проект нескольких команд Сбера, начиная от проработки процесса и архитектуры и заканчивая доработкой нескольких систем, включая Супермаркет. В рамках этого проекта команда:

Реализовала механизм доступа к данным через теги доступа. Теги доступа представляют собой своего рода ярлыки, которые устанавливаются на данные любого уровня атомарности: от целой схемы до конкретного атрибута. Это позволяет владельцу данных гибче определять ценность и защиту для своих данных

Внедрила защиту данных с использованием технологии токенизации и шифрования.

Дополненная концептуальная архитектура с высоким уровнем абстракции теперь выглядит так:

sber data exchange что это. Смотреть фото sber data exchange что это. Смотреть картинку sber data exchange что это. Картинка про sber data exchange что это. Фото sber data exchange что это

Что сейчас

На данный момент объединенная команда ADV и SberData совершенствует сервис, повышая его стабильность и производительность, а также продолжает развивать функционал, расширяя список решаемых бизнес-задач:

Сейчас автоматизированная система находится на уровне Business operational и развивается в сторону Business critical: начинаем с отдельных подписок, целимся в повышение стабильности всего решения.

Занимаемся оптимизацией затрачиваемых ресурсов, позволяя, например, переиспользовать одни и те же поставленные данные для решения однотипных задач

Расширяем поддержку новых типов источников данных

Расширяем список получателей данных, в том числе активно реализуем поддержку возможности поставки данных в отдельный внутренний сервис Сбера, предназначенный для обмена данными с дочерними и зависимыми организациями

Мария Юшанова, Управление распространения данных Департамента SberData

Что в итоге

Эксперты департамента управления данными Сбера (SberData) вместе с коллегами из ADV проделали большой путь по разработке и внедрению уникального продукта. Организовывали команды и выстраивали взаимодействие как внутри, так и между ними, продумывали процессы, выбирали инструменты работы и т.д. Это полноценная совместная работа двух профессиональных команд — Сбера и ADV.

За 2 года объединенная продуктовая команда запустила сервис, позволяющий оптимизировать и стандартизировать процессы получения данных для решения различных бизнес-задач компании с учетом централизованного контроля доступа к разным типам информации.

Интерфейс сервиса реализован в формате интерактивного каталога, где пользователи могут заказывать данные и оформлять на них подписку для выполнения различных бизнес-задач, от использования данных для построения решений промышленного уровня до обучения моделей для персонализации услуг и построения скоринговых моделей на основе транзакционного поведения потребителей. Многие процессы, без которых работа такого монстра невозможна, автоматизированы и скрыты от пользователя.

Решение полностью интегрировано в архитектурный ландшафт Сбера. Реализована передача данных из разных источников разными способами, поддержаны процессы централизованного доступа пользователей как к порталу, так и к данным. Это гарантирует получение данных теми потребителями, которым доступ разрешен к конкретным типам данных, в формате, удобным для потребителя.

У нас получилась отличная слаженная команда с коллегами из ADV, где их умение думать по-продуктовому и большой опыт в реализации сложных проектов сочетается с высоким профессионализмом и экспертизой в области больших данных специалистов SberData. И будем дальше развивать данный проект, выводя работу с данными в Сбере на качественно новый уровень. О чем поделимся в следующих статьях!

Источник

Искусственный интеллект и ESG: как «Сбер» развивает новые клиентские продукты

— «Сбер» сейчас активно развивает проекты в области искусственного интеллекта. Как строится эта работа?

— Давайте сделаем шаг назад и поговорим о том, зачем вообще развивать искусственный интеллект. Клиенты, а их у нас более 100 млн физических лиц и почти 3 млн юридических, хотят, чтобы все было очень просто, быстро, дешево и конкретно для них. Как это все сделать человеческими руками? Простой ответ — никак, с этим справится только искусственный интеллект. Когда мы начали его внедрять, мы поняли, что это приносит хорошие деньги. В 2020 году «Сбер» за счет искусственного интеллекта заработал 100 млрд рублей, в этом году заработает 200 млрд рублей.

Теперь о том, что значит развивать искусственный интеллект. В идеале — это когда человек либо юридическое лицо получает лучшую персонализированную услугу по лучшей цене. Вроде бы концепция понятна. Что для этого нужно? Нужны хорошие модели и достаточные компьютерные мощности для того, чтобы «тренировать» модель, а потом разворачивать ее, приводить в рабочее состояние, чтобы она давала результат. Таким образом, развитие искусственного интеллекта требует развития компьютерных мощностей и развития компетенции моделирования — написания самих моделей.

Модели пишут люди, поэтому для того, чтобы развивать искусственный интеллект, нужны люди. Это дорогие уникальные кадры — рынку требуется в четыре-шесть раз больше специалистов, чем есть сейчас. Я говорю о специалистах в области больших данных, искусственного интеллекта и машинного обучения. В «Сбере» порядка тысячи человек таких специалистов, и нам их все равно не хватает. Их вообще не хватает всему рынку.

Мы, конечно, берем людей, обучаем, развиваем их, но даже самый умный и гениальный человек не сможет написать модель, если у него нет инструментов. Поэтому мы также готовим инструменты для специалистов. Задача состоит в том, чтобы специалист по Big Data, условно говоря, пришел утром на работу, написал модель и к вечеру поставил ее в продакшн. По ряду моделей мы уже достигли такой скорости, но есть очень сложные модели и рискованные модели, которые требуют много этапов и разработки, и согласования.

Наконец, искусственный интеллект — это обучение на данных. Соответственно, мы берем данные, очищаем их, подготавливаем. Это большая сложная задача, у нас есть даже мегапроект, который называется «Фабрика данных». Представляете, сколько данных в «Сбере» при таком количество клиентов? Это петабайты информации, они должны оптимально храниться, потому что хранение данных в таких объемах — это очень дорого. Таким образом, хороший эффект в этом направлении дают это работа с людьми, работа с фреймворками и с данными.

— Мы с вами находимся на международной конференции по искусственному интеллекту и анализу данных AI Journey. Что именно обсуждают на мероприятии и зачем вообще «Сбер» его проводит?

— Конференцию проводит «Сбер» с партнерами, среди которых и Forbes Russia. В России большая сильная школа математики. А искусственный интеллект — это совокупность, по большому счету, математики и программирования. У нас очень сильная школа искусственного интеллекта, именно прикладного искусственного интеллекта. В технологических хабах в Кремниевой долине или в Израиле мы видим очень много русскоговорящих людей, при этом некоторые из них не против вернуться и поработать в России.

Создавая такую площадку, мы преследуем несколько целей. Во-первых, транслируем миру, что активно развиваем искусственный интеллект в глобальных масштабах. Во-вторых, мы привносим внешнюю экспертизу, которая крайне важна для развития искусственного интеллекта. На конференции более 250 спикеров международного уровня, представлено много мировых звезд в области искусственного интеллекта, которые делятся и своими визионерскими представлениям, и практическими советами.

Кстати, про практические советы. Здесь есть очень интересный формат, который называется «Воркшоп», где можно просто взять и посмотреть, как проекты «делаются руками», шаг за шагом. Есть люди, которым интересно, что будет через 10 лет, а есть люди, которые думают, что будет буквально завтра. И мы совмещаем потребности и той, и другой аудитории.

Мы развиваем науку, и это очень важно — мы привлекаем самых интересных представителей науки, чтобы они поделились с нами знаниями. Также и детей развиваем — у нас есть прекрасная программа AI Journey Junior, мы подводим итоги Международного конкурса по искусственному интеллекту для детей — более 26 000 участников отборочных соревнований из более чем 110 стран. Ребятам интересно. Когда они приходят, очевидно, что уровень у них совершенно разный, и мы учим школьников во всем мире, чтобы они двигались вверх, и, может быть, в следующем году смогли претендовать на участие и на победу в нашем конкурсе. И это круто.

— Еще про один важный тренд — ESG, который последние пару лет активно развивается в мире и в России. «Сбер» один из трендсеттеров ESG в России, например, по вашей инициативе был создан альянс в этой сфере. Кто и как отслеживает ECG-практики в компаниях?

— ESG — это уже не тренд, это необходимость. Без ESG сегодня невозможно развитие и нормальное позиционирование любой компании. «Сбер» старается максимально поделиться своими компетенциями, помогать нашим партнерам и клиентам и одновременно поддерживать площадку для общения с государством. ESG сейчас — это уже как стандарт, и ты обязан ему соответствовать: с тобой инвесторы даже не будут разговаривать, если у тебя нет сертификатов ESG, нет повестки, тебе невозможно будет провести IPO.

Однако при этом остается очень много открытых вопросов. Сейчас есть около трех десятков желающих войти в наш ESG-альянс, у каждого своя боль, свои вопросы. Есть те, кто занимается энергетикой, есть те, кто занимается сельским хозяйством, есть те, кто занимается финансами, и по повестке ESG эти сферы связаны очень сильно. Это и углеродный след, и воздействие на природу, и социальная ответственность, и лучшие практики управления.

— Как вообще отличить компанию, которая честно следует принципам ESG, от той, которая просто прикрывается, чтобы быть «в тренде»?

— С практической точки зрения, крупнейшие компании сталкиваются с тем, что у них есть поставщики, у которых есть продукция. Для того, чтобы сократить свой углеродный след, им надо сократить и Охват 3 (Scope 3 — одна из сфер охвата выбросов компаний, которая включает всю цепочку жизненного цикла товара — Forbes Agenda), то есть углеродный след своих поставщиков. Например, крупнейшая компания говорит: «Мы будем покупать только продукцию с углеродным следом ниже, чем вот такое-то значение или с таким-то экологическим сертификатом». И поставив эти требования, компания, которая лишь написала у себя на сайте, что любит ESG, сажает деревья и поддерживает экологию, уже просто так не пройдет. Надо будет предъявлять сертификаты, считать свой углеродный след, показывать свои политики, надо будет, чтобы команда, которая занимается ESG-повесткой конкретного поставщика, координировалась с профильным подразделением в самой организации. При этом организациям надо развивать ESG-компетенции внутри себя.

Источник

Сбербанк сообщил о планах запустить сервис для покупки цифровых активов

sber data exchange что это. Смотреть фото sber data exchange что это. Смотреть картинку sber data exchange что это. Картинка про sber data exchange что это. Фото sber data exchange что это

Сбербанк планирует запустить платформу с возможностью покупки цифровых финансовых активов. Об этом заявил глава банка Герман Греф во время Дня инвестора. Он отметил, что с января следующего года в России в силу вступает закон «О цифровых финансовых активах», который введет их в правовое поле.

«С первого января вступает в силу закон, мы хотим вывести на рынок нашу новую блокчейн-платформу, которая будет предоставлять услуги по покупке цифровых финансовых активов. И там мы собираемся с самого начала реализовать возможность приобретения «зеленых» инструментов», — сказал Греф.

Глава компании добавил, что также рассматривается возможность выпуска собственной цифровой валюты «Сберкоин». Эксперименты в этом направлении банк может начать в 2021 году.

На запрос корреспондента «РБК-Крипто» в пресс-службе Сбербанка ответили, что не комментируют данную информацию.

В начале августа директор дивизиона «Транзакционный бизнес» Сбербанка Сергей Попов сообщил, что компания может выпустить цифровой токен, курс которого будет привязан к котировкам рубля. Это станет инструментом расчета в сделках с другими цифровыми финансовыми активами.

30 ноября первый заместитель председателя Банка России Ольга Скоробогатова рассказала, что абсолютное большинство участников финансового рынка в ходе общественного обсуждения поддерживает целесообразность введения цифрового рубля. Однако она подчеркнула, что ЦБ против выпуска каких-либо стейблкоинов на российский рубль.

На прошлой неделе премьер-министр Михаил Мишустин заявил, что интерес к криптовалютам постоянно растет, поэтому правительство планирует направить их развитие в «цивилизованное русло, чтобы владельцы таких активов могли защитить свои права и интересы, а создание теневых схем было затруднено». По словам Мишустина, планируется внести ряд изменений в Налоговый кодекс, а также закрепить признание цифровых финансовых активов имуществом, владельцы которого могут рассчитывать на юридическую защиту в случае каких-либо противоправных действий.

Больше новостей о криптовалютах вы найдете в нашем телеграм-канале РБК-Крипто.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *