sber data exchange что это

Как мы научились управлять данными глобального масштаба: кейс разработки Супермаркета Данных

Мария Юшанова, Управление распространения данных Департамента SberData

Однако может возникнуть проблема, когда данные разрознены и нет единого механизма обмена информацией владельцев данных с их потребителями. Например, в Фабрике Данных Сбера более 350 источников данных, 90 аналитических приложений, 270 лабораторий данных, где работают боле 1300 пользователей и обращается около 15 Пб разной информации. Важно было создать решение, которое автоматизирует процессы по работе с данными и позволит пользоваться им в формате self-service.

Именно за эту амбициозную задачу, которую до этого никто не решал, взялась объединенная команда Сбера и ADV/web-engineering, и в этой статье расскажем, что у нас получилось.

Задача

Стандартный сценарий поиска информации представлял собой поход по начальникам департаментов, формирование договоренностей и согласование получения доступов. При этом владельцы данных могли не знать о том, что кому-то вообще нужны данные, тем более в определенном формате, с определенной регулярностью, что их данные могут быть недостаточно качественными и тп. Даже после того, как данные были найдены и доступ был получен, для каждого такого потока данных должно было быть спроектировано и согласовано технологическое решение. Time-to-market мог составлять до полугода.

Среди потребителей данных мы выделяем две большие группы:

Data scientists, Data-инженеры, аналитики данных, разработчики витрин данных, DataOps — для исследования данных и построения моделей

Представители бизнес-подразделений Сбера — от построения автоматизированных процессов решения бизнес-задач до формирования управленческой отчетности в режиме реального времени.

В организациях масштаба Сбера невозможно построить работу с данными в масштабе всей компании без выстраивания процессов управления данным. Обязательно должен быть data governance. И в связи с этим появляются такие роли, как владелец данных, менеджер данных, бизнес-пользователь данных.

Чтобы воспользоваться необходимыми данными потенциальный пользователь данных должен:

Найти нужные данные

Объяснить, зачем ему эти данные и получить к ним доступ

Поддержать техническую составляющую процесса получения данных

При этом необходимые данные могли быть разбросаны по куче разных систем, а их описание могло не давать полноценного понимания, устроят они потребителя или нет.

Поэтому мы сформировали требования к решению, которое позволит:

Легко и быстро искать необходимые данные

Получать данные по нужным условиям (формат / фильтры / условие поставки данных / периодичность и продолжительность поставки)

Получать данные там, где это необходимо получателю (здесь и далее будет использован термин «площадка получения данных»)

Поддерживать различные сопровождающие процессы, которые будут возникать при работе с данными (например, согласования, переходы пользователей между отделами и т.п.)

Соответствовать требованиям безопасности по работе с данными

В целом, удовлетворять нужды разных групп пользователей и стать единым механизмом распространения данных внутри Сбера.

Концепция и старт проекта

Как упоминалось в лиде, основная идея — создать целевое решение, которое соберет в себе рутинные процессы по работе с данными, автоматизирует их и позволит пользоваться им в формате self-service. Чтобы радикально сократить time-to-data, упростить доступ к данным пользователей Сбера и при этом повысить контроль за доступом к данным и data governance.

Рассматривалась идея «Супермаркета данных», которая есть у других компаний, в том числе коробочные решения, которые предоставляют интеграторы. Однако проанализировав рынок, мы поняли, что коробочное решение не приживется в контуре Сбера, где на момент принятия решения уже существовала Фабрика данных со своими процессами, реализованными сервисами и гигантскими объемами колоссального разнообразия данных (один лишь каталог данных сейчас составляет более полутора миллионов элементов). Исходя из этого было принято единственное и правильное решение — разрабатывать Супермаркет данным самим.

Нужно было собственное решение, которое станет единой точкой входа и фронтом для всех сервисов SberData, решит не только технические задачи, но и будет понятным относительно широкой аудитории пользователей.

Среди компаний-подрядчиков мы выбрали команду ADV/web-engineering.co, показавшую сильную экспертизу и предложившую концепт, максимально приближенный к тому, что мы хотели. Мы стартовали в 2019 году, и вот уже на протяжении двух лет вместе с коллегами из ADV постепенно развиваем уровень зрелости продукта и регулярно улучшаем внутренние процессы разработки, внедрения и сопровождения. Список решённых бизнес-задач исчисляется сотнями, а количество релизов — десятками.

Сегодня СМД используется для ряда промышленных трактов и снабжает данными из более чем 300 источников витрины и аналитические решения бизнес блоков Сбера. Ежедневно через СМД проходит около 3Пб данных, включающих более 70 тыс таблиц и миллиона атрибутов. И эти цифры продолжают расти.

О том, какие шаги мы прошли за эти два года, от лица совместной команды ADV и SberData расскажет Виктор Колдаев @vkoldaev, ведущий аналитик компании ADV/web-engineering:

Сильные e-commerce и data-подразделения позволили ADV собрать команду, использующую опыт построения больших каталогов, работу с дистрибуцией данных и большими нагрузками, экспертизу в области обеспечения безопасности данных для реализации cовместно с сильной командой SberData удобного и интуитивного self-сервиса для поиска и получения данных в контуре Сбера.

Разработку концепта мы с аналитиками команды Сбера начали с представления всего многообразия данных. Здесь используются метаданные — данные о данных, содержащие информацию о списке данных, структуре, показателях качества, актуальности, data governance информации. Метаданные могут обогащаться и использоваться, например, для поиска нужных данных.

Второе — это получение данных с учетом различных критериев и с определенной регулярностью. Пришли к формату заказа данных по типу подписки.

Добавляем пользователей, которые со всем этим могут работать, и получаем верхнеуровневую концептуальную модель сущностей, содержащую:

Далее строится концепция пользовательского интерфейса, через который мы уже более детально прорабатываем пользовательские кейсы и возможности. Появляется:

Каталог, построенный на основании метаданных и содержащий доступный ассортимент, с инструментами поиска и фильтрации

Корзина, позволяющая оформить «заказ на данные» — подписку

Реестр подписок (заказов пользователей)

Стартовая разводящая страница, содержащая базовый дашборд

Вот и получился Супермаркет данных. Бонусом в концепции закладывался сопроводительный функционал, типа общего поиска, глобальных справочников, систем рекомендации и административного интерфейса.

Параллельно архитекторами Сбербанка прорабатывается базовая архитектура решения, фиксируется:

Портал Супермаркета данных — интерфейсная часть, с которой работает пользователь и которая сама по себе работает не с данными, а только с метаданными

Технический компонент, отвечающий непосредственно за работу с данными и их поставку согласно требованиям подписок — Ядро Супермаркета данных

Источники данных — условное обозначение всех точек, метаданные которых опубликованы в ассортименте Супермаркета данных и доступных для заказа

Получатели данных — условное обозначение потребителя данных независимо от технологического стека

Использование единого технологического решения позволяет пользователям не заниматься проработкой нового технологического канала обмена данными для каждого инфопотока, а лишь раз настроить свой приёмник для получения данных из Супермаркета.

MVP и развитие решения

Супермаркет данных — довольно сложное архитектурное решение, которое на начальных этапах отличалось от того, что мы имеем сейчас. Внутри него огромное количество интеграций с системами Сбера. Релиз формируется из работы нескольких команд, каждая из которых решает свой пул задач и реализует свой бэклог.

MVP включал в себя базовый функционал:

Ограниченный набор данных в ассортименте

Ограниченная аудитория в рамках работы с MVP продукта

Из всех вариантов поставки данных — только снепшот (полный объем таблицы источника, без возможности наложить фильтр или получить дельту изменений данных за период) по расписанию не чаще раза в день

Запрошенные данные можно получить только после процесса их подготовки и из специализированного hadoop-кластера под именем DDA — data distribution area, область распространения данных

Многие опции подписок (например, сложные фильтры на данные) и прочие полезные бантики были пущены под нож

Очень много идей из концепции также были перенаправлены в бэклог для дальнейшей приоритезации.

После запуска MVP первым делом:

Cервис был интегрирован в инфраструктуру Сбера, из самого важного:

Обеспечили поддержку сервиса централизованного управления пользователями и их ролями,

Запустили процесс регулярного получения метаданных для построения актуального ассортимента из сервиса управления метаданными Фабрики данных Сбера

Реализован базовый функционал уведомлений пользователей о различных событиях, связанных с их подписками, на портале и через почту

Добавлен поиск по объектам ассортимента

В рамках первой вехи развития решения наша совместная команда:

Предоставила возможность построения промышленных трактов, которым требуется повышенная надёжность и безопасность. Здесь добавили поддержку выделенных технических учётных записей. Их использование позволяет оформлять специальные «промышленные» подписки, которые не зависят от конкретного человека, предполагают двойной контроль изменений и отдельные условия поддержки.

Расширила возможность использования СМД внутри контура Сбера. Начали поддерживать больше платформ-приемников, расширяя список бизнес-задач, которые можно решить.

Добавила полноценную фильтрацию запрошенных данных при оформлении подписок

Расширила доступный для заказа ассортимент. Из важного — добавили возможность заказа данных с использованием Единого Семантического Слоя (ЕСС) Сбера.

Полноценное описание ЕСС заслуживает отдельной статьи. Если коротко, то это изначально общая логическая модель данных всего Сбера, структурированная по предметным областям и наполненная данными из разных источников. Использование ЕСС дает пользователю возможность оперировать бизнес-данными без необходимости разбираться в какой-то конкретной структуре хранения данных какого-то конкретного источника.

Следующая веха была заточена под развитие условий поставки данных. Продукт стал доставлять данные:

Не только по расписанию, но и по факту обновления данных в источнике

Не только снепшоты, но и инкременты, чтобы позволить экономить время и вычислительные ресурсы

Не только пакетным способом, но и потоковым, в режиме около реального времени

Не только поставлять данные (перекладка данных, ETL), но и управлять доступом к данным по подписке через сервисы проксирования. Так получатель обращается к запрошенным данным напрямую, без ETL-процесса подготовки данных и размещения их в DDA. Подобная оптимизация особенно актуальна для гигантских объемов информации, так как, по сути, получение данных выполняется в два раза быстрее и с экономией места на дисках.

Следующая важная задача — поддержка обновленных требований кибербезопасности по поставке чувствительных данных через Супермаркет данных. Это был отдельный большой проект нескольких команд Сбера, начиная от проработки процесса и архитектуры и заканчивая доработкой нескольких систем, включая Супермаркет. В рамках этого проекта команда:

Реализовала механизм доступа к данным через теги доступа. Теги доступа представляют собой своего рода ярлыки, которые устанавливаются на данные любого уровня атомарности: от целой схемы до конкретного атрибута. Это позволяет владельцу данных гибче определять ценность и защиту для своих данных

Внедрила защиту данных с использованием технологии токенизации и шифрования.

Дополненная концептуальная архитектура с высоким уровнем абстракции теперь выглядит так:

Что сейчас

На данный момент объединенная команда ADV и SberData совершенствует сервис, повышая его стабильность и производительность, а также продолжает развивать функционал, расширяя список решаемых бизнес-задач:

Сейчас автоматизированная система находится на уровне Business operational и развивается в сторону Business critical: начинаем с отдельных подписок, целимся в повышение стабильности всего решения.

Занимаемся оптимизацией затрачиваемых ресурсов, позволяя, например, переиспользовать одни и те же поставленные данные для решения однотипных задач

Расширяем поддержку новых типов источников данных

Расширяем список получателей данных, в том числе активно реализуем поддержку возможности поставки данных в отдельный внутренний сервис Сбера, предназначенный для обмена данными с дочерними и зависимыми организациями

Мария Юшанова, Управление распространения данных Департамента SberData

Что в итоге

Эксперты департамента управления данными Сбера (SberData) вместе с коллегами из ADV проделали большой путь по разработке и внедрению уникального продукта. Организовывали команды и выстраивали взаимодействие как внутри, так и между ними, продумывали процессы, выбирали инструменты работы и т.д. Это полноценная совместная работа двух профессиональных команд — Сбера и ADV.

За 2 года объединенная продуктовая команда запустила сервис, позволяющий оптимизировать и стандартизировать процессы получения данных для решения различных бизнес-задач компании с учетом централизованного контроля доступа к разным типам информации.

Интерфейс сервиса реализован в формате интерактивного каталога, где пользователи могут заказывать данные и оформлять на них подписку для выполнения различных бизнес-задач, от использования данных для построения решений промышленного уровня до обучения моделей для персонализации услуг и построения скоринговых моделей на основе транзакционного поведения потребителей. Многие процессы, без которых работа такого монстра невозможна, автоматизированы и скрыты от пользователя.

Решение полностью интегрировано в архитектурный ландшафт Сбера. Реализована передача данных из разных источников разными способами, поддержаны процессы централизованного доступа пользователей как к порталу, так и к данным. Это гарантирует получение данных теми потребителями, которым доступ разрешен к конкретным типам данных, в формате, удобным для потребителя.

У нас получилась отличная слаженная команда с коллегами из ADV, где их умение думать по-продуктовому и большой опыт в реализации сложных проектов сочетается с высоким профессионализмом и экспертизой в области больших данных специалистов SberData. И будем дальше развивать данный проект, выводя работу с данными в Сбере на качественно новый уровень. О чем поделимся в следующих статьях!

Источник

Искусственный интеллект и ESG: как «Сбер» развивает новые клиентские продукты

— «Сбер» сейчас активно развивает проекты в области искусственного интеллекта. Как строится эта работа?

— Давайте сделаем шаг назад и поговорим о том, зачем вообще развивать искусственный интеллект. Клиенты, а их у нас более 100 млн физических лиц и почти 3 млн юридических, хотят, чтобы все было очень просто, быстро, дешево и конкретно для них. Как это все сделать человеческими руками? Простой ответ — никак, с этим справится только искусственный интеллект. Когда мы начали его внедрять, мы поняли, что это приносит хорошие деньги. В 2020 году «Сбер» за счет искусственного интеллекта заработал 100 млрд рублей, в этом году заработает 200 млрд рублей.

Теперь о том, что значит развивать искусственный интеллект. В идеале — это когда человек либо юридическое лицо получает лучшую персонализированную услугу по лучшей цене. Вроде бы концепция понятна. Что для этого нужно? Нужны хорошие модели и достаточные компьютерные мощности для того, чтобы «тренировать» модель, а потом разворачивать ее, приводить в рабочее состояние, чтобы она давала результат. Таким образом, развитие искусственного интеллекта требует развития компьютерных мощностей и развития компетенции моделирования — написания самих моделей.

Модели пишут люди, поэтому для того, чтобы развивать искусственный интеллект, нужны люди. Это дорогие уникальные кадры — рынку требуется в четыре-шесть раз больше специалистов, чем есть сейчас. Я говорю о специалистах в области больших данных, искусственного интеллекта и машинного обучения. В «Сбере» порядка тысячи человек таких специалистов, и нам их все равно не хватает. Их вообще не хватает всему рынку.

Мы, конечно, берем людей, обучаем, развиваем их, но даже самый умный и гениальный человек не сможет написать модель, если у него нет инструментов. Поэтому мы также готовим инструменты для специалистов. Задача состоит в том, чтобы специалист по Big Data, условно говоря, пришел утром на работу, написал модель и к вечеру поставил ее в продакшн. По ряду моделей мы уже достигли такой скорости, но есть очень сложные модели и рискованные модели, которые требуют много этапов и разработки, и согласования.

Наконец, искусственный интеллект — это обучение на данных. Соответственно, мы берем данные, очищаем их, подготавливаем. Это большая сложная задача, у нас есть даже мегапроект, который называется «Фабрика данных». Представляете, сколько данных в «Сбере» при таком количество клиентов? Это петабайты информации, они должны оптимально храниться, потому что хранение данных в таких объемах — это очень дорого. Таким образом, хороший эффект в этом направлении дают это работа с людьми, работа с фреймворками и с данными.

— Мы с вами находимся на международной конференции по искусственному интеллекту и анализу данных AI Journey. Что именно обсуждают на мероприятии и зачем вообще «Сбер» его проводит?

— Конференцию проводит «Сбер» с партнерами, среди которых и Forbes Russia. В России большая сильная школа математики. А искусственный интеллект — это совокупность, по большому счету, математики и программирования. У нас очень сильная школа искусственного интеллекта, именно прикладного искусственного интеллекта. В технологических хабах в Кремниевой долине или в Израиле мы видим очень много русскоговорящих людей, при этом некоторые из них не против вернуться и поработать в России.

Создавая такую площадку, мы преследуем несколько целей. Во-первых, транслируем миру, что активно развиваем искусственный интеллект в глобальных масштабах. Во-вторых, мы привносим внешнюю экспертизу, которая крайне важна для развития искусственного интеллекта. На конференции более 250 спикеров международного уровня, представлено много мировых звезд в области искусственного интеллекта, которые делятся и своими визионерскими представлениям, и практическими советами.

Кстати, про практические советы. Здесь есть очень интересный формат, который называется «Воркшоп», где можно просто взять и посмотреть, как проекты «делаются руками», шаг за шагом. Есть люди, которым интересно, что будет через 10 лет, а есть люди, которые думают, что будет буквально завтра. И мы совмещаем потребности и той, и другой аудитории.

Мы развиваем науку, и это очень важно — мы привлекаем самых интересных представителей науки, чтобы они поделились с нами знаниями. Также и детей развиваем — у нас есть прекрасная программа AI Journey Junior, мы подводим итоги Международного конкурса по искусственному интеллекту для детей — более 26 000 участников отборочных соревнований из более чем 110 стран. Ребятам интересно. Когда они приходят, очевидно, что уровень у них совершенно разный, и мы учим школьников во всем мире, чтобы они двигались вверх, и, может быть, в следующем году смогли претендовать на участие и на победу в нашем конкурсе. И это круто.

— Еще про один важный тренд — ESG, который последние пару лет активно развивается в мире и в России. «Сбер» один из трендсеттеров ESG в России, например, по вашей инициативе был создан альянс в этой сфере. Кто и как отслеживает ECG-практики в компаниях?

— ESG — это уже не тренд, это необходимость. Без ESG сегодня невозможно развитие и нормальное позиционирование любой компании. «Сбер» старается максимально поделиться своими компетенциями, помогать нашим партнерам и клиентам и одновременно поддерживать площадку для общения с государством. ESG сейчас — это уже как стандарт, и ты обязан ему соответствовать: с тобой инвесторы даже не будут разговаривать, если у тебя нет сертификатов ESG, нет повестки, тебе невозможно будет провести IPO.

Однако при этом остается очень много открытых вопросов. Сейчас есть около трех десятков желающих войти в наш ESG-альянс, у каждого своя боль, свои вопросы. Есть те, кто занимается энергетикой, есть те, кто занимается сельским хозяйством, есть те, кто занимается финансами, и по повестке ESG эти сферы связаны очень сильно. Это и углеродный след, и воздействие на природу, и социальная ответственность, и лучшие практики управления.

— Как вообще отличить компанию, которая честно следует принципам ESG, от той, которая просто прикрывается, чтобы быть «в тренде»?

— С практической точки зрения, крупнейшие компании сталкиваются с тем, что у них есть поставщики, у которых есть продукция. Для того, чтобы сократить свой углеродный след, им надо сократить и Охват 3 (Scope 3 — одна из сфер охвата выбросов компаний, которая включает всю цепочку жизненного цикла товара — Forbes Agenda), то есть углеродный след своих поставщиков. Например, крупнейшая компания говорит: «Мы будем покупать только продукцию с углеродным следом ниже, чем вот такое-то значение или с таким-то экологическим сертификатом». И поставив эти требования, компания, которая лишь написала у себя на сайте, что любит ESG, сажает деревья и поддерживает экологию, уже просто так не пройдет. Надо будет предъявлять сертификаты, считать свой углеродный след, показывать свои политики, надо будет, чтобы команда, которая занимается ESG-повесткой конкретного поставщика, координировалась с профильным подразделением в самой организации. При этом организациям надо развивать ESG-компетенции внутри себя.

Источник

Сбербанк сообщил о планах запустить сервис для покупки цифровых активов

Сбербанк планирует запустить платформу с возможностью покупки цифровых финансовых активов. Об этом заявил глава банка Герман Греф во время Дня инвестора. Он отметил, что с января следующего года в России в силу вступает закон «О цифровых финансовых активах», который введет их в правовое поле.

«С первого января вступает в силу закон, мы хотим вывести на рынок нашу новую блокчейн-платформу, которая будет предоставлять услуги по покупке цифровых финансовых активов. И там мы собираемся с самого начала реализовать возможность приобретения «зеленых» инструментов», — сказал Греф.

Глава компании добавил, что также рассматривается возможность выпуска собственной цифровой валюты «Сберкоин». Эксперименты в этом направлении банк может начать в 2021 году.

На запрос корреспондента «РБК-Крипто» в пресс-службе Сбербанка ответили, что не комментируют данную информацию.

В начале августа директор дивизиона «Транзакционный бизнес» Сбербанка Сергей Попов сообщил, что компания может выпустить цифровой токен, курс которого будет привязан к котировкам рубля. Это станет инструментом расчета в сделках с другими цифровыми финансовыми активами.

30 ноября первый заместитель председателя Банка России Ольга Скоробогатова рассказала, что абсолютное большинство участников финансового рынка в ходе общественного обсуждения поддерживает целесообразность введения цифрового рубля. Однако она подчеркнула, что ЦБ против выпуска каких-либо стейблкоинов на российский рубль.

На прошлой неделе премьер-министр Михаил Мишустин заявил, что интерес к криптовалютам постоянно растет, поэтому правительство планирует направить их развитие в «цивилизованное русло, чтобы владельцы таких активов могли защитить свои права и интересы, а создание теневых схем было затруднено». По словам Мишустина, планируется внести ряд изменений в Налоговый кодекс, а также закрепить признание цифровых финансовых активов имуществом, владельцы которого могут рассчитывать на юридическую защиту в случае каких-либо противоправных действий.

Больше новостей о криптовалютах вы найдете в нашем телеграм-канале РБК-Крипто.

Источник