sber data exchange что это
Как мы научились управлять данными глобального масштаба: кейс разработки Супермаркета Данных
Мария Юшанова, Управление распространения данных Департамента SberData
Однако может возникнуть проблема, когда данные разрознены и нет единого механизма обмена информацией владельцев данных с их потребителями. Например, в Фабрике Данных Сбера более 350 источников данных, 90 аналитических приложений, 270 лабораторий данных, где работают боле 1300 пользователей и обращается около 15 Пб разной информации. Важно было создать решение, которое автоматизирует процессы по работе с данными и позволит пользоваться им в формате self-service.
Именно за эту амбициозную задачу, которую до этого никто не решал, взялась объединенная команда Сбера и ADV/web-engineering, и в этой статье расскажем, что у нас получилось.
Задача
Стандартный сценарий поиска информации представлял собой поход по начальникам департаментов, формирование договоренностей и согласование получения доступов. При этом владельцы данных могли не знать о том, что кому-то вообще нужны данные, тем более в определенном формате, с определенной регулярностью, что их данные могут быть недостаточно качественными и тп. Даже после того, как данные были найдены и доступ был получен, для каждого такого потока данных должно было быть спроектировано и согласовано технологическое решение. Time-to-market мог составлять до полугода.
Среди потребителей данных мы выделяем две большие группы:
Data scientists, Data-инженеры, аналитики данных, разработчики витрин данных, DataOps — для исследования данных и построения моделей
Представители бизнес-подразделений Сбера — от построения автоматизированных процессов решения бизнес-задач до формирования управленческой отчетности в режиме реального времени.
В организациях масштаба Сбера невозможно построить работу с данными в масштабе всей компании без выстраивания процессов управления данным. Обязательно должен быть data governance. И в связи с этим появляются такие роли, как владелец данных, менеджер данных, бизнес-пользователь данных.
Чтобы воспользоваться необходимыми данными потенциальный пользователь данных должен:
Найти нужные данные
Объяснить, зачем ему эти данные и получить к ним доступ
Поддержать техническую составляющую процесса получения данных
При этом необходимые данные могли быть разбросаны по куче разных систем, а их описание могло не давать полноценного понимания, устроят они потребителя или нет.
Поэтому мы сформировали требования к решению, которое позволит:
Легко и быстро искать необходимые данные
Получать данные по нужным условиям (формат / фильтры / условие поставки данных / периодичность и продолжительность поставки)
Получать данные там, где это необходимо получателю (здесь и далее будет использован термин «площадка получения данных»)
Поддерживать различные сопровождающие процессы, которые будут возникать при работе с данными (например, согласования, переходы пользователей между отделами и т.п.)
Соответствовать требованиям безопасности по работе с данными
В целом, удовлетворять нужды разных групп пользователей и стать единым механизмом распространения данных внутри Сбера.
Концепция и старт проекта
Как упоминалось в лиде, основная идея — создать целевое решение, которое соберет в себе рутинные процессы по работе с данными, автоматизирует их и позволит пользоваться им в формате self-service. Чтобы радикально сократить time-to-data, упростить доступ к данным пользователей Сбера и при этом повысить контроль за доступом к данным и data governance.
Рассматривалась идея «Супермаркета данных», которая есть у других компаний, в том числе коробочные решения, которые предоставляют интеграторы. Однако проанализировав рынок, мы поняли, что коробочное решение не приживется в контуре Сбера, где на момент принятия решения уже существовала Фабрика данных со своими процессами, реализованными сервисами и гигантскими объемами колоссального разнообразия данных (один лишь каталог данных сейчас составляет более полутора миллионов элементов). Исходя из этого было принято единственное и правильное решение — разрабатывать Супермаркет данным самим.
Нужно было собственное решение, которое станет единой точкой входа и фронтом для всех сервисов SberData, решит не только технические задачи, но и будет понятным относительно широкой аудитории пользователей.
Среди компаний-подрядчиков мы выбрали команду ADV/web-engineering.co, показавшую сильную экспертизу и предложившую концепт, максимально приближенный к тому, что мы хотели. Мы стартовали в 2019 году, и вот уже на протяжении двух лет вместе с коллегами из ADV постепенно развиваем уровень зрелости продукта и регулярно улучшаем внутренние процессы разработки, внедрения и сопровождения. Список решённых бизнес-задач исчисляется сотнями, а количество релизов — десятками.
Сегодня СМД используется для ряда промышленных трактов и снабжает данными из более чем 300 источников витрины и аналитические решения бизнес блоков Сбера. Ежедневно через СМД проходит около 3Пб данных, включающих более 70 тыс таблиц и миллиона атрибутов. И эти цифры продолжают расти.
О том, какие шаги мы прошли за эти два года, от лица совместной команды ADV и SberData расскажет Виктор Колдаев @vkoldaev, ведущий аналитик компании ADV/web-engineering:
Сильные e-commerce и data-подразделения позволили ADV собрать команду, использующую опыт построения больших каталогов, работу с дистрибуцией данных и большими нагрузками, экспертизу в области обеспечения безопасности данных для реализации cовместно с сильной командой SberData удобного и интуитивного self-сервиса для поиска и получения данных в контуре Сбера.
Разработку концепта мы с аналитиками команды Сбера начали с представления всего многообразия данных. Здесь используются метаданные — данные о данных, содержащие информацию о списке данных, структуре, показателях качества, актуальности, data governance информации. Метаданные могут обогащаться и использоваться, например, для поиска нужных данных.
Второе — это получение данных с учетом различных критериев и с определенной регулярностью. Пришли к формату заказа данных по типу подписки.
Добавляем пользователей, которые со всем этим могут работать, и получаем верхнеуровневую концептуальную модель сущностей, содержащую:
Далее строится концепция пользовательского интерфейса, через который мы уже более детально прорабатываем пользовательские кейсы и возможности. Появляется:
Каталог, построенный на основании метаданных и содержащий доступный ассортимент, с инструментами поиска и фильтрации
Корзина, позволяющая оформить «заказ на данные» — подписку
Реестр подписок (заказов пользователей)
Стартовая разводящая страница, содержащая базовый дашборд
Вот и получился Супермаркет данных. Бонусом в концепции закладывался сопроводительный функционал, типа общего поиска, глобальных справочников, систем рекомендации и административного интерфейса.
Параллельно архитекторами Сбербанка прорабатывается базовая архитектура решения, фиксируется:
Портал Супермаркета данных — интерфейсная часть, с которой работает пользователь и которая сама по себе работает не с данными, а только с метаданными
Технический компонент, отвечающий непосредственно за работу с данными и их поставку согласно требованиям подписок — Ядро Супермаркета данных
Источники данных — условное обозначение всех точек, метаданные которых опубликованы в ассортименте Супермаркета данных и доступных для заказа
Получатели данных — условное обозначение потребителя данных независимо от технологического стека
Использование единого технологического решения позволяет пользователям не заниматься проработкой нового технологического канала обмена данными для каждого инфопотока, а лишь раз настроить свой приёмник для получения данных из Супермаркета.
MVP и развитие решения
Супермаркет данных — довольно сложное архитектурное решение, которое на начальных этапах отличалось от того, что мы имеем сейчас. Внутри него огромное количество интеграций с системами Сбера. Релиз формируется из работы нескольких команд, каждая из которых решает свой пул задач и реализует свой бэклог.
MVP включал в себя базовый функционал:
Ограниченный набор данных в ассортименте
Ограниченная аудитория в рамках работы с MVP продукта
Из всех вариантов поставки данных — только снепшот (полный объем таблицы источника, без возможности наложить фильтр или получить дельту изменений данных за период) по расписанию не чаще раза в день
Запрошенные данные можно получить только после процесса их подготовки и из специализированного hadoop-кластера под именем DDA — data distribution area, область распространения данных
Многие опции подписок (например, сложные фильтры на данные) и прочие полезные бантики были пущены под нож
Очень много идей из концепции также были перенаправлены в бэклог для дальнейшей приоритезации.
После запуска MVP первым делом:
Cервис был интегрирован в инфраструктуру Сбера, из самого важного:
Обеспечили поддержку сервиса централизованного управления пользователями и их ролями,
Запустили процесс регулярного получения метаданных для построения актуального ассортимента из сервиса управления метаданными Фабрики данных Сбера
Реализован базовый функционал уведомлений пользователей о различных событиях, связанных с их подписками, на портале и через почту
Добавлен поиск по объектам ассортимента
В рамках первой вехи развития решения наша совместная команда:
Предоставила возможность построения промышленных трактов, которым требуется повышенная надёжность и безопасность. Здесь добавили поддержку выделенных технических учётных записей. Их использование позволяет оформлять специальные «промышленные» подписки, которые не зависят от конкретного человека, предполагают двойной контроль изменений и отдельные условия поддержки.
Расширила возможность использования СМД внутри контура Сбера. Начали поддерживать больше платформ-приемников, расширяя список бизнес-задач, которые можно решить.
Добавила полноценную фильтрацию запрошенных данных при оформлении подписок
Расширила доступный для заказа ассортимент. Из важного — добавили возможность заказа данных с использованием Единого Семантического Слоя (ЕСС) Сбера.
Полноценное описание ЕСС заслуживает отдельной статьи. Если коротко, то это изначально общая логическая модель данных всего Сбера, структурированная по предметным областям и наполненная данными из разных источников. Использование ЕСС дает пользователю возможность оперировать бизнес-данными без необходимости разбираться в какой-то конкретной структуре хранения данных какого-то конкретного источника.
Следующая веха была заточена под развитие условий поставки данных. Продукт стал доставлять данные:
Не только по расписанию, но и по факту обновления данных в источнике
Не только снепшоты, но и инкременты, чтобы позволить экономить время и вычислительные ресурсы
Не только пакетным способом, но и потоковым, в режиме около реального времени
Не только поставлять данные (перекладка данных, ETL), но и управлять доступом к данным по подписке через сервисы проксирования. Так получатель обращается к запрошенным данным напрямую, без ETL-процесса подготовки данных и размещения их в DDA. Подобная оптимизация особенно актуальна для гигантских объемов информации, так как, по сути, получение данных выполняется в два раза быстрее и с экономией места на дисках.
Следующая важная задача — поддержка обновленных требований кибербезопасности по поставке чувствительных данных через Супермаркет данных. Это был отдельный большой проект нескольких команд Сбера, начиная от проработки процесса и архитектуры и заканчивая доработкой нескольких систем, включая Супермаркет. В рамках этого проекта команда:
Реализовала механизм доступа к данным через теги доступа. Теги доступа представляют собой своего рода ярлыки, которые устанавливаются на данные любого уровня атомарности: от целой схемы до конкретного атрибута. Это позволяет владельцу данных гибче определять ценность и защиту для своих данных
Внедрила защиту данных с использованием технологии токенизации и шифрования.
Дополненная концептуальная архитектура с высоким уровнем абстракции теперь выглядит так:
Что сейчас
На данный момент объединенная команда ADV и SberData совершенствует сервис, повышая его стабильность и производительность, а также продолжает развивать функционал, расширяя список решаемых бизнес-задач:
Сейчас автоматизированная система находится на уровне Business operational и развивается в сторону Business critical: начинаем с отдельных подписок, целимся в повышение стабильности всего решения.
Занимаемся оптимизацией затрачиваемых ресурсов, позволяя, например, переиспользовать одни и те же поставленные данные для решения однотипных задач
Расширяем поддержку новых типов источников данных
Расширяем список получателей данных, в том числе активно реализуем поддержку возможности поставки данных в отдельный внутренний сервис Сбера, предназначенный для обмена данными с дочерними и зависимыми организациями
Мария Юшанова, Управление распространения данных Департамента SberData
Что в итоге
Эксперты департамента управления данными Сбера (SberData) вместе с коллегами из ADV проделали большой путь по разработке и внедрению уникального продукта. Организовывали команды и выстраивали взаимодействие как внутри, так и между ними, продумывали процессы, выбирали инструменты работы и т.д. Это полноценная совместная работа двух профессиональных команд — Сбера и ADV.
За 2 года объединенная продуктовая команда запустила сервис, позволяющий оптимизировать и стандартизировать процессы получения данных для решения различных бизнес-задач компании с учетом централизованного контроля доступа к разным типам информации.
Интерфейс сервиса реализован в формате интерактивного каталога, где пользователи могут заказывать данные и оформлять на них подписку для выполнения различных бизнес-задач, от использования данных для построения решений промышленного уровня до обучения моделей для персонализации услуг и построения скоринговых моделей на основе транзакционного поведения потребителей. Многие процессы, без которых работа такого монстра невозможна, автоматизированы и скрыты от пользователя.
Решение полностью интегрировано в архитектурный ландшафт Сбера. Реализована передача данных из разных источников разными способами, поддержаны процессы централизованного доступа пользователей как к порталу, так и к данным. Это гарантирует получение данных теми потребителями, которым доступ разрешен к конкретным типам данных, в формате, удобным для потребителя.
У нас получилась отличная слаженная команда с коллегами из ADV, где их умение думать по-продуктовому и большой опыт в реализации сложных проектов сочетается с высоким профессионализмом и экспертизой в области больших данных специалистов SberData. И будем дальше развивать данный проект, выводя работу с данными в Сбере на качественно новый уровень. О чем поделимся в следующих статьях!
Искусственный интеллект и ESG: как «Сбер» развивает новые клиентские продукты
— «Сбер» сейчас активно развивает проекты в области искусственного интеллекта. Как строится эта работа?
— Давайте сделаем шаг назад и поговорим о том, зачем вообще развивать искусственный интеллект. Клиенты, а их у нас более 100 млн физических лиц и почти 3 млн юридических, хотят, чтобы все было очень просто, быстро, дешево и конкретно для них. Как это все сделать человеческими руками? Простой ответ — никак, с этим справится только искусственный интеллект. Когда мы начали его внедрять, мы поняли, что это приносит хорошие деньги. В 2020 году «Сбер» за счет искусственного интеллекта заработал 100 млрд рублей, в этом году заработает 200 млрд рублей.
Теперь о том, что значит развивать искусственный интеллект. В идеале — это когда человек либо юридическое лицо получает лучшую персонализированную услугу по лучшей цене. Вроде бы концепция понятна. Что для этого нужно? Нужны хорошие модели и достаточные компьютерные мощности для того, чтобы «тренировать» модель, а потом разворачивать ее, приводить в рабочее состояние, чтобы она давала результат. Таким образом, развитие искусственного интеллекта требует развития компьютерных мощностей и развития компетенции моделирования — написания самих моделей.
Модели пишут люди, поэтому для того, чтобы развивать искусственный интеллект, нужны люди. Это дорогие уникальные кадры — рынку требуется в четыре-шесть раз больше специалистов, чем есть сейчас. Я говорю о специалистах в области больших данных, искусственного интеллекта и машинного обучения. В «Сбере» порядка тысячи человек таких специалистов, и нам их все равно не хватает. Их вообще не хватает всему рынку.
Мы, конечно, берем людей, обучаем, развиваем их, но даже самый умный и гениальный человек не сможет написать модель, если у него нет инструментов. Поэтому мы также готовим инструменты для специалистов. Задача состоит в том, чтобы специалист по Big Data, условно говоря, пришел утром на работу, написал модель и к вечеру поставил ее в продакшн. По ряду моделей мы уже достигли такой скорости, но есть очень сложные модели и рискованные модели, которые требуют много этапов и разработки, и согласования.
Наконец, искусственный интеллект — это обучение на данных. Соответственно, мы берем данные, очищаем их, подготавливаем. Это большая сложная задача, у нас есть даже мегапроект, который называется «Фабрика данных». Представляете, сколько данных в «Сбере» при таком количество клиентов? Это петабайты информации, они должны оптимально храниться, потому что хранение данных в таких объемах — это очень дорого. Таким образом, хороший эффект в этом направлении дают это работа с людьми, работа с фреймворками и с данными.
— Мы с вами находимся на международной конференции по искусственному интеллекту и анализу данных AI Journey. Что именно обсуждают на мероприятии и зачем вообще «Сбер» его проводит?
— Конференцию проводит «Сбер» с партнерами, среди которых и Forbes Russia. В России большая сильная школа математики. А искусственный интеллект — это совокупность, по большому счету, математики и программирования. У нас очень сильная школа искусственного интеллекта, именно прикладного искусственного интеллекта. В технологических хабах в Кремниевой долине или в Израиле мы видим очень много русскоговорящих людей, при этом некоторые из них не против вернуться и поработать в России.
Создавая такую площадку, мы преследуем несколько целей. Во-первых, транслируем миру, что активно развиваем искусственный интеллект в глобальных масштабах. Во-вторых, мы привносим внешнюю экспертизу, которая крайне важна для развития искусственного интеллекта. На конференции более 250 спикеров международного уровня, представлено много мировых звезд в области искусственного интеллекта, которые делятся и своими визионерскими представлениям, и практическими советами.
Кстати, про практические советы. Здесь есть очень интересный формат, который называется «Воркшоп», где можно просто взять и посмотреть, как проекты «делаются руками», шаг за шагом. Есть люди, которым интересно, что будет через 10 лет, а есть люди, которые думают, что будет буквально завтра. И мы совмещаем потребности и той, и другой аудитории.
Мы развиваем науку, и это очень важно — мы привлекаем самых интересных представителей науки, чтобы они поделились с нами знаниями. Также и детей развиваем — у нас есть прекрасная программа AI Journey Junior, мы подводим итоги Международного конкурса по искусственному интеллекту для детей — более 26 000 участников отборочных соревнований из более чем 110 стран. Ребятам интересно. Когда они приходят, очевидно, что уровень у них совершенно разный, и мы учим школьников во всем мире, чтобы они двигались вверх, и, может быть, в следующем году смогли претендовать на участие и на победу в нашем конкурсе. И это круто.
— Еще про один важный тренд — ESG, который последние пару лет активно развивается в мире и в России. «Сбер» один из трендсеттеров ESG в России, например, по вашей инициативе был создан альянс в этой сфере. Кто и как отслеживает ECG-практики в компаниях?
— ESG — это уже не тренд, это необходимость. Без ESG сегодня невозможно развитие и нормальное позиционирование любой компании. «Сбер» старается максимально поделиться своими компетенциями, помогать нашим партнерам и клиентам и одновременно поддерживать площадку для общения с государством. ESG сейчас — это уже как стандарт, и ты обязан ему соответствовать: с тобой инвесторы даже не будут разговаривать, если у тебя нет сертификатов ESG, нет повестки, тебе невозможно будет провести IPO.
Однако при этом остается очень много открытых вопросов. Сейчас есть около трех десятков желающих войти в наш ESG-альянс, у каждого своя боль, свои вопросы. Есть те, кто занимается энергетикой, есть те, кто занимается сельским хозяйством, есть те, кто занимается финансами, и по повестке ESG эти сферы связаны очень сильно. Это и углеродный след, и воздействие на природу, и социальная ответственность, и лучшие практики управления.
— Как вообще отличить компанию, которая честно следует принципам ESG, от той, которая просто прикрывается, чтобы быть «в тренде»?
— С практической точки зрения, крупнейшие компании сталкиваются с тем, что у них есть поставщики, у которых есть продукция. Для того, чтобы сократить свой углеродный след, им надо сократить и Охват 3 (Scope 3 — одна из сфер охвата выбросов компаний, которая включает всю цепочку жизненного цикла товара — Forbes Agenda), то есть углеродный след своих поставщиков. Например, крупнейшая компания говорит: «Мы будем покупать только продукцию с углеродным следом ниже, чем вот такое-то значение или с таким-то экологическим сертификатом». И поставив эти требования, компания, которая лишь написала у себя на сайте, что любит ESG, сажает деревья и поддерживает экологию, уже просто так не пройдет. Надо будет предъявлять сертификаты, считать свой углеродный след, показывать свои политики, надо будет, чтобы команда, которая занимается ESG-повесткой конкретного поставщика, координировалась с профильным подразделением в самой организации. При этом организациям надо развивать ESG-компетенции внутри себя.
Сбербанк сообщил о планах запустить сервис для покупки цифровых активов
Сбербанк планирует запустить платформу с возможностью покупки цифровых финансовых активов. Об этом заявил глава банка Герман Греф во время Дня инвестора. Он отметил, что с января следующего года в России в силу вступает закон «О цифровых финансовых активах», который введет их в правовое поле.
«С первого января вступает в силу закон, мы хотим вывести на рынок нашу новую блокчейн-платформу, которая будет предоставлять услуги по покупке цифровых финансовых активов. И там мы собираемся с самого начала реализовать возможность приобретения «зеленых» инструментов», — сказал Греф.
Глава компании добавил, что также рассматривается возможность выпуска собственной цифровой валюты «Сберкоин». Эксперименты в этом направлении банк может начать в 2021 году.
На запрос корреспондента «РБК-Крипто» в пресс-службе Сбербанка ответили, что не комментируют данную информацию.
В начале августа директор дивизиона «Транзакционный бизнес» Сбербанка Сергей Попов сообщил, что компания может выпустить цифровой токен, курс которого будет привязан к котировкам рубля. Это станет инструментом расчета в сделках с другими цифровыми финансовыми активами.
30 ноября первый заместитель председателя Банка России Ольга Скоробогатова рассказала, что абсолютное большинство участников финансового рынка в ходе общественного обсуждения поддерживает целесообразность введения цифрового рубля. Однако она подчеркнула, что ЦБ против выпуска каких-либо стейблкоинов на российский рубль.
На прошлой неделе премьер-министр Михаил Мишустин заявил, что интерес к криптовалютам постоянно растет, поэтому правительство планирует направить их развитие в «цивилизованное русло, чтобы владельцы таких активов могли защитить свои права и интересы, а создание теневых схем было затруднено». По словам Мишустина, планируется внести ряд изменений в Налоговый кодекс, а также закрепить признание цифровых финансовых активов имуществом, владельцы которого могут рассчитывать на юридическую защиту в случае каких-либо противоправных действий.
Больше новостей о криптовалютах вы найдете в нашем телеграм-канале РБК-Крипто.