sberdata exchange что это

В России запустили сервис вознаграждений за передачу личных данных рекламодателям

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

Ex-новостной редактор. РБ.РУ.

Бывший топ-менеджер МТС Алексей Ермаков запустил приложение SberData (Sberdatabank), которое поощряет пользователей за передачу своих личных данных рекламодателям, пишут «Ведомости» со ссылкой на Ермакова.

В данный момент доступна только версия сервиса для Android. Сообщается, что SberData работает как блокировщик рекламы, однако вместо блокировки баннеров на сайтах сервис заменяет их на рекламу, которую у сервиса закупают другие рекламодатели.

В настройках SberData пользователи могут указать, какие именно персональные данные они разрешают передать рекламодателю – вплоть до переписки в мессенджерах (эта функция, впрочем, будет добавлена позже). Вознаграждение за передачу данных будет зависеть от количества переданной информации, средний размер составит 250-700 рублей в месяц, говорит Ермаков.

Сейчас вывести деньги в SberData можно на счет мобильного телефона, позже появится интеграция с платежными системами вроде PayPal и WebMoney, добавил разработчик.

При этом все данные пользователей хранятся и анализируются в обезличенном виде, уверяет Ермаков. Сами рекламодатели получат доступ к точно таргетированной аудитории – в будущем сервис запустит замену баннеров не только в браузере, как сейчас, но и в соцсетях, геосервисах и т.д., говорит автор SberData.

Скриншоты приложения SberData в Google Play

«Интернет-корпорации, такие как Facebook, Google и прочие, зарабатывают на рекламе, предоставляя данные пользователей рекламодателям и никак не делятся с потребителями этой прибылью. Более того, стоимость размещения рекламы включается в конечную цену продуктов и услуг, то есть ложится на плечи самих же покупателей. Получается, что мы с вами теряем деньги дважды каждый раз, когда смотрим рекламный ролик: первый раз из-за недополученной прибыли за использование личных данных; второй раз, когда делаем покупку в магазине, оплачивая маркетинговые расходы компаний», – цитирует слова Ермакова издание vc.ru.

По словам Ермакова, он не исключает, что появление SberData может вызвать возражения у части рекламодателей. В данный момент четкой стратегии по решению таких проблем у сервиса нет. «Не исключено, что мы предложим им делиться доходами – ведь доступ ко всем действиям пользователей позволит нам продавать рекладателям очень точно таргетированную аудиторию. Это может серьезно повысить стоимость рекламы, и площадкам может быть выгоднее работать с нами», – сказал Ермаков в разговоре с «Ведомостями».

По данным «Ведомостей», на создание сервиса было потрачено несколько сотен тысяч долларов из собственных средств Ермакова и его партнеров. В данный момент компания ведет переговоры с инвестиционными фондами о привлечении дополнительных средств для развития проекта и международной экспансии в страны Азии.

Источник

Сбербанк нашел разработчиков супермаркета данных

Содержание

Sberbank Huge Data Platform. Платформа по работе с данными Сбербанка

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

Бизнес задачи, решаемые Фабрикой Данных

Сбербанк выбрал разработчиков супермаркета данных

В конце октября 2019 года Сбербанк подвел итоги конкурса на разработку ПО для системы «Облако данных», а также процедур контроля качества данных. [1] Общая начальная стоимость контрактов составляла 280 млн рублей. По результатам проведенного тендера банк сократил эту сумму примерно на 8 млн руб.

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

Закупка состояла из трех лотов. Первый – это разработка процедур контроля качества данных систем «Облако данных» и «Аналитическое хранилище данных» (стоимость работ была оценена в 120 млн руб.). Второй и третий лоты были посвящены разработке соответственно back-end и front-end компонентов портала Супермаркета данных (60 и 100 млн руб.).

В рамках разработки процедур контроля качества данных исполнитель должен будет сформировать требования к качеству данных, в том числе, разработать критерии качества, показатели качества данных и методы их расчета. Кроме того, необходимо провести ИТ анализ требований к качеству данных с учетом архитектуры хранения данных, разработать алгоритмы и реализовать проверки качества данных. Также необходимо согласовать требования к качеству данных и проверок с бизнес-заказчиками и поставщиками данных.

Все работы необходимо будет выполнить до конца 2020 года.

2018: Первые результаты BigData-проекта

Эксперты «Сбербанк-Технологий» Борис Рабинович, Илья Поздняков и Валерий Выборнов в мае 2018 года подготовили для TAdviser статью о том, как банк хранит и использует быстрорастущие данные.

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

Потребности определяют решения

Для решения различных бизнес-задач данные в Сбербанке обрабатываются из сотни информационных систем. В банке давно обсуждается вопрос их более эффективного использования. Еще в 2011 году в Сбербанке появился проект по созданию хранилища данных на основе решения от Teradata, что позволило решить задачи по формированию управленческой, финансовой и регуляторной отчетности, индивидуальных предложений для клиентов и др.

Массовое проникновение интернета и растущая популярность социальных сетей открыли новые источники информации и, соответственно, новые возможности для использования данных. Если обогатить внутренние данные Сбербанка внешними, то, без сомнения, можно лучше понимать потребности клиентов, оптимизировать внутренние процессы и многое другое.

Архитектура хранилища данных на основе решения от Teradata не отвечала новым вызовам. В первую очередь, необходимо было обеспечить возможности для роста объемов данных на 10 Пб в год и реализации задач на основе Artificial Intelligence. Поэтому два года назад было принято решение изменить архитектуру хранилища данных. Для этого была запущена программа «Фабрика Данных», в рамках которой созданы системы «Облако Данных» и «Лаборатория Данных» на Hadoop.

Почему Hadoop?

Hadoop предлагает технологию, которая позволяет обрабатывать огромные объемы данных и оптимальна по соотношению цена/качество. Она используется крупнейшими мировыми компаниями: Barclays, Lloyds Banking Group, Citi, Deutsche Bank, Google, Amazon и т.д. По сути, это решение – конструктор, из которого можно строить хранилище данных под нужды бизнеса.

В новой архитектуре Сбербанка ключевыми требованиями к данной технологии стали: ежедневное инкрементальное обновление источников данных, создание единой интегрированной модели данных, прикладных бизнес-решений в «Облаке Данных», а также промышленная среда исполнения AI-моделей. В 2016 году разработка новой архитектуры была сложной и амбициозной задачей для всей команды «Фабрики данных», учитывая объемы данных, зрелость Hadoop и кадровый дефицит.

«Облако Данных» как площадка Сбербанка для работы с данными

В СберТехе созданием «Облака Данных» и «Лабораторией Данных» занимаются специалисты Центра Компетенции по Супермассивам Данных. «Облако Данных» – Big Data кластер под управлением Apache Hadoop на основе дистрибутива Cloudera – было создано всего за два года. В первую очередь, мы разработали основные инфраструктурные сервисы для решения задач по безопасности, аудиту, журналированию и др. Далее решили одну из ключевых задач «Фабрики Данных» – создали инструментарий для инкрементальной загрузки данных из высоконагруженных банковских систем в «Облако Данных», что позволяет загружать несколько десятков ТБ в сутки.

«Облако данных». Интеграция

Загрузка и поддержание в консистентном состоянии такого объема данных оказалось сложной технической задачей. Для ее решения при помощи инструментов экосистемы Hadoop (Apache Spark, Sqoop и других) разработан собственный продукт «репликатор Stork». Идея репликатора возникла на основе анализа трактов загрузки данных из различных источников. На текущий момент в «Облако данных» с помощью этого репликатора загружается более 30 ключевых систем банка.

Помимо загрузки данных из классических реляционных СУБД «Облако Данных» интегрируется с Платформой Поддержки Развития Бизнеса (ППРБ) – еще одной масштабной программой Сбербанка по созданию enterprise back office платформы нового поколения. В отличие от реляционных систем-источников, данные из ППРБ передаются в «Облако данных» непрерывным потоком. Для реализации такого потока была выбрана связка инструментов поточной обработки Apache Kafka и Spark Streaming.

Также данные попадают в «Облако» через загрузку обычных текстовых файлов из различных источников. Именно таким способом Big Data кластер обогащается из внешних источников.

По состоянию на май 2018 года «Облако данных» и потоки в него можно описать следующими параметрами:

На ежедневное обновление данных требуется около 6 часов, но мы стремимся прийти к обновлению, близкому к real-time.

Искусственный интеллект

AI-трансформация – одно из ключевых направлений по оптимизации процессов Сбербанка. Исторически AI и машинное обучение были развиты в блоке Риски. К 2018 году решения на основе AI используются практически во всех сферах работы Сбербанка. На начало года было запущено 259 AI-проектов. Ниже представлено несколько примеров моделей, созданных нами с коллегами из подразделений банка:

Полигон для исполнения моделей

Для запуска промышленных моделей в «Облаке данных» действует промышленная среда исполнения AI-моделей – «подсистема пакетного исполнения моделей» (ПИМ), а также созданы «библиотеки моделей машинного обучения». Взаимосвязь этих подсистем позволяет решать задачу выполнения моделей в промышленной среде на реальных данных с требуемым SLA. В ближайшем будущем вместе с другими инициативами Data Science-сообщества Сбербанка мы выведем моделирование в Сбербанке на качественно новый уровень.

До того, как стать промышленной, модель должна быть разработана и провалидирована. Для подобных исследований в «Фабрике данных» на базе Hadoop и Cloudera работает «Лаборатория Данных», где Data Scientist прогоняют модель через все этапы жизненного цикла. В «Лаборатории Данных» используется подмножество данных из «Облака» и других источников, достаточное для экспериментов. Там же разрабатываются и анализируются модели: какие данные есть и каково их качество, что будет при пересечении групп пользователей и т.д. Лаборатории принадлежит одно из ключевых мест в технологическом ландшафте Сбербанка. По сути – это исследовательский центр, в котором рождаются модели машинного обучения и системы искусственного интеллекта.

О будущем

Мы планируем развивать реализованные подсистемы «Облака Данных» и решать новые вопросы. Например, как обеспечить репликацию и доступ к данным в режиме near real time? Как правило, обработка изменений, поступающих в «Облако» от систем-источников, происходит периодически и большими порциями («пакетами»), и пока не произойдет очередной обработки, изменения из системы-источника не отразятся в облаке. Репликация и доступ в режиме near real timeпозволят сократить время между изменением в системе-источнике и отражением этого изменения в «Облаке» до нескольких минут. Также особый интерес для бизнеса представляют сверхбольшие графы. С их помощью можно эффективно решать многие задачи с помощью анализа графовых данных с миллиардами связей в интерактивном режиме, начиная от поиска аффилированных лиц и организаций, и заканчивая продуктовыми рекомендациями. Рабочий прототип мы уже создали, о дальнейшем развитии обязательно расскажем.

2016: Выбор подрядчика и старт внедрения

По итогам рассмотрения заявок победителем стала Teradata. В октябре 2016 года с компанией был заключен контракт на сумму 8,41 млн рублей.

Что именно покупает Сбербанк

Платформа Hadoop выбирается в качестве стандарта Сбербанка, говорится в тендерной документации.

Hadoop представляет собой свободно распространяемый набор ПО для разработки и выполнения распределенных программ, работающих на кластерах, состоящих из сотен и тысяч узлов. В системе предусмотрено дублирование на случай выхода из строя узлов, она поддерживает несколько рабочих копий данных. Работа Hadoop основана на принципе параллельной обработки данных, что позволяет увеличить скорость работы. Объемы обрабатываемой информации измеряются петабайтами. Платформа написана на языке Java.

Система, которую заказывает Сбербанк, должна удовлетворять требованиям к решениям, предъявляемым к классу задач Big Data, следует из ТЗ. В ее состав должны быть включены следующие open-source компоненты, осуществляющие хранение и обработку данных:

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

В рамках конкурса банк приобретает систему в объеме 61 узла с гарантийной поддержкой. Подрядная организация должна будет предоставить неисключительную лицензию на Hadoop на срок не менее одного года. Победитель заключит со Сбербанком рамочный лицензионный договор, при этом банк вправе определять объемы и сроки приобретения системы по своему усмотрению.

Зачем Сбербанку Hadoop

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

В рамках конкурса покупается только платформа Hadoop, реализующая методы распределения данных по вычислительным узлам, их параллельной обработки и сведения результатов. Всю логику работы и конкретные аналитические алгоритмы только предстоит разработать, замечает Владимир Дубинкин, руководитель отдела сетевых решений в компании IBS.

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

О преимуществах применения Hadoop в решении банковских задач представители Сбербанка рассказывают на профильных конференциях уже около трех лет, напомнил TAdviser Роман Баранов, руководитель направления бизнес-аналитики компании «Крок».

Функционал систем, создаваемых инструментами Hadoop, по мнению Баранова, может быть схож с тем, что реализуется с помощью Cloudera/MapR/HW, то есть решаются задачи кластеризации данных и выдачи оптимального предложения для клиента (Next Best Offer), которое формируется на основе таких характеристик как совершенная покупка, клиентский профиль и поведение похожих клиентов.

Также актуальными остаются задачи оценки кредитных рисков, оптимизации остатков кэша в отделениях и банкоматных сетях, прогнозирования отказов банкоматов и прочие, добавляет он.

Область банковского применения Hadoop крайне обширна и поддерживает такие ключевые направления, как формирование эффективной модели оценки индивидуальных клиентских и партнерских рисков, выявление мошеннических схем в транзакционных и биллинговых каналах, а также высокоточная сегментация всей клиентской базы для генерации наиболее целевых коммерческих предложений и оптимизации маркетинговых коммуникаций, рассказывает директор по маркетингу «Айкумен ИБС» Андрей Лысенко.

Помимо прикладного значения, кластеры Hadoop активно используются банковскими аналитиками для создания тестовой среды при исследовании новых типов данных, разнообразие которых растет в геометрической прогрессии, говорит он.

Ожидаемые сложности при развитии решений на базе Hadoop

При внедрении Hadoop банк может столкнуться с традиционным набором затруднений, возникающий при внедрении новых технологий, полагают в самом Сбербанке: это необходимость наращивания компетенций, встраивание новой технологии во внутренние процессы и интеграция с имеющимся ИТ-ландшафтом.

Технологически внедрение платформы Hadoop несложно и сводится к развертыванию стандартных модулей на серверах вычислительного кластера, отмечают опрошенные TAdviser эксперты. Тем более, что в данном случае речь идет не об open-source решении, а о системе конкретного производителя, сопровождающейся поддержкой вендора. Также предъявляются высокие требования к наличию учебных курсов и уже довольно большого числа сертифицированных специалистов в России.

Дубинкину из IBS основной сложностью видится последующая разработка программного обеспечения для решения аналитических задач Сбербанка, в том числе, оптимизация программного кода для эффективного использования аппаратных ресурсов платформы. Кроме того, задачи анализа больших объемов данных имеют свою специфику и требуют привлечения профильных специалистов, так называемых data scientist, которых пока в России крайне мало.

Пока Hadoop распространен довольно слабо, и число участников каждой конференции по большим данным это только подтверждает, добавляет Баранов из «Крок». Открытых инсталляций эксперт смог насчитать всего порядка 10.

Практика «Айкумен ИБС» определяет основные сложности развертывания в организации управления, апгрейда и мониторинга состояния Hadoop-кластеров, когда счет АПК идет на десятки машин. Например, открытый Cloudera Manager уже не позволяет эффективно контролировать систему из свыше 30 машин и требует дополнительных расходов в виде платного лицензирования, говорит Андрей Лысенко.

Источник

Как мы научились управлять данными глобального масштаба: кейс разработки Супермаркета Данных

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

Мария Юшанова, Управление распространения данных Департамента SberData

Однако может возникнуть проблема, когда данные разрознены и нет единого механизма обмена информацией владельцев данных с их потребителями. Например, в Фабрике Данных Сбера более 350 источников данных, 90 аналитических приложений, 270 лабораторий данных, где работают боле 1300 пользователей и обращается около 15 Пб разной информации. Важно было создать решение, которое автоматизирует процессы по работе с данными и позволит пользоваться им в формате self-service.

Именно за эту амбициозную задачу, которую до этого никто не решал, взялась объединенная команда Сбера и ADV/web-engineering, и в этой статье расскажем, что у нас получилось.

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

Задача

Стандартный сценарий поиска информации представлял собой поход по начальникам департаментов, формирование договоренностей и согласование получения доступов. При этом владельцы данных могли не знать о том, что кому-то вообще нужны данные, тем более в определенном формате, с определенной регулярностью, что их данные могут быть недостаточно качественными и тп. Даже после того, как данные были найдены и доступ был получен, для каждого такого потока данных должно было быть спроектировано и согласовано технологическое решение. Time-to-market мог составлять до полугода.

Среди потребителей данных мы выделяем две большие группы:

Data scientists, Data-инженеры, аналитики данных, разработчики витрин данных, DataOps — для исследования данных и построения моделей

Представители бизнес-подразделений Сбера — от построения автоматизированных процессов решения бизнес-задач до формирования управленческой отчетности в режиме реального времени.

В организациях масштаба Сбера невозможно построить работу с данными в масштабе всей компании без выстраивания процессов управления данным. Обязательно должен быть data governance. И в связи с этим появляются такие роли, как владелец данных, менеджер данных, бизнес-пользователь данных.

Чтобы воспользоваться необходимыми данными потенциальный пользователь данных должен:

Найти нужные данные

Объяснить, зачем ему эти данные и получить к ним доступ

Поддержать техническую составляющую процесса получения данных

При этом необходимые данные могли быть разбросаны по куче разных систем, а их описание могло не давать полноценного понимания, устроят они потребителя или нет.

Поэтому мы сформировали требования к решению, которое позволит:

Легко и быстро искать необходимые данные

Получать данные по нужным условиям (формат / фильтры / условие поставки данных / периодичность и продолжительность поставки)

Получать данные там, где это необходимо получателю (здесь и далее будет использован термин «площадка получения данных»)

Поддерживать различные сопровождающие процессы, которые будут возникать при работе с данными (например, согласования, переходы пользователей между отделами и т.п.)

Соответствовать требованиям безопасности по работе с данными

В целом, удовлетворять нужды разных групп пользователей и стать единым механизмом распространения данных внутри Сбера.

Концепция и старт проекта

Как упоминалось в лиде, основная идея — создать целевое решение, которое соберет в себе рутинные процессы по работе с данными, автоматизирует их и позволит пользоваться им в формате self-service. Чтобы радикально сократить time-to-data, упростить доступ к данным пользователей Сбера и при этом повысить контроль за доступом к данным и data governance.

Рассматривалась идея «Супермаркета данных», которая есть у других компаний, в том числе коробочные решения, которые предоставляют интеграторы. Однако проанализировав рынок, мы поняли, что коробочное решение не приживется в контуре Сбера, где на момент принятия решения уже существовала Фабрика данных со своими процессами, реализованными сервисами и гигантскими объемами колоссального разнообразия данных (один лишь каталог данных сейчас составляет более полутора миллионов элементов). Исходя из этого было принято единственное и правильное решение — разрабатывать Супермаркет данным самим.

Нужно было собственное решение, которое станет единой точкой входа и фронтом для всех сервисов SberData, решит не только технические задачи, но и будет понятным относительно широкой аудитории пользователей.

Среди компаний-подрядчиков мы выбрали команду ADV/web-engineering.co, показавшую сильную экспертизу и предложившую концепт, максимально приближенный к тому, что мы хотели. Мы стартовали в 2019 году, и вот уже на протяжении двух лет вместе с коллегами из ADV постепенно развиваем уровень зрелости продукта и регулярно улучшаем внутренние процессы разработки, внедрения и сопровождения. Список решённых бизнес-задач исчисляется сотнями, а количество релизов — десятками.

Сегодня СМД используется для ряда промышленных трактов и снабжает данными из более чем 300 источников витрины и аналитические решения бизнес блоков Сбера. Ежедневно через СМД проходит около 3Пб данных, включающих более 70 тыс таблиц и миллиона атрибутов. И эти цифры продолжают расти.

О том, какие шаги мы прошли за эти два года, от лица совместной команды ADV и SberData расскажет Виктор Колдаев @vkoldaev, ведущий аналитик компании ADV/web-engineering:

Сильные e-commerce и data-подразделения позволили ADV собрать команду, использующую опыт построения больших каталогов, работу с дистрибуцией данных и большими нагрузками, экспертизу в области обеспечения безопасности данных для реализации cовместно с сильной командой SberData удобного и интуитивного self-сервиса для поиска и получения данных в контуре Сбера.

Разработку концепта мы с аналитиками команды Сбера начали с представления всего многообразия данных. Здесь используются метаданные — данные о данных, содержащие информацию о списке данных, структуре, показателях качества, актуальности, data governance информации. Метаданные могут обогащаться и использоваться, например, для поиска нужных данных.

Второе — это получение данных с учетом различных критериев и с определенной регулярностью. Пришли к формату заказа данных по типу подписки.

Добавляем пользователей, которые со всем этим могут работать, и получаем верхнеуровневую концептуальную модель сущностей, содержащую:

Далее строится концепция пользовательского интерфейса, через который мы уже более детально прорабатываем пользовательские кейсы и возможности. Появляется:

Каталог, построенный на основании метаданных и содержащий доступный ассортимент, с инструментами поиска и фильтрации

Корзина, позволяющая оформить «заказ на данные» — подписку

Реестр подписок (заказов пользователей)

Стартовая разводящая страница, содержащая базовый дашборд

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

Вот и получился Супермаркет данных. Бонусом в концепции закладывался сопроводительный функционал, типа общего поиска, глобальных справочников, систем рекомендации и административного интерфейса.

Параллельно архитекторами Сбербанка прорабатывается базовая архитектура решения, фиксируется:

Портал Супермаркета данных — интерфейсная часть, с которой работает пользователь и которая сама по себе работает не с данными, а только с метаданными

Технический компонент, отвечающий непосредственно за работу с данными и их поставку согласно требованиям подписок — Ядро Супермаркета данных

Источники данных — условное обозначение всех точек, метаданные которых опубликованы в ассортименте Супермаркета данных и доступных для заказа

Получатели данных — условное обозначение потребителя данных независимо от технологического стека

Использование единого технологического решения позволяет пользователям не заниматься проработкой нового технологического канала обмена данными для каждого инфопотока, а лишь раз настроить свой приёмник для получения данных из Супермаркета.

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

MVP и развитие решения

Супермаркет данных — довольно сложное архитектурное решение, которое на начальных этапах отличалось от того, что мы имеем сейчас. Внутри него огромное количество интеграций с системами Сбера. Релиз формируется из работы нескольких команд, каждая из которых решает свой пул задач и реализует свой бэклог.

MVP включал в себя базовый функционал:

Ограниченный набор данных в ассортименте

Ограниченная аудитория в рамках работы с MVP продукта

Из всех вариантов поставки данных — только снепшот (полный объем таблицы источника, без возможности наложить фильтр или получить дельту изменений данных за период) по расписанию не чаще раза в день

Запрошенные данные можно получить только после процесса их подготовки и из специализированного hadoop-кластера под именем DDA — data distribution area, область распространения данных

Многие опции подписок (например, сложные фильтры на данные) и прочие полезные бантики были пущены под нож

Очень много идей из концепции также были перенаправлены в бэклог для дальнейшей приоритезации.

После запуска MVP первым делом:

Cервис был интегрирован в инфраструктуру Сбера, из самого важного:

Обеспечили поддержку сервиса централизованного управления пользователями и их ролями,

Запустили процесс регулярного получения метаданных для построения актуального ассортимента из сервиса управления метаданными Фабрики данных Сбера

Реализован базовый функционал уведомлений пользователей о различных событиях, связанных с их подписками, на портале и через почту

Добавлен поиск по объектам ассортимента

В рамках первой вехи развития решения наша совместная команда:

Предоставила возможность построения промышленных трактов, которым требуется повышенная надёжность и безопасность. Здесь добавили поддержку выделенных технических учётных записей. Их использование позволяет оформлять специальные «промышленные» подписки, которые не зависят от конкретного человека, предполагают двойной контроль изменений и отдельные условия поддержки.

Расширила возможность использования СМД внутри контура Сбера. Начали поддерживать больше платформ-приемников, расширяя список бизнес-задач, которые можно решить.

Добавила полноценную фильтрацию запрошенных данных при оформлении подписок

Расширила доступный для заказа ассортимент. Из важного — добавили возможность заказа данных с использованием Единого Семантического Слоя (ЕСС) Сбера.

Полноценное описание ЕСС заслуживает отдельной статьи. Если коротко, то это изначально общая логическая модель данных всего Сбера, структурированная по предметным областям и наполненная данными из разных источников. Использование ЕСС дает пользователю возможность оперировать бизнес-данными без необходимости разбираться в какой-то конкретной структуре хранения данных какого-то конкретного источника.

Следующая веха была заточена под развитие условий поставки данных. Продукт стал доставлять данные:

Не только по расписанию, но и по факту обновления данных в источнике

Не только снепшоты, но и инкременты, чтобы позволить экономить время и вычислительные ресурсы

Не только пакетным способом, но и потоковым, в режиме около реального времени

Не только поставлять данные (перекладка данных, ETL), но и управлять доступом к данным по подписке через сервисы проксирования. Так получатель обращается к запрошенным данным напрямую, без ETL-процесса подготовки данных и размещения их в DDA. Подобная оптимизация особенно актуальна для гигантских объемов информации, так как, по сути, получение данных выполняется в два раза быстрее и с экономией места на дисках.

Следующая важная задача — поддержка обновленных требований кибербезопасности по поставке чувствительных данных через Супермаркет данных. Это был отдельный большой проект нескольких команд Сбера, начиная от проработки процесса и архитектуры и заканчивая доработкой нескольких систем, включая Супермаркет. В рамках этого проекта команда:

Реализовала механизм доступа к данным через теги доступа. Теги доступа представляют собой своего рода ярлыки, которые устанавливаются на данные любого уровня атомарности: от целой схемы до конкретного атрибута. Это позволяет владельцу данных гибче определять ценность и защиту для своих данных

Внедрила защиту данных с использованием технологии токенизации и шифрования.

Дополненная концептуальная архитектура с высоким уровнем абстракции теперь выглядит так:

sberdata exchange что это. Смотреть фото sberdata exchange что это. Смотреть картинку sberdata exchange что это. Картинка про sberdata exchange что это. Фото sberdata exchange что это

Что сейчас

На данный момент объединенная команда ADV и SberData совершенствует сервис, повышая его стабильность и производительность, а также продолжает развивать функционал, расширяя список решаемых бизнес-задач:

Сейчас автоматизированная система находится на уровне Business operational и развивается в сторону Business critical: начинаем с отдельных подписок, целимся в повышение стабильности всего решения.

Занимаемся оптимизацией затрачиваемых ресурсов, позволяя, например, переиспользовать одни и те же поставленные данные для решения однотипных задач

Расширяем поддержку новых типов источников данных

Расширяем список получателей данных, в том числе активно реализуем поддержку возможности поставки данных в отдельный внутренний сервис Сбера, предназначенный для обмена данными с дочерними и зависимыми организациями

Мария Юшанова, Управление распространения данных Департамента SberData

Что в итоге

Эксперты департамента управления данными Сбера (SberData) вместе с коллегами из ADV проделали большой путь по разработке и внедрению уникального продукта. Организовывали команды и выстраивали взаимодействие как внутри, так и между ними, продумывали процессы, выбирали инструменты работы и т.д. Это полноценная совместная работа двух профессиональных команд — Сбера и ADV.

За 2 года объединенная продуктовая команда запустила сервис, позволяющий оптимизировать и стандартизировать процессы получения данных для решения различных бизнес-задач компании с учетом централизованного контроля доступа к разным типам информации.

Интерфейс сервиса реализован в формате интерактивного каталога, где пользователи могут заказывать данные и оформлять на них подписку для выполнения различных бизнес-задач, от использования данных для построения решений промышленного уровня до обучения моделей для персонализации услуг и построения скоринговых моделей на основе транзакционного поведения потребителей. Многие процессы, без которых работа такого монстра невозможна, автоматизированы и скрыты от пользователя.

Решение полностью интегрировано в архитектурный ландшафт Сбера. Реализована передача данных из разных источников разными способами, поддержаны процессы централизованного доступа пользователей как к порталу, так и к данным. Это гарантирует получение данных теми потребителями, которым доступ разрешен к конкретным типам данных, в формате, удобным для потребителя.

У нас получилась отличная слаженная команда с коллегами из ADV, где их умение думать по-продуктовому и большой опыт в реализации сложных проектов сочетается с высоким профессионализмом и экспертизой в области больших данных специалистов SberData. И будем дальше развивать данный проект, выводя работу с данными в Сбере на качественно новый уровень. О чем поделимся в следующих статьях!

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *