News

Как Amazon Web Services улучшил поиск корпоративных данных с помощью Amazon SageMaker

News | 25.05.2026

По мере масштабирования экосистем данных организациям становится всё сложнее справляться с одной ключевой проблемой: фрагментированным поиском данных. Разные команды часто создают локальные наборы данных, дашборды, метрики и бизнес-активы вне централизованных корпоративных каталогов, из-за чего пользователям становится трудно эффективно находить, проверять и повторно использовать информацию.

Чтобы решить эту задачу, команда Amazon Business Data Technologies (BDT) расширила стратегию корпоративного каталога данных, интегрировав внутренние системы управления с Amazon SageMaker. Цель была очевидной: создать единый механизм поиска и управления как для структурированных наборов данных, так и для более широкого спектра бизнес-активов.

Для организаций, создающих современные платформы данных и AI на базе Amazon Web Services, этот подход даёт ценные инсайты о том, как централизованное каталогизирование и управление могут улучшить совместную работу, аналитику и готовность к AI в масштабах предприятия.

Проблема: фрагментированные каталоги и разрозненное управление

Amazon уже использовала централизованный корпоративный каталог данных под названием Andes, предназначенный для безопасного обмена наборами данных в рамках строгих политик управления. Однако многие команды также поддерживали отдельные каталоги для:

  • Локальных наборов данных
  • Дашбордов
  • Метрик
  • Бизнес-документов
  • ML-активов
  • Неструктурированных ресурсов

В результате пользователям приходилось искать данные в нескольких системах в зависимости от типа актива. Это увеличивало операционные затраты, замедляло аналитические процессы и снижало прозрачность доступных ресурсов данных.

Команда BDT определила четыре ключевых требования для модернизации:

1. Поддержка мультимодальных каталогов

Командам требовалась единая платформа, способная каталогизировать:

  • Корпоративные наборы данных
  • Локальные бизнес-наборы данных
  • Дашборды и KPI
  • Файлы и отчёты
  • Аналитические активы

2. Единое управление и контроль доступа

Организациям требовалось централизованное управление с:

  • Едиными процессами согласования
  • Последовательными политиками доступа
  • Авторизацией с учётом идентификации пользователей
  • Корпоративным аудитом

3. Многоуровневые процессы согласования

Разные типы активов часто требуют различных моделей согласования. Решение должно было поддерживать несколько сценариев управления при сохранении централизованной видимости.

4. Делегированное владение

Бизнес-подразделениям требовалась гибкость для обогащения метаданных, управления тегами и поддержки доменно-ориентированного управления без потери корпоративного контроля.

Расширение возможностей корпоративного каталога с помощью Amazon SageMaker

Для решения этих задач Amazon расширила среду корпоративного каталога, используя возможности каталогизации и управления Amazon SageMaker.

Вместо поддержки нескольких разрозненных каталогов Amazon создала единый корпоративный домен, объединяющий наборы данных и другие активы в единую систему поиска.

Архитектура интегрирует:

  • Amazon SageMaker
  • AWS IAM Identity Center
  • Корпоративные системы идентификации
  • Существующие механизмы управления
  • Внутренние инструменты согласования

Это позволило создать централизованный каталог при сохранении существующих стандартов безопасности и управления.

Ключевые преимущества интегрированной архитектуры

Единое окно поиска данных

Теперь пользователи могут искать наборы данных, дашборды, метрики и аналитические активы через единый интерфейс вместо работы с несколькими системами. Это значительно сокращает время поиска надёжных источников данных.

Расширенное управление для разных типов активов

Политики управления теперь распространяются не только на традиционные наборы данных, но и на более широкий спектр бизнес-активов, обеспечивая единообразный контроль во всех средах.

Улучшенная наблюдаемость и аудит

Используя Trusted Identity Propagation (TIP) вместе с AWS IAM Identity Center, организации получают детальную прозрачность в отношении:

  • Кто обращался к конкретным активам
  • Когда активы использовались
  • Какие системы были задействованы

Это усиливает возможности комплаенса и корпоративного аудита.

Интеграция с существующими корпоративными процессами

Платформа интегрируется с Git-репозиториями, системами согласования и внутренними инструментами для автоматизации разрешений, онбординга и операционных процессов.

Ключевые компоненты реализации

Коннекторы каталогов и пайплайны загрузки

Amazon создала коннекторы для синхронизации активов из различных источников в SageMaker с сохранением моделей управления и метаданных.

Это включало:

  • Интеграцию с наборами данных Andes
  • Автоматизацию подключения AWS-аккаунтов
  • Маппинг доступа с учётом идентификации пользователей

Делегированное владение и бизнес-глоссарии

Бизнес-команды теперь могут определять и поддерживать:

  • Бизнес-глоссарии
  • Доменные словари
  • Определения метаданных
  • Классификационные теги

Это улучшает обнаружение данных и стандартизацию по всей организации.

Интегрированные инструменты аналитики и разработки

Пользователи могут работать с каталогизированными активами напрямую через:

  • SageMaker Unified Studio
  • SQL Query Editors
  • Среды разработки ML
  • Git-интегрированные процессы
  • AWS-сервисы аналитики

Среда нативно интегрируется с:

  • Amazon Athena
  • AWS Glue
  • Amazon EMR
  • Amazon Redshift

Это позволяет командам находить, анализировать и внедрять данные в рамках единого рабочего процесса.

Результаты: ускоренный поиск и усиление совместной работы

Интегрированный каталог SageMaker теперь поддерживает широкий спектр корпоративных активов, включая:

  • Наборы данных
  • Дашборды
  • Метрики
  • ML-модели
  • Бизнес-документы
  • Результаты аналитики

По данным Amazon, инициатива обеспечила несколько измеримых улучшений:

Более быстрый доступ к надёжным данным

Команды тратят меньше времени на поиск данных и больше — на получение инсайтов.

Снижение количества изолированных хранилищ данных

Общее управление и централизованный поиск способствуют повторному использованию авторитетных наборов данных вместо создания дублирующих копий.

Улучшенное взаимодействие между командами

Стандартизированные метаданные и единая прозрачность упрощают сотрудничество между различными бизнес-доменами.

Почему это важно для современных AI- и аналитических стратегий

По мере того как организации инвестируют в AI, аналитику и data-driven принятие решений, фрагментированные каталоги становятся серьёзным операционным узким местом.

Единая каталогизация с Amazon SageMaker помогает организациям:

  • Создавать AI-ready основу данных
  • Улучшать управление и комплаенс
  • Упрощать аналитические процессы
  • Повышать доверие к корпоративным данным
  • Ускорять взаимодействие между командами

Как Softprom помогает модернизировать поиск данных на AWS

Как официальный AWS Partner, Softprom помогает организациям проектировать и внедрять масштабируемые платформы данных и AI с использованием технологий AWS, включая:

  • Amazon SageMaker
  • AWS-сервисы аналитики
  • Фреймворки управления данными
  • AI- и ML-среды
  • Интеграцию идентификации и доступа
  • Стратегии модернизации корпоративных данных

Комбинируя сервисы AWS с лучшими практиками управления, организации могут создавать единые экосистемы данных, поддерживающие аналитику, AI и корпоративное взаимодействие в масштабах предприятия.