Как Amazon Web Services улучшил поиск корпоративных данных с помощью Amazon SageMaker
News | 25.05.2026
По мере масштабирования экосистем данных организациям становится всё сложнее справляться с одной ключевой проблемой: фрагментированным поиском данных. Разные команды часто создают локальные наборы данных, дашборды, метрики и бизнес-активы вне централизованных корпоративных каталогов, из-за чего пользователям становится трудно эффективно находить, проверять и повторно использовать информацию.
Чтобы решить эту задачу, команда Amazon Business Data Technologies (BDT) расширила стратегию корпоративного каталога данных, интегрировав внутренние системы управления с Amazon SageMaker. Цель была очевидной: создать единый механизм поиска и управления как для структурированных наборов данных, так и для более широкого спектра бизнес-активов.
Для организаций, создающих современные платформы данных и AI на базе Amazon Web Services, этот подход даёт ценные инсайты о том, как централизованное каталогизирование и управление могут улучшить совместную работу, аналитику и готовность к AI в масштабах предприятия.
Проблема: фрагментированные каталоги и разрозненное управление
Amazon уже использовала централизованный корпоративный каталог данных под названием Andes, предназначенный для безопасного обмена наборами данных в рамках строгих политик управления. Однако многие команды также поддерживали отдельные каталоги для:
- Локальных наборов данных
- Дашбордов
- Метрик
- Бизнес-документов
- ML-активов
- Неструктурированных ресурсов
В результате пользователям приходилось искать данные в нескольких системах в зависимости от типа актива. Это увеличивало операционные затраты, замедляло аналитические процессы и снижало прозрачность доступных ресурсов данных.
Команда BDT определила четыре ключевых требования для модернизации:
1. Поддержка мультимодальных каталогов
Командам требовалась единая платформа, способная каталогизировать:
- Корпоративные наборы данных
- Локальные бизнес-наборы данных
- Дашборды и KPI
- Файлы и отчёты
- Аналитические активы
2. Единое управление и контроль доступа
Организациям требовалось централизованное управление с:
- Едиными процессами согласования
- Последовательными политиками доступа
- Авторизацией с учётом идентификации пользователей
- Корпоративным аудитом
3. Многоуровневые процессы согласования
Разные типы активов часто требуют различных моделей согласования. Решение должно было поддерживать несколько сценариев управления при сохранении централизованной видимости.
4. Делегированное владение
Бизнес-подразделениям требовалась гибкость для обогащения метаданных, управления тегами и поддержки доменно-ориентированного управления без потери корпоративного контроля.
Расширение возможностей корпоративного каталога с помощью Amazon SageMaker
Для решения этих задач Amazon расширила среду корпоративного каталога, используя возможности каталогизации и управления Amazon SageMaker.
Вместо поддержки нескольких разрозненных каталогов Amazon создала единый корпоративный домен, объединяющий наборы данных и другие активы в единую систему поиска.
Архитектура интегрирует:
- Amazon SageMaker
- AWS IAM Identity Center
- Корпоративные системы идентификации
- Существующие механизмы управления
- Внутренние инструменты согласования
Это позволило создать централизованный каталог при сохранении существующих стандартов безопасности и управления.
Ключевые преимущества интегрированной архитектуры
Единое окно поиска данных
Теперь пользователи могут искать наборы данных, дашборды, метрики и аналитические активы через единый интерфейс вместо работы с несколькими системами. Это значительно сокращает время поиска надёжных источников данных.
Расширенное управление для разных типов активов
Политики управления теперь распространяются не только на традиционные наборы данных, но и на более широкий спектр бизнес-активов, обеспечивая единообразный контроль во всех средах.
Улучшенная наблюдаемость и аудит
Используя Trusted Identity Propagation (TIP) вместе с AWS IAM Identity Center, организации получают детальную прозрачность в отношении:
- Кто обращался к конкретным активам
- Когда активы использовались
- Какие системы были задействованы
Это усиливает возможности комплаенса и корпоративного аудита.
Интеграция с существующими корпоративными процессами
Платформа интегрируется с Git-репозиториями, системами согласования и внутренними инструментами для автоматизации разрешений, онбординга и операционных процессов.
Ключевые компоненты реализации
Коннекторы каталогов и пайплайны загрузки
Amazon создала коннекторы для синхронизации активов из различных источников в SageMaker с сохранением моделей управления и метаданных.
Это включало:
- Интеграцию с наборами данных Andes
- Автоматизацию подключения AWS-аккаунтов
- Маппинг доступа с учётом идентификации пользователей
Делегированное владение и бизнес-глоссарии
Бизнес-команды теперь могут определять и поддерживать:
- Бизнес-глоссарии
- Доменные словари
- Определения метаданных
- Классификационные теги
Это улучшает обнаружение данных и стандартизацию по всей организации.
Интегрированные инструменты аналитики и разработки
Пользователи могут работать с каталогизированными активами напрямую через:
- SageMaker Unified Studio
- SQL Query Editors
- Среды разработки ML
- Git-интегрированные процессы
- AWS-сервисы аналитики
Среда нативно интегрируется с:
- Amazon Athena
- AWS Glue
- Amazon EMR
- Amazon Redshift
Это позволяет командам находить, анализировать и внедрять данные в рамках единого рабочего процесса.
Результаты: ускоренный поиск и усиление совместной работы
Интегрированный каталог SageMaker теперь поддерживает широкий спектр корпоративных активов, включая:
- Наборы данных
- Дашборды
- Метрики
- ML-модели
- Бизнес-документы
- Результаты аналитики
По данным Amazon, инициатива обеспечила несколько измеримых улучшений:
Более быстрый доступ к надёжным данным
Команды тратят меньше времени на поиск данных и больше — на получение инсайтов.
Снижение количества изолированных хранилищ данных
Общее управление и централизованный поиск способствуют повторному использованию авторитетных наборов данных вместо создания дублирующих копий.
Улучшенное взаимодействие между командами
Стандартизированные метаданные и единая прозрачность упрощают сотрудничество между различными бизнес-доменами.
Почему это важно для современных AI- и аналитических стратегий
По мере того как организации инвестируют в AI, аналитику и data-driven принятие решений, фрагментированные каталоги становятся серьёзным операционным узким местом.
Единая каталогизация с Amazon SageMaker помогает организациям:
- Создавать AI-ready основу данных
- Улучшать управление и комплаенс
- Упрощать аналитические процессы
- Повышать доверие к корпоративным данным
- Ускорять взаимодействие между командами
Как Softprom помогает модернизировать поиск данных на AWS
Как официальный AWS Partner, Softprom помогает организациям проектировать и внедрять масштабируемые платформы данных и AI с использованием технологий AWS, включая:
- Amazon SageMaker
- AWS-сервисы аналитики
- Фреймворки управления данными
- AI- и ML-среды
- Интеграцию идентификации и доступа
- Стратегии модернизации корпоративных данных
Комбинируя сервисы AWS с лучшими практиками управления, организации могут создавать единые экосистемы данных, поддерживающие аналитику, AI и корпоративное взаимодействие в масштабах предприятия.