Безпека озера даних за допомогою Imperva
News | 25.07.2023
Озеро даних уявляє собою центральне сховище, яке використовується для зберігання декількох типів даних у масштабі. Наприклад, в озері даних можна зберігати як неструктуровані, так і структуровані дані.
Озеро даних не вимагає попередньої роботи з даними. Ви можете просто інтегрувати та зберігати дані в міру їх надходження з різних джерел. Залежно від можливостей системи, що використовується, можна налаштувати введення даних у режимі реального часу.
Зазвичай, організації використовують озеро даних для зберігання даних для майбутнього аналізу або аналізу в реальному часі. Для цього часто потрібне використання інструментів та платформ аналітики, таких як Google BigQuery, Amazon Athena або Apache Spark.
Озеро даних може мати різні типи фізичної архітектури, оскільки воно може бути реалізоване з використанням безлічі різних технологій. Однак є три основні принципи, які відрізняють озеро даних від інших методів зберігання великих даних:
- Всі дані приймаються в озеро даних - воно приймає та архівує дані з декількох джерел, включаючи структуровані, неструктуровані, необроблені та оброблені дані.
- Дані зберігаються у вихідному вигляді – після отримання даних із джерела дані зберігаються неперетвореними або з мінімальною обробкою.
- Дані перетворюються на вимогу (on demand) - дані перетворюються та структуруються відповідно до вимог аналізу та запитів, що виконуються.
Більшість даних в озері даних неструктурована і не призначена для відповідей на конкретні питання, але вони зберігаються таким чином, щоб полегшити динамічні запити та аналіз.
Незалежно від того, як ви вирішите реалізувати озеро даних, такі можливості допоможуть вам підтримувати його працездатність і ефективно використовувати неструктуровані дані, які містяться в ньому:
- Класифікація та профілювання даних - озеро даних повинно дозволяти класифікувати дані за типами, змістом, сценаріями використання та можливими групами користувачів. Воно має бути оснащене технологією профілювання даних, що дозволяє отримати уявлення про якість даних.
- Узгодження - озеро даних має, по можливості, забезпечувати застосування узгоджених типів файлів та угод про імена.
- Доступ до даних - має бути стандартизований процес доступу до даних, які використовуються як людськими користувачами, так і інтегрованими системами, що дозволяє відстежувати доступ та використання даних.
- Каталогизація даних - озеро даних має містити каталог даних, що забезпечує пошук та вилучення даних відповідно до їх типу або сценарію використання.
- Захист даних - повинні бути передбачені засоби контролю безпеки, шифрування даних, автоматичного моніторингу, а також оповіщення про несанкціонований доступ до даних або підозрілих дій авторизованих користувачів.
- Управління даними - наявність чітких політик, доведених до відома всіх співробітників, що стосуються навігації та використання озера даних, забезпечення якості даних та етики використання конфіденційних даних.
Аналітика озера даних дозволяє виконувати аналіз великих обсягів даних на запит. Ви можете отримати цінну інформацію з даних, не вимагаючи складної інфраструктури для попередньої обробки та організації ваших даних.
Ось кілька поширених варіантів застосування аналітики озера даних:
- Інтерактивна аналітика – отримання конкретних висновків з даних безпосередньо з озера даних за допомогою високопродуктивного механізму запитів, наприклад Google BigQuery або Amazon Athena.
- Обробка великих даних - аналіз великих обсягів даних за допомогою таких інструментів як Spark або Hadoop.
- Аналітика в реальному часі - обробка потоків даних, що надходять в озеро даних в режимі, близькому до реального часу, з використанням таких інструментів обробки потоків, як Apache Kafka.
- Оперативна аналітика - пошук, фільтрація та візуалізація даних з журналів та оперативних даних, таких як журнали веб-аналітики або Інтернету речей (IoT), за допомогою таких інструментів, як Elasticsearch.
Сховище даних або озеро даних – що обрати?
Сховище даних - це сховище даних, які збираються та генеруються бізнес-додатками. Сховище даних застосовує до даних зумовлену схему перед їх зберіганням. Перед зберіганням даних у сховищі їх необхідно впорядкувати та систематизувати.
Сховище даних використовується для зберігання великих обсягів структурованих даних із виробничих систем, які необхідно регулярно аналізувати або використовувати для підготовки періодичних звітів. Сховища даних зазвичай є джерелом істини в організації, оскільки в них зберігаються впорядковані і класифіковані історичні дані.
Озеро даних зберігає дані багатьох джерел, включаючи неструктуровані джерела, такі як журнальні дані, датчики Інтернету речей (IoT) і стрічки соціальних мереж. Платформа озера даних - це, по суті, сукупність необроблених даних, що надходять з бізнес-операцій організації та інших джерел як внутрішніх, так і зовнішніх.
Дані в озері даних є вкрай неоднорідними й можуть вимагати додаткової обробки для того, щоб бути корисними, що робить їх непридатними для пересічного користувача бізнес-аналітики. Однак озеро даних може бути надзвичайно корисним для більш складних користувачів, таких як фахівці з обробки та аналізу даних та досвідчені аналітики даних.
Рекомендації Imperva для ефективного використання озера даних в організації:
Управління даними та контроль доступу
Озеро даних може створити серйозні проблеми з безпекою, оскільки містить багато різних типів даних, деякі з яких можуть бути конфіденційними або відповідати нормативним вимогам. Оскільки в ньому немає таблиць бази даних, права доступу більш рухливі та складніші у налаштуванні та повинні ґрунтуватися на конкретних об'єктах або визначеннях метаданих.
Однак, сьогодні цю проблему можна легко вирішити, й можна використовувати різні інструменти управління, щоб контролювати, хто має доступ до даних. Рішення для каталогізації даних дозволяють користувачам створювати каталог даних, визначаючи різні типи даних, а також елементи керування доступом та політики зберігання для кожного з них.
Зберігання кількох копій даних
Одна з основних причин впровадження озера даних полягає в тому, що воно зберігає неструктуровані дані та відокремлює зберігання від обчислень, що дозволяє зберігати великі обсяги даних за відносно невеликих інвестицій. Озеро даних зазвичай використовується зберігання як необроблених, так і оброблених даних. Часто виникає потреба зберегти історичні дані у вихідному форматі. На додаток до цих історичних даних є дані, які були оброблені і використовувалися в аналітичних робочих процесах. Ці дані також повинні бути збережені для подальшого аналізу та як основа для звітів та інформаційних панелей.
Озеро даних дозволяє зберігати кілька копій даних, кожна з яких може мати своє потенційне застосування.
Політика зберігання
Озеро даних зазвичай зберігає історичні дані, але жодні дані не повинні зберігатися вічно. Дані повинні бути видалені, коли вони більше не потрібні як для економії місця, так і згідно вимог стандартів відповідності, таких як GDPR ЄС, CCPA штату Каліфорнія або австралійський APP.
Повинен існувати зручний технічний метод для відокремлення даних, які ви хочете видалити, від даних, які хочете зберегти.
Рішення Imperva забезпечують моніторинг активності реляційних баз даних, сховищ даних та озера даних, генеруючи в режимі реального часу попередження про аномальну активність та порушення політик.
На додаток до безпеки озера даних Imperva захищає всі хмарні сховища даних, забезпечуючи відповідність нормативним вимогам та зберігаючи гнучкість та економічну ефективність інвестицій у хмару.
Можливості рішень Imperva:
- Захист хмарних даних (Cloud Data Security): Спростіть захист хмарних баз даних, щоб не відставати від DevOps. Рішення Imperva дозволяє користувачам хмарних сервісів швидко отримати видимість та контроль над хмарними даними.
- Безпека баз даних (Database Security): Imperva забезпечує аналітику, захист та реагування на всі ваші інформаційні активи, як локальні, так і хмарні, що дозволяє запобігти витоку даних та уникнути інцидентів, пов'язаних з порушенням нормативних вимог. Інтеграція з будь-якою базою даних дозволяє отримати миттєвий огляд, впровадити універсальні політики та прискорити окупність.
- Аналіз ризику даних (Data Risk Analysis): Автоматизуйте виявлення невідповідного, ризикованого чи зловмисного доступу до даних у всіх ваших базах даних у масштабі підприємства, щоб прискорити відновлення.
Звертайтеся за персональною консультацією стосовно рішень Imperva до фахівців Softprom.
Softprom - Value Added Distributor Imperva.