...

Address
304 North Cardinal St.
Dorchester Center, MA 02124

Work Hours
Monday to Friday: 7AM - 7PM
Weekend: 10AM - 5PM

On-premises vs. cloud data warehouses

Almacenes de datos locales versus almacenes de datos en la nube: pros y contras

Los almacenes de datos se están implementando cada vez más en la nube. Pero tanto los almacenes de datos locales como los de la nube tienen ventajas y desventajas que considerar, como se explica aquí.

Los almacenes de datos se están implementando cada vez más en la nube. Pero tanto los almacenes de datos locales como los de la nube tienen ventajas y desventajas que considerar, como se explica aquí.

Los almacenes de datos son ampliamente utilizados por organizaciones de todos los tamaños para ingerir, almacenar y procesar grandes cantidades de datos para aplicaciones de análisis y BI. Surgieron en la década de 1990 y son una tecnología madura y convencional. Sin embargo, hoy en día, una de las grandes decisiones para una organización que busca implementar un almacén de datos es si colocarlo en las instalaciones o en la nube.

Al igual que con otros tipos de sistemas de TI, un almacén de datos en la nube ofrece varios beneficios sobre una instalación local, por ejemplo, fácil escalabilidad, más flexibilidad y menos trabajo de gestión rutinario para los administradores de bases de datos (DBA). Pero cada organización tiene su propio conjunto de necesidades y prioridades, lo que justifica una comparación de las opciones en la nube con las locales antes de planificar la implementación de un almacén de datos . Para ayudar con eso, veamos más de cerca los dos enfoques y sus ventajas y desventajas.

Arquitecturas de almacén de datos tradicionales frente a arquitecturas de almacenamiento de datos en la nube

Un entorno informático de alta calidad (servidor, sistema operativo, almacenamiento y base de datos incluidos) es fundamental para el éxito de cualquier aplicación que utilice una gran cantidad de datos. Esto definitivamente se aplica al almacenamiento de datos: para seleccionar la mejor plataforma de almacenamiento de datos para su organización, los equipos de administración de datos y TI deben evaluar los entornos completos del sistema, no solo el software de base de datos en el centro de ellos.

Una arquitectura de almacén de datos tradicional consta de los tres niveles siguientes:

  • un nivel inferior con un servidor de base de datos que alberga el propio almacén de datos;
  • uno intermedio donde los datos se procesan para su análisis, comúnmente mediante un motor de procesamiento analítico en línea, u OLAP ; y
  • un nivel superior que sirve como capa de presentación e interfaz de usuario para herramientas de análisis y BI.

Un almacén de datos empresarial almacena datos de todas las operaciones comerciales de una organización en una plataforma única y centralizada; por otro lado, los data marts son sistemas de almacenamiento más pequeños que contienen subconjuntos de datos para departamentos, unidades de negocios o grupos de usuarios particulares. Ambos suelen incluirse en una arquitectura de almacén de datos, y los siguientes son los dos métodos principales para diseñar uno, una elección a la que a menudo se hace referencia abreviadamente como Inmon vs. Kimball.

  • Enfoque de arriba hacia abajo. Creado por el científico informático, autor y ejecutivo de proveedores Bill Inmon, este método comienza con el almacén de datos empresarial y luego utiliza los conjuntos de datos almacenados en él para configurar varios mercados de datos.
  • Enfoque de abajo hacia arriba. El consultor Ralph Kimball cambió las cosas al desarrollar este método alternativo, en el que se construyen mercados de datos separados y luego se integran para producir un almacén de datos empresarial.

Utilizando esos conceptos tradicionales, la nube permite a los proveedores de almacenes de datos personalizar sus arquitecturas de hardware y software subyacentes para satisfacer diferentes necesidades de procesamiento. A continuación se muestran algunos ejemplos destacados de ofertas de almacenamiento de datos en la nube, enumerados en orden alfabético.

Base de datos autónoma para análisis y almacenamiento de datosEl sistema insignia de Oracle para análisis de datos en la nube está construido sobre Oracle Database y la plataforma informática Oracle Exadata. El sistema está disponible en implementaciones de infraestructura compartida o dedicada y también se puede instalar localmente a través del servicio Cloud@Customer de Oracle. La opción de infraestructura compartida de Oracle es un servicio de nube más tradicional, mientras que la dedicada ofrece a los clientes un entorno totalmente privado en la nube pública con sus propios recursos de computación, almacenamiento, red y base de datos.

Análisis de Azure SynapseEl servicio de análisis en la nube de Microsoft ofrece modelos de recursos dedicados y sin servidor y utiliza un motor de procesamiento SQL distribuido llamado Synapse SQL para ejecutar consultas de almacén de datos. También incluye Apache Spark como motor de análisis de big data y Azure Data Lake Storage Gen2 como almacén de datos. La plataforma se basa en una arquitectura de procesamiento paralelo masivo (MPP) escalable que distribuye cargas de trabajo entre múltiples nodos y separa los recursos informáticos del almacenamiento, lo que permite a los clientes escalar cada uno de ellos de forma independiente.

Gran consulta. Google BigQuery es un almacén de datos en la nube sin servidor con un motor de análisis MPP distribuido basado en SQL que almacena la mayor parte de sus datos en tablas. Cada columna de la tabla se almacena por separado, lo que permite a BigQuery escanear columnas individuales en un conjunto de datos completo de manera más eficiente que el almacenamiento tradicional basado en filas. BigQuery utiliza particiones y agrupaciones en clústeres para proporcionar acceso a datos de alto rendimiento. También admite implementaciones de almacenes de datos en múltiples nubes e incluye motores para aprendizaje automático, modelado predictivo y análisis geoespacial.

Desplazamiento al rojo. Amazon Redshift de AWS utiliza clústeres para aprovisionar uno o más nodos informáticos para ejecutar aplicaciones de análisis en almacenes de datos, bases de datos operativas y lagos de datos. AWS ofrece una opción sin servidor, un módulo de aprendizaje automático e integración nativa con una variedad de sus otros servicios en la nube, incluidos BI, integración de datos y herramientas de procesamiento de big data. Al igual que BigQuery, Redshift almacena cada columna de la tabla por separado; también proporciona una función de optimización de tablas automatizada para aumentar la velocidad de consulta en grupos mejorando el diseño físico de los conjuntos de datos.

Copo de nieve. A diferencia de la mayoría de sus competidores, el sistema de almacenamiento de datos de Snowflake se creó para ejecutarse en las plataformas AWS, Azure y Google Cloud. Snowflake describe su entorno de procesamiento como una arquitectura híbrida de disco compartido/nada compartido. El producto utiliza un repositorio central para compartir datos en todo el entorno y múltiples clústeres informáticos MPP para separar cargas de trabajo, y cada nodo de un clúster almacena una parte de un conjunto de datos localmente. Snowflake, que se ofrece como un servicio totalmente administrado, también admite cargas de trabajo de lago de datos, ingeniería de datos y ciencia de datos.

Pros y contras de los almacenes de datos en la nube frente a los locales

Un gran desafío para los almacenes de datos locales es la necesidad de implementar un entorno informático de hardware y software que cumpla con los requisitos de procesamiento y arquitectura de datos de la organización . El equipo de soporte de hardware, los administradores de sistemas y los administradores de bases de datos trabajan junto con el proveedor de software de almacenamiento de datos para crear el entorno, que normalmente es complejo y requiere la asignación de un equipo independiente para la administración y el soporte. Además, ampliar los sistemas locales para satisfacer el creciente almacenamiento de datos y el crecimiento de las cargas de trabajo puede resultar costoso y llevar mucho tiempo.

Pero los almacenes de datos en la nube también pueden plantear algunos desafíos para las organizaciones y requerir cambios en los procesos de TI. A continuación se ofrecen más detalles sobre las ventajas y desventajas de los dos enfoques en algunas áreas clave.

1. Costos

Está claro que el costo de implementar y respaldar un sistema de almacenamiento de datos en un centro de datos local generalmente será mucho más alto que alquilar uno a un proveedor de nube con pagos basados ​​en el uso. Esto es especialmente cierto con un entorno de almacén de datos como servicio (DWaaS) totalmente administrado por el proveedor. Pero la comparación de costos en la nube versus en las instalaciones no es tan simple para las organizaciones que ya tienen inversiones en centros de datos existentes.

El punto de venta inicial de las plataformas en la nube fue la capacidad de reducir los costos de TI. Pero las organizaciones que implementan aplicaciones en la nube rápidamente se dieron cuenta de que el ahorro de costos no siempre es una de sus ventajas . Es posible que las organizaciones no tengan que comprar servidores y software para sistemas de almacenamiento de datos en la nube, pero el costo de utilizar recursos informáticos, de memoria y de disco de un proveedor de la nube puede aumentar, especialmente si las cargas de trabajo del almacenamiento de datos aumentan inesperadamente.

Por supuesto, los costos del sistema no son el único gasto que los equipos de TI deben considerar cuando comparan plataformas locales y en la nube. También se deben tener en cuenta los costos laborales necesarios para mantener los entornos. Para los locales, esto incluye soporte administrativo para el hardware informático, el sistema operativo, el almacenamiento en disco y la base de datos. Los almacenes de datos en la nube no eliminan por completo los costos de soporte; incluso en un entorno DWaaS, los DBA todavía tienen tareas administrativas que manejar, por ejemplo. Pero esos costos suelen ser mucho más bajos en la nube.

También existen otros costos que a menudo se pasan por alto. Las organizaciones que implementan almacenes de datos en la nube pública no incurren en costos directos por certificaciones de cumplimiento normativo, controles ambientales del centro de datos, consumo de energía, configuraciones de alta disponibilidad y recuperación ante desastres, ni mejoras del sistema. Esos elementos están integrados en el costo del servicio en la nube y algunos pueden resultar en tarifas de uso más altas para una organización, pero el proveedor paga la cuenta por ellos.

2. Nuevas características y funcionalidades

El mercado del almacenamiento de datos en la nube es muy disputado, lo que obliga a todos los proveedores a maximizar sus conjuntos de funciones. La innovación continua y la integración de nuevas características en un esfuerzo por diferenciar sus productos de los de la competencia es un requisito absoluto. Como resultado, los usuarios del almacén de datos en la nube pueden aprovechar un flujo constante de nuevas características y funcionalidades.

Además, debido a que los proveedores de nube asumen la responsabilidad de todo el sistema de almacenamiento de datos, sus clientes pueden beneficiarse de mejoras que van desde la infraestructura informática subyacente hasta el propio software de almacenamiento de datos. Actualizar sistemas e implementar nuevas versiones de software es más complicado para los usuarios locales que administran sus propios entornos. Es posible que las nuevas funciones tampoco estén disponibles tan rápidamente en el software de almacenamiento de datos local como lo hacen en los servicios en la nube que los proveedores pueden actualizar de forma continua.

Otra ventaja potencial en la nube: para complementar sus capacidades centrales de almacenamiento de datos para usos básicos de BI y generación de informes, los principales proveedores de nube mencionados anteriormente y otros competidores ofrecen tecnologías y características adicionales que respaldan lagos de datos, aprendizaje automático, análisis de big data y canalización de datos. desarrollo y otras funciones para aplicaciones de análisis avanzado.

3. Escalabilidad

La escalabilidad del sistema ayuda a los equipos de TI a enfrentar el crecimiento de las cargas de trabajo de procesamiento. Cuando el ajuste del rendimiento y la actualización de las configuraciones de software ya no tienen un impacto positivo en el rendimiento del sistema, se hace necesario agregar disco, memoria y capacidad informática. La escalabilidad también es importante para los almacenes de datos a fin de adaptarse al crecimiento de los datos cuando se agregan nuevos sistemas de origen.

Pero escalar una plataforma de almacenamiento de datos local puede ser una verdadera tarea. Si el servidor tiene la capacidad de aumentar la CPU o la memoria, un administrador de sistemas debe abrir el chasis y reemplazar o agregar componentes. Para los servidores que no tienen capacidad adicional disponible, es necesario actualizar el hardware a un sistema más grande. Los entornos en clúster proporcionan escalamiento horizontal que permite agregar más servidores, pero los costos de hardware, software y administración pueden volverse excesivos rápidamente.

Uno de los puntos clave de venta de las plataformas en la nube es su facilidad de escalabilidad. Por ejemplo, los usuarios de Amazon Redshift pueden agregar rápidamente nodos a su entorno para obtener un mejor rendimiento y más almacenamiento. La base de datos autónoma de Oracle va un paso más allá al ofrecer una función de escalado automático, que puede aumentar automáticamente los recursos informáticos o de almacenamiento. AWS y Snowflake proporcionan funciones de escalamiento de simultaneidad similares que pueden agregar automáticamente capacidad de clúster cuando aumentan las cargas de trabajo.

4. Monitoreo y ajuste del desempeño

Para optimizar el rendimiento de un almacén de datos , las plataformas locales a menudo requieren que los equipos de TI utilicen herramientas independientes para monitorear el hardware, el sistema operativo y la base de datos. Debido a que los proveedores de nube pueden personalizar sus herramientas de monitoreo del desempeño y utilidades de asesoría para su infraestructura de almacenamiento de datos, las herramientas a menudo brindan información más completa que las locales.

Sin embargo, además de los desafíos estándar de ajuste del rendimiento de las bases de datos, las plataformas en la nube añaden otra dimensión al monitoreo del rendimiento y la resolución de problemas. Transferir datos dentro y fuera de un sistema de almacenamiento de datos en la nube puede ser un desafío, especialmente si existen grandes volúmenes de datos y limitaciones de tiempo estrictas. Además, las organizaciones que implementan almacenes de datos en plataformas en la nube no son totalmente responsables del rendimiento. Cuando el rendimiento del sistema es sospechoso y el escalamiento no es una opción o no soluciona el problema, una organización tendrá que trabajar con su proveedor de nube para identificar la causa raíz.

Peor aún, cuando los recursos se utilizan en exceso, los sistemas de almacenamiento de datos en la nube pueden detener arbitrariamente sus cargas de trabajo. Solo se necesitan unas pocas consultas mal ajustadas para aumentar el consumo de recursos en cualquier entorno de base de datos, local o en la nube. Pero los aumentos sostenidos en la utilización de recursos de la nube pueden hacer que su organización se vea obligada a actualizar a un nivel de rendimiento superior.  

5. Control de gestión

En entornos locales, el departamento de TI tiene control total (y responsabilidad total) de sus sistemas informáticos. Para los almacenes de datos en la nube, comparte esas responsabilidades con el proveedor. Especialmente en un entorno DWaaS totalmente administrado, renunciará a parte de la propiedad de administrar la plataforma de almacenamiento de datos.

Algunos departamentos de TI verán esto como un beneficio, otros como un riesgo, pero la mayoría probablemente lo verá como una combinación de riesgo y recompensa. Todos los proveedores líderes de almacenamiento de datos en la nube ofrecen acuerdos de nivel de servicio que garantizan porcentajes mínimos de tiempo de actividad, lo que debería ayudar a reducir las preocupaciones sobre la pérdida de control sobre los sistemas.

6. Seguridad

Del mismo modo, las organizaciones que implementan almacenes de datos locales son responsables de proteger todo el entorno, desde la infraestructura de hardware hasta la pila de software. Sin embargo, en la nube las responsabilidades de seguridad se comparten con el proveedor. Es importante comprender que su organización no entrega el 100 % de la responsabilidad de la seguridad al proveedor. Según el modelo de responsabilidad compartida para la seguridad en la nube, el cliente aún necesita manejar algunos aspectos de la seguridad de un entorno de almacenamiento de datos.

La forma en que se dividen las responsabilidades puede variar de un proveedor a otro. También depende de si una organización utiliza un entorno DWaaS administrado o uno IaaS, en el que el proveedor normalmente es responsable únicamente de proteger la infraestructura de TI subyacente. Sin embargo, en general, el equipo de TI sigue siendo responsable de tareas como la seguridad de los datos, la clasificación de los datos, el control de acceso y la seguridad de los dispositivos terminales.

Las mejores prácticas de seguridad estándar se aplican tanto a las plataformas locales como a las de la nube, pero las organizaciones que utilizan sistemas de almacenamiento de datos en la nube pueden compartir los costos de proteger sus entornos con el proveedor. Poder aprovechar las capacidades de seguridad del proveedor es otra ventaja. Los proveedores de la nube tienen un incentivo obvio para garantizar que sus plataformas sean seguras e invierten mucho dinero en un esfuerzo por lograrlo.

7. Auditoría y cumplimiento normativo

Como se señaló anteriormente, uno de los beneficios de un almacén de datos en la nube es que el proveedor asume la responsabilidad de la arquitectura subyacente. Pero esto puede presentar un desafío para las organizaciones que necesitan cumplir con las reglas de cumplimiento regulatorio o de la industria , así como con los estándares internos.

Al igual que la seguridad, el cumplimiento es una responsabilidad compartida entre el cliente y el proveedor de la nube. Por lo general, el proveedor proporcionará informes y certificaciones de cumplimiento de auditores externos para HIPAA, GDPR y otros marcos de cumplimiento. Pero una organización debe trabajar con el proveedor para recopilar la evidencia de respaldo requerida para verificar que un sistema de almacenamiento de datos cumple con los marcos aplicables, según las necesidades de auditoría específicas de la organización.

Aunque el uso de la nube puede hacer que sea más lento encontrar la evidencia que necesita, trasladar algunos de los costos del cumplimiento normativo a su proveedor de nube debería compensar las molestias.

Leave a Reply

Your email address will not be published. Required fields are marked *

Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.