Cargas de trabajo de análisis de big data: desafíos y soluciones - Noticias, Gadgets, Android, Móviles, Descargas de Aplicaciones

La cantidad de cargas de trabajo de análisis ha aumentado significativamente en los últimos años, ya que más organizaciones que nunca están recopilando cantidades masivas de datos de fuentes infinitas y dependen de la información de estos datos para obtener una ventaja competitiva.

Estos análisis incluyen registros y análisis de eventos, comportamiento del usuario, IoT, análisis estadístico, SQL complejo y minería de datos. Además, recientemente han surgido nuevos métodos de análisis, que incluyen Hadoop MapReduce, arquitectura de lago de datos, virtualización de datos, particiones, etc.

El mayor desafío es que la mayoría de las cargas de trabajo analíticas son impredecibles y requieren niveles de rendimiento estrictos cuando se ejecutan. Para cumplir con estos requisitos de rendimiento, muchos equipos de plataformas de datos recurren al Enterprise Data Warehouse (EDW), que requiere mover los datos, así como la preparación y el modelado de datos.

¿Qué son las cargas de trabajo de Big Data Analytics?

El análisis de big data es el proceso de examinar conjuntos de datos grandes, complejos y multidimensionales mediante el uso de técnicas analíticas avanzadas. Estos conjuntos de datos pueden incluir datos no estructurados, estructurados y semiestructurados de diferentes fuentes y tamaños.

La demanda única que el procesamiento analítico impone a los sistemas modernos de procesamiento de información se conoce como carga de trabajo analítica. Los sistemas asignados para manejar la carga de trabajo a menudo experimentan implicaciones sólidas de diseño e implementación.

Desafíos de la carga de trabajo analítica de Big Data

Antes de construir, seleccionar o implementar una infraestructura analítica, es necesario comprender los desafíos y requisitos fundamentales de una carga de trabajo analítica.

Gestión de grandes volúmenes de cargas de trabajo de análisis

No existe un umbral específico que haga que un conjunto de datos sea grande; sin embargo, es justo decir que los volúmenes de datos tienden a contarse en TB. Las aplicaciones como el análisis web, la detección de fraudes y el soporte de decisiones a menudo involucran petabytes de datos. Las métricas que aumentan el volumen de datos incluyen

Números de fila: un gran número de filas de una tabla aumentará los requisitos de carga de trabajo analítica. Al analizar miles de millones de filas, cualquier ineficiencia o costo general se vuelve costoso. Dimensionalidad: las tablas a menudo contienen cientos de columnas. Dado que las filas más grandes consumen más espacio de almacenamiento y procesamiento, la complejidad de la carga de trabajo aumenta a medida que aumentan las columnas. Almacenamiento redundante: el almacenamiento de índices y otros metadatos está diseñado para simplificar la recuperación de datos en serie y selectiva en el Sistema de administración de bases de datos (DBMS).

Complejidad del modelo de datos

Los grandes volúmenes de datos aumentan la necesidad de un procesamiento eficiente y optimizado. La combinación de grandes volúmenes con estructuras de datos complejas puede generar demandas de procesamiento poco prácticas. Los macrodatos suelen incluir varias dimensiones:

Complejidad del objeto de datos: la representación de los datos generalmente se distribuye entre varios objetos de datos. La plataforma de procesamiento debe “unir” o combinar esos objetos en tiempo de ejecución. En consecuencia, la magnitud y complejidad del procesamiento resultante aumentan a medida que aumenta la cantidad de relaciones. Diversidad de datos: los repositorios analíticos a menudo encuentran muchos estilos y tipos de datos diferentes mientras ingieren datos de fuentes alternativas. La ingestión de datos de múltiples fuentes crea un pico de carga adicional en el sistema de procesamiento.

Computación compleja

El procesamiento analítico a menudo implica análisis estadístico y métodos computacionales avanzados adicionales. Los sistemas de análisis aplican una amplia gama de operaciones estadísticas y matemáticas para extraer patrones y conocimientos de los datos sin procesar. La complejidad computacional aumenta las cargas de trabajo en la capa del servidor y la cantidad de trabajo realizado durante una solicitud de consulta determinada.

Puesta en escena de datos temporales

Las operaciones analíticas mueven los conjuntos de datos intermedios y los resultados de los métodos analíticos y de modelado avanzados al área de preparación o la capa de almacenamiento en caché. Los sistemas de análisis que ejecutan estos métodos deben tener la capacidad de integrar, escribir y recuperar datos intermedios a altas velocidades y grandes volúmenes. Estas operaciones aumentan sustancialmente los requisitos de procesamiento de las consultas relacionadas.

¿Cuáles son las soluciones?

Las empresas pueden utilizar plataformas de virtualización de datos con una capa de indexación inteligente que se ejecuta directamente en su lago de datos. Estas herramientas pueden mejorar el rendimiento analítico al proporcionar visibilidad de las cargas de trabajo y acceso a los controles. Las herramientas también pueden proporcionar automatización a nivel de carga de trabajo para optimizar el precio y el rendimiento.

Las soluciones de virtualización más avanzadas permiten identificar el comportamiento general de la carga de trabajo agrupando las consultas por parte del usuario. Al mapear la utilización de recursos de cargas de trabajo completas, las empresas pueden priorizar los recursos y controlar los costos por carga de trabajo. La priorización de consultas ideal debe correlacionarse con las prioridades comerciales.

¿Tienes alguna idea sobre esto? Háganos saber más abajo en los comentarios o lleve la discusión a nuestro Twitter o Facebook.

Recomendaciones de los editores:

Tabla de Contenido