Big Data Analytics-workloads: uitdagingen en oplossingen

Het aantal analytische workloads is de afgelopen jaren aanzienlijk toegenomen, aangezien meer organisaties dan ooit enorme hoeveelheden gegevens verzamelen uit oneindige bronnen en vertrouwen op inzichten uit deze gegevens om concurrentievoordeel te behalen.

Deze analyses omvatten gebeurtenisregistratie en analyse, gebruikersgedrag, IoT, statistische analyse, complexe SQL en datamining. Daarnaast zijn er recentelijk nieuwe analysemethoden ontstaan, waaronder Hadoop MapReduce, data lake-architectuur, datavirtualisatie, partitionering, etc.

De grootste uitdaging is dat de meeste analyseworkloads onvoorspelbaar zijn en strenge prestatieniveaus vereisen tijdens het uitvoeren. Om aan deze prestatie-eisen te voldoen, wenden veel dataplatformteams zich tot het Enterprise Data Warehouse (EDW), dat zowel gegevensverplaatsing als gegevensvoorbereiding en -modellering vereist.

  

Wat zijn Big Data Analytics-workloads?

Big data-analyse is het proces van het onderzoeken van grote, complexe en multidimensionale datasets door het gebruik van geavanceerde analytische technieken. Deze datasets kunnen ongestructureerde, gestructureerde en semi-gestructureerde data uit verschillende bronnen en formaten bevatten.

De unieke vraag die analytische verwerking stelt aan moderne informatieverwerkingssystemen staat bekend als de analytische werklast. De systemen die zijn toegewezen om de werklast af te handelen, ervaren vaak sterke ontwerp- en implementatieimplicaties.

Big Data Analytics Workload-uitdagingen

Voordat u een analyse-infrastructuur bouwt, selecteert of implementeert, moet u de fundamentele uitdagingen en vereisten van een analyse-workload begrijpen.

Grote hoeveelheden analyse-workloads beheren

Er is geen specifieke drempel die een dataset groot maakt; het is echter redelijk om te zeggen dat gegevensvolumes meestal worden geteld in TB. Toepassingen zoals webanalyse, fraudedetectie en beslissingsondersteuning omvatten vaak petabytes aan gegevens. Statistieken die het gegevensvolume vergroten, zijn onder meer:

Rijnummers: een groot aantal rijen in een tabel verhoogt de analytische werkbelasting. Bij het ontleden van miljarden rijen wordt elke inefficiëntie of overhead kostbaar. Dimensionaliteit: Tabellen bevatten vaak honderden kolommen. Aangezien grotere rijen meer opslag- en verwerkingsruimte in beslag nemen, neemt de complexiteit van de werkbelasting toe naarmate de kolommen toenemen. Redundante opslag – Opslag van indexen en andere metadata is ontworpen om het seriële en selectieve ophalen van gegevens in het Database Management System (DBMS) te vereenvoudigen.

Complexiteit van het datamodel

Grote hoeveelheden gegevens vergroten de behoefte aan efficiënte en geoptimaliseerde verwerking. De combinatie van grote volumes met complexe datastructuren kan onpraktische verwerkingseisen stellen. Big data omvat doorgaans verschillende dimensies:

Complexiteit van het data-object: De representatie van de data is meestal verdeeld over meerdere data-objecten. Het verwerkingsplatform moet die objecten tijdens runtime “aansluiten” of combineren. Bijgevolg nemen de omvang en complexiteit van de resulterende verwerking toe naarmate het aantal relaties toeneemt. Gegevensdiversiteit: analytische opslagplaatsen komen vaak veel verschillende stijlen en soorten gegevens tegen terwijl ze gegevens uit alternatieve bronnen opnemen. Het opnemen van data uit meerdere bronnen zorgt voor een extra piekbelasting op het verwerkingssysteem.

complexe informatica

Analytische verwerking omvat vaak statistische analyse en aanvullende geavanceerde rekenmethoden. Analysesystemen passen een breed scala aan statistische en wiskundige bewerkingen toe om patronen en inzichten uit onbewerkte gegevens te halen. Computationele complexiteit verhoogt de werkbelasting op de serverlaag en de hoeveelheid werk die wordt gedaan tijdens een bepaald queryverzoek.

Temporele data-staging

Analytische operaties verplaatsen tussentijdse datasets en de resultaten van geavanceerde modellerings- en analytische methoden naar het staging-gebied of de caching-laag. Analysesystemen waarop deze methoden worden uitgevoerd, moeten de mogelijkheid hebben om intermediaire gegevens met hoge snelheden en grote volumes te integreren, te schrijven en op te halen. Deze bewerkingen verhogen de verwerkingsvereisten van de gerelateerde vragen aanzienlijk.

Wat zijn de oplossingen?

Bedrijven kunnen datavirtualisatieplatforms gebruiken met een intelligente indexeringslaag die rechtstreeks op hun datameer draait. Deze tools kunnen de analytische prestaties verbeteren door inzicht te geven in workloads en toegang tot controles. De tools kunnen ook automatisering op werklastniveau bieden om prijs en prestaties te optimaliseren.

De meest geavanceerde virtualisatieoplossingen maken het mogelijk om het algemene gedrag van de werklast te identificeren door de vragen per gebruiker te groeperen. Door het resourcegebruik van volledige workloads in kaart te brengen, kunnen bedrijven prioriteiten stellen voor resources en de kosten per workload beheersen. Ideale prioritering van query’s moet correleren met zakelijke prioriteiten.

Heb je hier enig idee van? Laat het ons hieronder weten in de comments of neem de discussie mee naar onze Twitter of Facebook.

Aanbevelingen van de redactie:

0 Shares:
You May Also Like