Foto con mac con schermo del film matrix

Cosa sono i Big Data. Facciamo chiarezza 

Cosa sono i Big Data. Facciamo chiarezza  700 460 Nicola Lapenta

La definizione completa con 5V

La definizione di big data si riferisce a un concetto preciso di set di dati. In questo articolo approfondirò la definizione più recente e completa che prende in considerazione tutte le componenti a cui fanno riferimento questa tipologia di dati.

Contenuti

Introduzione

Sempre più spesso le infrastrutture aziendali gestiscono dataset più grandi e complessi provenienti da diverse fonti. Le soluzioni convenzionali di business intelligence non sono progettate per gestire e analizzare questa tipologia di dati, e di conseguenza non sono in grado di massimizzarne il valore.

I big data sono un campo relativamente moderno della scienza dei dati. Esplora il modo in cui grandi set di dati possono essere scomposti e analizzati, al fine di estrarre sistematicamente approfondimenti e informazioni utili. Ma cosa si intende per big data?

Per comprendere il significato completo di questa tipologia di dati occorre approfondire le diverse componenti che definiscono i big data. Ovvero occorre conoscere  la definizione delle 5V che indicano: volume, varietà, velocità, veridicità e valore.

Immagine delle 5 V che definiscono i big data

Figura 1 Le 5V dei Big Data.

1 Volume

Il volume dei big data definisce la quantità di dati che viene prodotta. Oggi i dati sono generati in grande quantità e da varie fonti. Ad esempio dati non strutturati provenienti da feed social, clickstream su pagine Web, da app mobile o apparecchiature abilitate per sensori. Non è raro che alcune aziende acquisiscano decine di terabyte di dati al giorno. Per alcune possono essere anche di centinaia di petabyte.

Con volumi così alti, può essere difficile per le aziende gestirli con metodi convenzionali di business intelligence. Devono necessariamente implementare moderne infrastrutture e strumenti di business intelligence per acquisire, archiviare ed elaborare in modo efficace una quantità di dati senza precedenti, in alcuni casi anche in tempo reale.

A questo scopo lo sviluppo di framework open-source recenti come Apache Spark è essenziale per la crescita dei Big Data perché rendono i dati più economici da archiviare, più facili da gestire e rendono gli analytics rapidi e completi.

2 Varietà

I big data implicano anche l’elaborazione di diversi tipi di dati raccolti da più canali come sistemi informatici, reti, social media, smartphone. Generalmente sono classificati come dati strutturati, semi-strutturati e non strutturati. Mentre i dati strutturati sono quelli il cui formato, lunghezza e volume sono chiaramente definiti, i dati semistrutturati possono essere conformi solo parzialmente a un formato di dati specifico.

I dati non strutturati invece non sono organizzati e non sono conformi ai formati di dati tradizionali. I dati generati tramite i media digitali e i social media possono essere classificati come dati non strutturati, e quasi l’80% dei dati prodotti a livello globale, inclusi foto, video, dati mobili è di natura non strutturata.

3 Velocità

La velocità con cui con cui i dati vengono generati, raccolti e analizzati ha un impatto diretto sulle decisioni aziendali tempestive e accurate. I dati dovrebbero essere acquisiti il ​​più possibile in tempo reale per renderli disponibili nel momento giusto. Normalmente, la velocità più elevata dei dati si ottiene copiando direttamente i contenuti in memorie RAM (Random Access Memory) invece di scriverli su hard disk.

Spesso anche una quantità limitata di dati disponibili in tempo reale produce risultati aziendali migliori rispetto a un grande volume di dati che richiede molto tempo per essere acquisito e analizzato.

Immagine delle 3 V che definiscono i big data

4 Veridicità

Poiché i big data sono vasti e coinvolgono molte fonti di dati, esiste la possibilità che non tutti i dati raccolti siano di buona qualità o accurati. Pertanto, quando si elaborano grandi set di dati, è importante che la validità dei dati venga verificata prima di procedere e far affidamento sulle informazioni raccolte.

In altre parole è indispensabile attribuirne la validità e veridicità. La validità dei big data è la garanzia della qualità e della credibilità dei dati raccolti.

5 Valore

Molte aziende hanno investito nella creazione di un’infrastruttura di archiviazione e aggregazione dei dati nelle loro organizzazioni, non comprendendo però che questo non equivale a un valore aggiunto.

Sebbene oggi i dati vengano prodotti in grandi volumi, la semplice raccolta non è di alcuna utilità. Abbiamo bisogno di generare informazioni di business per aggiungere vero valore alle aziende. Nel contesto dei big data, il valore si riferisce alla misura in cui i dati hanno un impatto positivo sul business di un’azienda. È qui che entra in gioco l’analisi dei big data.

Ciò che conta è ciò che fai con i dati raccolti. Con l’aiuto dell’analisi dati avanzata,
è possibile ricavare informazioni utili dai dati raccolti. Queste intuizioni sono ciò che aggiunge vero valore al processo decisionale.

Un modo per garantire che il valore dei big data sia considerevole e che valga la pena investire tempo e risorse consiste nell’effettuare un’analisi costi/benefici. Calcolando il costo totale dell’elaborazione dei big data e confrontandolo con il ROI previsto dalle informazioni di business, le aziende possono decidere in modo efficace se l’analisi dei big data aggiungerà effettivamente valore al proprio business.

Immagine delle 2 V che definiscono i big data

Conclusioni

Sebbene i big data siano oggi una realtà e i volumi continuino a crescere, i suoi vantaggi sono solo all’inizio. Il cloud computing ha ampliato ulteriormente le possibilità offerte con una scalabilità davvero elastica in cui gli sviluppatori possono semplicemente creare cluster ad hoc per testare un sottoinsieme di dati.

Trovare valore nei big data non significa solo gestirli nella maniera migliore, che rappresenta comunque un grosso vantaggio. Si tratta di sviluppare un intero processo che richiede esperienza e analisi mirate che servono per porre le giuste domande e formulare ipotesi efficaci di business.

Per approfondire i servizi che offro per questa tipologia di dati contattami direttamente dalla sezione contatti. Sarà un piacere fornirti ulteriori informazioni utili per la tua attività.

Potrebbe interessarti leggere anche l’articolo Come i file Parquet fanno risparmiare tempo e risorse.

Pubblicato da: Nicola Lapenta

Fotografia iniziale: Markus SpiskeUnsplash

Fonti: Berkeley Executive Education, Wikipedia.