martedì 15 febbraio 2011

Key Performance Indicators



I KPI ovvero gli indicatori chiave di prestazione sono un indice che monitora l'andamento di un processo aziendale. In sostanza aiutano a misurare appunto e a definire i progressi compiuti per raggiungere gli obiettivi della propria organizzazione.

Può essere principalmente di quattro tipi:

- indicatori generali: misurano il volume del lavoro del processo;

- indicatori di qualità: valutano la qualità dell'output di processo, in base a determinati standard;

- indicatori di costo;

- indicatori di servizio, o di tempo: misurano il tempo di risposta, a partire dall'avvio del processo fino alla sua conclusione.

Solitamente i KPI vengono determinati da un analista, che esegue un'analisi top-down dei processi, a partire quindi dall'esigenza dei vertici oppure dall'analisi del problema.

La loro costruzione e il loro utilizzo spesso comporta la realizzazione di altre operazioni come la ponderazione e la normalizzazione.

La ponderazione è un processo che permette di valorizzare alcuni aspetti di un fenomeno o di un insieme di dati, attraverso l'attribuzione di pesi.

La normalizzazione invece è un processo volto all'eliminazione delle ridondanze e di rischio di incoerenza del database attraverso la "decomposizione" dei concetti che costituiscono la relazione.

Non tutti i processi si prestano per essere analizzati con i KPI, e, in generale, si valuta questa opportunità con una scala di robustezza, che prende in considerazione, tra gli altri, la facilità di comprensione, il costo dell'informazione, la significatività, la strutturazione e la frequenza di cambiamento del dato.

Un altro modello di verifica della robustezza è dato dalla strutturazione di una particolare tabella, che mette in relazione i KPI con i CSF, aree di particolare rilevanza nel business.

Customer relationship management (CRM)


Il concetto di Customer relationship management è legato al concetto di fidelizzazione dei clienti. In un'impresa "Market-oriented" il mercato non è più rappresentato solo dal cliente ma dall'ambiente circostante, con il quale l'impresa deve stabilire relazioni durevoli di breve e lungo periodo, tenendo conto dei valori dell'individuo/cliente, della società e dell'ambiente. Quindi l'attenzione verso il cliente è cruciale e determinante, per questo bisogna deve pianificare e implementare apposite strategie per gestire una risorsa così importante.

Il CRM si spinge sostanzialmente secondo quattro direzioni differenti e separate:

  1. L'acquisizione di nuovi clienti (o "clienti potenziali")
  2. L'aumento delle relazioni con i clienti più importanti (o "clienti coltivabili")
  3. La fidelizzazione più longeva possibile dei clienti che hanno maggiori rapporti con l'impresa (definiti "clienti primo piano")
  4. La trasformazioni degli attuali clienti in procuratori, ossia consumatori che lodano l’azienda incoraggiando altre persone a rivolgersi alla stessa per i loro acquisti

Il CRM si articola comunemente in 3 tipologie:

  1. CRM operativo: soluzioni metodologiche e tecnologiche per automatizzare i processi di business che prevedono il contatto diretto con il cliente.
  2. CRM analitico: procedure e strumenti per migliorare la conoscenza del cliente attraverso l'estrazione di dati dal CRM operativo, la loro analisi e lo studio revisionale sui comportamenti dei clienti stessi.
  3. CRM collaborativo: metodologie e tecnologie integrate con gli strumenti di comunicazione (telefono, fax, e-mail, ecc.) per gestire il contatto con il cliente.

L'errore più comune in cui ci si imbatte quando si parla di Customer Relationship Management è quello di equiparare tale concetto a quello di un software. Il CRM non è una semplice questione di marketing né di sistemi informatici, bensì si avvale in maniera sempre più massiccia, di strumenti informatici o comunque automatizzati, per implementare il management. Il CRM è un concetto strettamente legato alla strategia, alla comunicazione, all'integrazione tra i processi aziendali, alle persone ed alla cultura, che pone il cliente al centro dell'attenzione sia nel caso del business-to-business sia in quello del business-to-consumer.

Le applicazioni CRM servono a tenersi in contatto con la clientela, a inserire le loro informazioni nel database e a fornire loro modalità per interagire in modo che tali interazioni possano essere registrate e analizzate.

Prima di seguire la strada del CRM ogni azienda deve essere consapevole che:

  • bisogna investire prima in strategia, organizzazione e comunicazione, solo dopo nella tecnologia. La scelta del software non ha alcun effetto sulla probabilità di successo. Ciò non implica che i software siano tutti uguali, ma significa solo che nessun software porterà al successo un progetto sbagliato.
  • il CRM è adatto sia a quelle aziende che cercano un Return on investment (ROI) veloce sia a quelle che curano il processo di fidelizzazione e l'aumento del Lifetime value (LTV) dei clienti che richiede del tempo.

Reporting e Datamining

Reporting

La reportistica ci permette di rappresentare in modo sintetico lo stato di un'azienda.

I dati grezzi contenuti ed archiviati correttamente da un’azienda danno vita a degli output (attraverso degli appositi software) chiamati report. Il report è una relazione aziendale, un testo informativo di facile lettura, all’interno del quale sono presenti una serie di indicazioni tecniche o dati statistici. Queste informazioni sono utili per avere una visione aggiornata e continua di un’organizzazione e per intervenire su eventuali criticità riscontrate nella lettura dello stesso.

Non vi è una metodologia unica per la redazione di un report, ma esistono delle piccole accortezze da utilizzare nella scrittura o impostazione dello stesso:

  • adottare un linguaggio semplice ed efficace;
  • adottare un carattere che faciliti la lettura, evitando grandezze inferiori a 12;
  • utilizzare la formattazione speciale (grassetto, corsivo e sottolineato) solo quando strettamente necessario (parole chiave, parti o frasi rilevanti);
  • qualora fossero previste tabelle, presentarle in maniera chiara e di facile lettura;
  • qualora fossero presenti grafici, renderli immediatamente leggibili, rendendo palese quanto
  • rilevato ed esplicitando in maniera logica il collegamento alla tabella da cui è stato estratto.


Data Mining

Il data mining ha per oggetto l'estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o semi-automatici) e l'utilizzazione industriale o operativa di questo sapere.

Quindi il data mining altro non è che l’analisi matematica eseguita su database di grandi dimensioni.

Ora il data mining ha una duplice valenza:

  • Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
  • Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi.

In entrambi i casi i concetti di informazione e di significato sono legati strettamente al dominio applicativo in cui si esegue data mining, in altre parole un dato può essere interessante o trascurabile a seconda del tipo di applicazione in cui si vuole operare.



domenica 13 febbraio 2011

Sistemi informativi

Il sistema informativo è costituito dall'insieme delle informazioni utilizzate, prodotte e trasformate da un'azienda durante l'esecuzione dei processi aziendali, dalle modalità in cui esse sono gestite e dalle risorse, sia umane, sia tecnologiche, coinvolte. Non va confuso con il sistema informatico, che indica la porzione di sistema informativo che fa uso di tecnologie informatiche e automazione.

In un ambiente sempre più dinamico come quello odierno, le imprese si trovano in una situazione di grande complessità gestionale e nell'esigenza di dover gestire quantità sempre maggiori di informazioni in modo sempre più efficace, efficiente e tempestivo per poter così rispondere ai continui cambiamenti del mercato e delle sue esigenze: prendere decisioni velocemente richiede la possibilità di disporre di tutte le informazioni necessarie in tempi rapidi, il che è possibile solo se l'impresa è dotata di un sistema informativo in grado di rendere disponibili le informazioni in tempo reale.

DDS

DDS (Sistema di Supporto Decisionale) è un software basato su sistema interattivo creato per aiutare i responsabili istituzionali a raccogliere informazioni utili a partire da una combinazione di dati grezzi, documenti, conoscenza personale, o modelli di business per identificare e risolvere i problemi e prendere decisioni. Il DSS si appoggia su dati in un database o una base di conoscenza, che aiutano l'utilizzatore a decidere meglio; esso non è solo un'applicazione informatica, perché contiene anche strumenti di Business Intelligence e di tecnologie dei Sistemi Esperti, quali modelli di supporto decisionale. Le tre componenti fondamentali di un DSS sono il database, il modello (contesto decisionale e i criteri degli utenti) e l' interfaccia utente. Gli utenti stessi sono componenti importanti dell'architettura.


RDBMS


Relational database management system cioè sistema per la gestione di basi di dati relazionali è database management system basato sul modello relazionale.

Oltre ai RDBMS esistono, anche se meno diffusi a livello commerciale, sistemi di gestione di basi di dati che implementano modelli dei dati alternativi a quello relazionale: gerarchico, reticolare e a oggetti.

DASHBOARD

Dashboard è un'applicazione per il sistema operativo Mac OS X sviluppata dalla Apple Inc., che consente di attivare con un tasto delle mini-applicazioni, chiamate widget, quando servono, e successivamente di farle sparire dal desktop quando non servono più. Può essere pensato come un livello semitrasparente al desktop. I widget sono scritti utilizzando i linguaggi HTML, CSS e Javascript.

ERP

Enterprise Resource Planning letteralmente pianificazione delle risorse d'impresa.

Si tratta di un sistema di gestione, chiamato in informatica sistema informativo, che integra tutti i processi di business rilevanti di un'azienda.

Con l'aumento della popolarità dell'ERP e la riduzione dei costi per l'ICT (Information and Communication Technology), si sono sviluppate applicazioni che aiutano i business manager ad implementare questa metodologia nelle attività di business come: controllo di inventari, tracciamento degli ordini, servizi per i clienti, finanza e risorse umane.

La prima versione dell'ERP metteva in collegamento diretto le aree di gestione contabile con l'area di gestione logistica (magazzini ed approvvigionamento); successivamente si sono iniziate ad implementare le relazioni interne anche con le aree di vendita, distribuzione, produzione, manutenzione impianti, gestione dei progetti ecc.

Da evidenziare anche la crescita, sullo scenario nazionale, di ERP tutti italiani che garantiscono la gestione completa degli adempimenti contabili e fiscali rispetto alla complessa normativa italiana; questi ERP a differenza dei leader dello scenario internazionale si calano in maniera più precisa nel "modus operandi" dell'azienda italiana con conseguente minore sforzo di adattamento alle procedure delle aziende che li adottano.

A tutt'oggi i moderni sistemi di ERP coprono tutte le aree che possano essere automatizzate e/o monitorate all'interno di un'azienda, permettendo così agli utilizzatori di operare in un contesto uniforme ed integrato, indipendentemente dall'area applicativa.

BUSINESS INTELLIGENCE

OLTP


Online Transaction Processing, è un insieme di tecniche software utilizzate per l'analisi dei dati. A differenza delle analisi con tecnologia OLAP (Online Analytical Processing), la tecnologia OLTP non prevede la creazione di banche dati separate, infatti le analisi vengono effettuate direttamente sui dati di esercizio. Questa soluzione permette di avere i dati sempre aggiornati ed evita fasi intermedie di trasformazione dei dati, tuttavia per la sua stessa natura non è facilmente applicabile in situazioni dove la quantità di dati da analizzare sia molto elevata ed in questi casi viene generalmente preferito l'utilizzo di analisi di tipo OLAP.


DATAWAREHOUSE E DATAMART

Data warehouse (o DW, o DWH) ovvero magazzino di dati, è un archivio informatico contenente i dati di un'organizzazione. I DW sono progettati per consentire di produrre facilmente relazioni ed analisi.

Vengono considerati componenti essenziali di un sistema Data warehouse anche gli strumenti per localizzare i dati, per estrarli, trasformarli e caricarli, come pure gli strumenti per gestire un dizionario dei dati. Le definizioni di DW considerano solitamente questo contesto ampio.

Una definizione ampliata comprende inoltre gli strumenti per gestire e recuperare i metadati e gli strumenti di business intelligence.

William H. Inmon, definisce i data warehouse come una raccolta di dati integrata, orientata al soggetto, variabile nel tempo e non volatile di supporto ai processi decisionali.

L'integrazione dei dati costituisce la principale caratteristica distintiva del DW rispetto ad altri sistemi di supporto alle decisioni. Secondo Inmon la raccolta di dati è:

  • Integrata: requisito fondamentale di un data warehouse è l'integrazione dei dati raccolti. Nel data warehouse confluiscono dati provenienti da più sistemi transazionali e da fonti esterne. L'obiettivo dell'integrazione può essere raggiunto percorrendo differenti strade: mediante l'utilizzo di metodi di codifica uniformi, mediante il perseguimento di una omogeneità semantica di tutte le variabili, mediante l'utilizzo delle stesse unità di misura;
  • Orientata al soggetto: il DW è orientato a temi aziendali specifici piuttosto che alle applicazioni o alle funzioni. In un DW i dati vengono archiviati in modo da essere facilmente letti o elaborati dagli utenti. L'obiettivo, quindi, non è più quello di minimizzare la ridondanza mediante la normalizzazione, ma quello di fornire dati organizzati in modo tale da favorire la produzione di informazioni. Si passa dalla progettazione per funzioni ad una modellazione dei dati che consenta una visione multidimensionale degli stessi;
  • Variabile nel tempo: i dati archiviati all'interno di un DW coprono un orizzonte temporale molto più esteso rispetto a quelli archiviati in un sistema operativo. Nel DW sono contenute una serie di informazioni relative alle aree di interesse che colgono la situazione relativa ad un determinato fenomeno in un determinato intervallo temporale piuttosto esteso. Ciò comporta che i dati contenuti in un DW siano aggiornati fino ad una certa data che, nella maggior parte dei casi, è antecedente a quella in cui l'utente interroga il sistema. Ciò differisce da quanto si verifica in un sistema transazionale, nel quale i dati corrispondono sempre ad una situazione aggiornata, solitamente incapace di fornire un quadro storico del fenomeno analizzato;
  • Non volatile: tale caratteristica indica la non modificabilità dei dati contenuti nel DW che consente accessi in sola lettura. Ciò comporta una semplicità di progettazione del database rispetto a quella di un'applicazione transazionale. In tale contesto non si considerano le possibili anomalie dovute agli aggiornamenti, né tanto meno si ricorre a strumenti complessi per gestire l'integrità referenziale o per bloccare record a cui possono accedere altri utenti in fase di aggiornamento.

Il data warehouse, descrive il processo di acquisizione, trasformazione e distribuzione di informazioni presenti all'interno o all'esterno delle aziende come supporto ai decision maker.

Esso si differenzia in modo sostanziale dai normali sistemi gestionali che, al contrario, hanno il compito di automatizzare le operazioni di routine.

Si può notare che la definizione di Inmon precedentemente citata sia indifferente rispetto alle caratteristiche architetturali dei sistemi transazionali e alla dislocazione fisica dei dati nei diversi database.

Se il focus viene posto sulla capacità di supportare il processo decisionale, il data warehouse può essere costruito secondo modalità differenti, che possono andare da una logica completamente accentrata a una logica completamente distribuita.

Data Mart

Un Data mart è un raccoglitore di dati specializzato in un particolare soggetto. Un Data mart contiene un'immagine dei dati che permette di formulare strategie sulla base degli andamenti passati.
Un Data mart è un sottoinsieme logico o fisico di un Data warehouse di maggiori dimensioni.

La differenza fondamentale consiste nel fatto che la creazione del Data warehouse avviene in maniera generalizzata per poi venire incontro alle specifiche esigenze, mentre il Data mart viene generalmente creato per venire incontro ad un'esigenza specifica e già determinata.

La necessità di creare un sistema separato per il Data mart rispetto al Data warehouse può riassumersi nelle seguenti motivazioni:

  • La necessità di utilizzare un diverso schema.
  • Migliorare le performance separando l'hardware dedicato.
  • Garantire una maggiore sicurezza dovendo autorizzare l'accesso ad un insieme minore di dati.

SISTEMI DI REPORTISTICA

I sistemi di reportistica sono un sottoambito dei Sistemi Informativi e per generalità di attribuzione anche dei Sistemi di Business Intelligence e ne costituiscono una estensione legata all'evoluzione informatica.

L'obiettivo di un Sistema di Reportistica all'interno dei Sistemi Informativi è generalmente quello di fornire documentazione analitica sulle attività di rilievo dell'organizzazione all'interno della quale è sviluppato: tale base informativa ha l'obiettivo di essere la più aggiornata e corretta secondo un'univoca prassi organizzativa e perciò non suscettibile di rilievi e incongruenze interpretative.

In particolare - e con più aderenza alle fondamenta logiche - i Sistemi di Reportistica vengono sviluppati in ambiti complessi che hanno previsto una soluzione di Datawarehouse. Una delle finalità di un processo di Datawarehouse è proprio quella di strutturare un contesto informativo hardware-software capace di rispondere alle esigenze dello scenario organizzativo nel senso più ampio.

In tali contesti si hanno:

  • Coerenza e consolidamento dei dati
  • Velocità nell’accesso alle informazioni
  • Supporto per l’analisi dei dati

Col crescere dei dati accumulati a disposizione delle organizzazioni, i vantaggi di un'elaborazione centralizzata dei documenti si rivelano nei tempi di esecuzione dei singoli documenti di reportistica: la particolare configurazione hardware delle postazioni su cui vengono - a livello fisico - ospitate le risorse del sistema permette l'ottimizzazione delle richieste al sistema e ne diminuisce il carico di attività rispetto alla situazione in cui singoli utenti ricercano informazioni sul sistema individualmente.

La standardizzazione dei documenti consente inoltre - secondo l'approccio all'informazione come bene aziendale - una miglior distribuzione delle conoscenze ed una visione dell'attività più conforme e concorde fra le varie funzioni dell'organizzazione, oltreché aggiornata secondo la disponibilità della fonte - o delle fonti - dei dati.

Un documento - una volta elaborato e generato - viene validato dalle strutture preposte e viene distribuito - ed aggiornato con cadenza periodica - agli appartenenti all'organizzazione che ne diventano i fruitori.I sistemi di Reportistica hanno favorito la nascita ed il proliferare di una categoria di prodotti per la cosiddetta 'Office Automation'. Tali prodotti - per lo sviluppo dei quali si sono fatte concorrenza le maggiori software-house mondiali - si sono nel corso degli anni evoluti ed hanno allargato il loro spettro di standardizzazione fino a divenire strumenti integrati con quelli propri della Business Intelligence e convergendo verso vere e proprie piattaforme di 'Desktop Automation'.

martedì 8 febbraio 2011

ETL


Extract, Transform, Load (ETL) si riferisce al processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi (data warehouse, data mart). I dati vengono estratti da sistemi sorgenti quali database transazionali (OLTP),comuni file di testo o da altri sistemi informatici (ad esempio, sistemi ERP o CRM). Subiscono quindi un processo di trasformazione, che consiste ad esempio nel selezionare solo quelli che sono di interesse per il sistema:
  1. Normalizzare i dati (per esempio eliminando i duplicati)
  2. Tradurre dati codificati
  3. Derivare nuovi dati calcolati
  4. Eseguire accoppiamenti (join) tra dati recuperati da differenti tabelle
  5. Raggruppare i dati

Tale trasformazione ha lo scopo di consolidare i dati (cioè rendere omogenei dati provenienti da sorgenti diverse) e di fare in modo che siano più aderenti alla logica di business del sistema di analisi per cui viene sviluppato. Vengono infine memorizzati nelle tabelle del sistema di sintesi (load). Occorre prestare particolare attenzione alla granularità delle informazioni da memorizzare nella struttura a valle. Queste infatti, non solo devono essere aggregate in modo da non avere un dettaglio eccessivo (cosa che potrebbe portare ad un decadimento delle prestazioni delle interrogazioni effettuate sul sistema), ma devono anche mantenere una granularità che consenta di effettuare le necessarie analisi sui dati.

Lo scopo principale di un’applicazione ETL (Estrazione, Trasformazione e Caricamento) è rendere disponibili i dati raccolti in azienda, provenienti dalle fonti più disparate, ai soggetti incaricati di assumere le decisioni, nella forma e secondo le tempistiche più idonee a supportare il processo decisionale. Il problema da risolvere è quello di integrare informazioni provenienti dalle fonti più disparate (sistemi ERP, mainframe, database relazionali e file di applicativi) e di muoverli tra i diversi ambienti presenti in azienda o, eventualmente, all’esterno di essa consentendo di indirizzare le scelte del management. I software di ETL permettono, infatti, di leggere i dati dalla loro fonte, ripulirli e formattarli in modo uniforme, e poi caricarli nel repository di destinazione per l'uso.

Gli ETL tuttavia, essendo strumenti "dedicati", forniscono risultati tangibili in termini di documentazione e di velocità di sviluppo, per contro necessitano di un gruppo di lavoro specializzato in questo "linguaggio" e quindi, in caso di turn over o licenziamento, la necessità di gestire anticipatamente la presenza in azienda di opportuni back-up con i relativi costi.


lunedì 7 febbraio 2011

OLAP Database Multidimensionali

OLAP (On-Line Analytical Processing), si intende una serie di software per l'analisi interattiva e veloce di grandi quantità di dati, che è possibile esaminare in modalità piuttosto complesse.Gli strumenti OLAP si differenziano dagli OLTP per il fatto che i primi hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile; i secondi, invece, hanno come obiettivo la garanzia di integrità e sicurezza delle transazioni.

L’ OLAP permette di effettuare una fotografia di informazioni in un determinato momento e trasformare queste singole informazioni in dati multidimensionali.

Eseguendo successivamente delle interrogazioni sui dati così strutturati è possibile ottenere risposte in tempi decisamente ridotti rispetto alle stesse operazioni effettuate su altre tipologie di database, anche perché il DB di un sistema OLTP non è stato studiato per consentire analisi articolate.

Un sistema OLAP permette di:

  • studiare una grande quantità di dati
  • vedere i dati da prospettive diverse
  • supportare i processi decisionali.

La logica su cui si basano le tecnologie dei Sistemi Informativi Direzionali come Data warehouse e OLAP (On-Line Analytical Processing) è frutto di un modello geometrico: il modello geometrico dell’ipercubo realizzato per la prima volta intorno agli anni settanta dal matematico Thomas Banchoff.
Un Cubo OLAP è una struttura per la memorizzazione di dati che permette di eseguire analisi in tempi rapidi, superando un limite dei database relazionali. I database relazionali non sono adatti ad elaborazioni istantanee e alla visualizzazione di una grande mole di dati. Al contrario, sono adatti all'elaborazione di record derivanti dall'esecuzione di transazioni note come OLTP.
Il Cubo OLAP può essere immaginato come un'estensione del foglio di lavoro a due dimensioni.


Il cubo OLAP ha da 3 a un arbitrario numero di caratteristiche o dimensioni di analisi. Questi metodi di analisi dei dati sono noti come dimensioni. Poiché in un cubo OLAP possono esserci in generale più di tre dimensioni, il termine più appropriato è quello di ipercubo. Consente di creare una reportistica come tabella pivot, l'inserimento di elementi e campi calcolati che rielaborano i dati di partenza, e operazioni di roll-up e drill-down, se le dimensioni sono organizzate all'interno di una gerarchia. Lo schema dei metadati del Cubo OLAP può essere creato a partire da uno schema a stella oppure da un insieme di tabelle di un database relazionale. Le misure sono ricavate dai singoli record presenti nella tabella dei fatti dello schema a stella, e le dimensioni sono dedotte dalle dimensioni delle singole tabelle. Le dimensioni di analisi sono tra loro indipendenti, per cui in un database relazionale le tabelle relative alle dimensioni di analisi sono collegate da relazioni molti-a-molti. Il dato numerico è un attributo della relazione fra queste tabelle.

giovedì 3 febbraio 2011

Statistica


La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni collettivi - può essere sintetizzata e quindi compresa.
Con il termine statistica, nel linguaggio di tutti i giorni, si indicano anche semplicemente i risultati numerici (le statistiche richiamate nei telegiornali, ad esempio: l'inflazione, il PIL etc.) di un processo di sintesi dei dati osservati.

La scienza statistica è comunemente suddivisa in due branche principali:
  • statistica descrittiva
  • statistica inferenziale.

La statistica descrittiva

La statistica descrittiva ha come scopo quello di sintetizzare i dati attraverso i suoi strumenti grafici (diagrammi a barre, a torta, istogrammi, boxplot) e indici (indicatori statistici, indicatori di posizione come la media, di variazione come la varianza e la concentrazione, di correlazione, ecc.) che descrivono gli aspetti salienti dei dati osservati, formando così il contenuto statistico.

La statistica inferenziale

La statistica inferenziale (inferenza vuol dire trarre delle conclusioni logiche a partire dai dati disponibili) ha come obiettivo, invece, quello di stabilire delle caratteristiche dei dati e dei comportamenti delle misure rilevate (variabili statistiche) con una possibilità di errore predeterminata. Le inferenze possono riguardare la natura teorica (la legge probabilistica) del fenomeno che si osserva. La conoscenza di questa natura permetterà poi di fare una previsione (si pensi, ad esempio, che quando si dice che "l'inflazione il prossimo anno avrà una certa entità" deriva dal fatto che esiste un modello dell'andamento dell'inflazione derivato da tecniche inferenziali). La statistica inferenziale è fortemente legata alla teoria della probabilità. La statistica inferenziale si suddivide poi in altri capitoli, di cui i più importanti sono la teoria della stima (stima puntuale e stima intervallare) e la verifica delle ipotesi.

La statistica esplorativa

Intorno al 1950, a questi due primi capitoli della statistica, se ne affiancò un terzo
  • la statistica esplorativa
In questo approccio i dati risultati da un esperimento vengono indagati attraverso metodi di sintesi (grafica e numerica) al fine di formulare ipotesi riguardo alla legge di probabilità sottesa al fenomeno studiato (questa è la differenziazione con la statistica inferenziale, in cui è sempre sottesa un'ipotesi riguardo alla legge di probabilità di cui i dati sono la controparte osservabile). Lo sviluppo naturale poi della statistica esplorativa è il data-mining (che agisce nel Data warehouse).
La ricerca esplorativa è mirata a:
  1. sviluppare una più precisa formulazione di un problema definito in via preliminare anche in modo piuttosto vago;
  2. formulare ipotesi sulle possibili variabili che agiscono nel contesto in cui si sviluppa il problema;
  3. stabilire priorità sulle questioni da affrontare e studiare;
  4. identificare e formulare le alternative di scelta possibili;
  5. raccogliere informazioni sul problema, che serviranno poi per condurre una ricerca di tipo conclusivo.
In sostanza gli scopi principali di questo tipo di ricerca consistono nella formulazione di congetture o affermazioni (ipotesi molto generali e non ancora formalizzate per un trattamento statistico) riguardo, ad esempio, alla relazione fra due o più variabili.
La formulazione di questo tipo di ipotesi spesso scaturisce dall’impiego di specifiche e prestabilite procedure, quali: la ricerca di fonti secondarie; indagini presso informatori-chiave (es. esperti); focus group, la compilazione di casi di studio.

Normalizzazione di database



Per eliminare definitivamente la ridondanza dalle relazioni e quindi dal database, si ricorre ad un processo di normalizzazione: si tratta di un procedimento di tipo graduale, che realizza un’ottimizzazione progressiva a partire da relazioni non normalizzate fino a raggiungere un certo livello di normalizzazione.

Questo processo si fonda su un semplice criterio: se una relazione presenta più concetti tra loro indipendenti, la si decompone in relazioni più piccole, una per ogni concetto. Questo tipo di processo non è sempre applicabile in tutte le tabelle, dato che in taluni casi potrebbe comportare una perdita d'informazioni.

Prima di entrare in merito alla normalizzazione è bene introdurre alcuni particolari concetti:

Definizione di ridondanza:

Si ha ridondanza dei dati ogni volta che vengono memorizzati inutilmente dei dati ripetuti.

Esempio:
Si supponga di disporre di una tabella in cui vengono registrati tutti gli acquisti di merci effettuati da un’impresa mercantile.

Acquisti (Cod_fornitore, Nome_fornitore, Codice_fiscale, Merce, Quantità)

In un caso come questo i dati di Fornitore e Codice_ficale vengono ripetuti inutilmente ogni volta che compare la registrazione di un acquisto. Si può ovviare ad una tale problema separando le informazioni ridondanti della tabella acquisti:

Acquisti (Merce, Cod_fornitore, Quantità)
Fornitori (Cod_fornitore, Nome_fornitore, Codice_fiscale)

In questo modo se gli acquisti effettuati da un certo fornitore compaiono mille volte, non dovremo per mille volte ripetere inutilmente l’informazione Nome_fornitore, Codice_fiscale.

Dipendenza funzionale:

Si ha dipendenza funzionale tra un attributo x e una chiave se i valori di x dipendono dai valori assunti dalla chiave, ovvero se si viene a determinare una relazione biunivoca tra i valori di x e i valori della chiave.

Esempio:
Stabiliamo che nella relazione di esempio abbiamo come chiave primaria Nome e Cognome.

ANAGRAFICA (Nome, Cognome, Indirizzo)

È evidente che Indirizzo è dipendente funzionalmente dalla chiave, ciò significa che per ogni persona corrisponde un indirizzo.

Dipendenza funzionale transitiva:

Si verifica una dipendenza funzionale transitiva quando un attributo J appartenente alla relazione r dipende da un attributo K della relazione che non è chiave candidata e che a sua volta dipende da un attributo A, che è chiave candidata o primaria.

Data la relazione: r (A, B, K, J) con A chiave primaria o candidata e avendo che: (il simbolo -> significa : ” determina il valore di:”): A -> K e K -> J si verifica una dipendenza transitiva tra A e J , in quanto J dipende da A tramite K.

Esempio:
Nella seguente relazione possiamo renderci conto come il valore di Collocazione dipenda da Genere e come il valore di Genere dipenda da Identificativo_videocassetta:

VIDEOCASSETTE (Identificativo_videocassetta, Genere, Collocazione)

Identificativo_videocassetta è la chiave primaria, essa identificando la videocassetta determina il Genere; le videocassette vengono collocate raggruppandole per genere.

Prima forma normale:

Una relazione si dice in prima forma normale (1NF) se e solo se tutti i suoi attributi sono valori atomici.
Ciò implica che né gli attributi, né i valori da questi assunti possono essere scomposti ulteriormente.

La relazione che segue non è in prima forma normale:

NOME

INDIRIZZO

----------------------------------------

--------------------------

Rossi & C. s.p.a

Via Verdi, 5 Roma

Martini s.n.c.

Via Centrale, 4 Milano

Paoli s.a.s.

P.za Libertà, 12 Pisa

...................................

...................................

in quanto l’attributo INDIRIZZO non è atomico: può essere suddiviso in Indirizzo e Città. La relazione si normalizza trasformandola in:

NOME

INDIRIZZO

CITTA'

-----------------------------

--------------------------

-----------

Rossi & C. s.p.a

Via Verdi, 5

Roma

Martini s.n.c.

Via Centrale, 4

Milano

Paoli s.a.s.

P.za Libertà, 12

Pisa

...................................

...................................

............

Seconda forma normale:

Una relazione è in seconda forma normale se e solo se soddisfa la 1NF e inoltre ciascun attributo che non fa parte della chiave è indipendente funzionalmente da una qualunque chiave candidata.

Per normalizzare la relazione è necessario estrarre la dipendenza funzionale riscontrata tra un sottoinsieme della chiave e l’attributo in questione, che darà luogo ad un’altra relazione.

Se applichiamo quanto detto alla relazione r (A, B, C, V, Z) con ABC chiave primaria, V dipende funzionale da ABC e Z dipende funzionale da AB, per normalizzare la relazione dobbiamo realizzare due nuove relazioni come segue:

r’ (A, B, C, V) e r’’ (A, B, Z)

Esempio:
Abbiamo una relazione che rappresenta delle scrivanie da ufficio prodotte da una azienda industriale, la chiave primaria è data Tipo_tavolo e Tipo_legno.

Tipo_tavolo

Tipo_ legno

Tipo_finitura

------------------------

-----------------------

-------------------------

Manager

Mogano

Ottone

Manager

Ciliegio

Acciaio inox

Montecarlo

Noce

Sughero

Montecarlo

Mogano

Ottone

Top

Noce

Sughero

Tipo_finitura è dipendente funzionalmente da un sottoinsieme della chiave primaria, ovvero da Tipo_legno, dunque la tabella non è in 2NF.
È possibile normalizzare la relazione trasformandola in:

Tipo_tavolo

Tipo_legno

----------------------------------------

-----------------------------

Manager

Mogano

Manager

Ciliegio

Montecarlo

Noce

Montecarlo

Mogano

Top

Noce

Tipo_legno

Tipo_finitura

------------------------------

---------------------------------------

Mogano

Ottone

Ciliegio

Acciaio inox

Noce

Sughero

Terza forma normale:

La terza forma normale ha come scopo l’eliminazione dalla relazione delle dipendenze funzionali transitive.

Una relazione è in terza forma normale (3NF) se, oltre ad essere in 2NF, ciascun attributo che non partecipa alla chiave non è transitivamente dipendente da una qualunque chiave candidata.