|
|
|
[ Partners ]
- ENKEY.iT
- DEVA.iT
- Enkey WebSite
- Skuole.net
- Motore di Ricerca
- Carbonia
- ICDweb
- Universo Facile
- Carbonia.net
- Recensioni Giochi
|
|
1. Introduzione
La Statistica è il ramo della matematica che studia i metodi per raccogliere, organizzare e analizzare un insieme di dati numerici, la cui variazione è influenzata da cause diverse, con lo scopo sia di descrivere le caratteristiche del fenomeno a cui i dati si riferiscono, sia di dedurre, ove possibile, le leggi generali che lo regolano.
La statistica si suddivide in statistica descrittiva o deduttiva e in statistica induttiva o inferenza statistica: nel primo caso si studiano solo i metodi per descrivere e analizzare le caratteristiche di un evento o di un gruppo di oggetti o individui, senza dedurre (inferire) conclusioni generali, valide per un gruppo più ampio; nel secondo, invece, si studiano le condizioni per cui le conclusioni dedotte dall'analisi statistica di un campione sono valide in casi più generali.
2. Storia
Il termine statistica fu probabilmente usato per la prima volta nel 1589 dall'italiano Gerolamo Ghilini, per indicare la branca delle scienze politiche che si occupava della descrizione dei vari aspetti caratteristici di uno stato; tuttavia i primi esempi di registrazioni statistiche possono essere rintracciati nelle più antiche forme di civiltà. Già prima del 3000 a.C. i babilonesi riportavano su tavolette d'argilla i dati sui raccolti agricoli o sul baratto e la vendita di prodotti. Gli egizi analizzavano le risorse umane e i materiali a loro disposizione prima di dare inizio alla costruzione delle piramidi. I libri biblici dei Numeri e delle Cronache sono, in parte, studi di carattere statistico: il primo contiene due censimenti distinti degli israeliti; il secondo descrive le risorse materiali di diverse tribù ebraiche. Simili registrazioni numeriche esistevano anche in Cina prima del 2000 a.C., e fin dal 594 a.C. gli antichi greci usavano i dati dei censimenti per organizzare il sistema di tassazione. Durante l'impero romano furono raccolti e analizzati dati esaurienti sulla popolazione, e sull'estensione e le ricchezze dei territori controllati. Nel corso del Medioevo, in Europa, vennero indetti ampi censimenti. Intorno al 760 i regnanti carolingi Pipino il Breve e Carlo Magno misero a punto le stime dei possedimenti ecclesiastici. Dopo la conquista dell'Inghilterra da parte dei Normanni, Guglielmo I ordinò un censimento che fu eseguito nel 1086; i dati raccolti furono registrati nel Domesday Book. La registrazione anagrafica di nascite e morti si inaugurò in Inghilterra all'inizio del XVI secolo, e nel 1662 fu pubblicato da John Graunt il primo studio sulla popolazione, Natural and political Observations made upon the Bills of Mortality (Osservazioni naturalistiche e politiche fatte sui bollettini dei decessi). Uno studio simile sui decessi eseguito nel 1691 a Breslau, in Germania, venne usato dall'astronomo inglese Edmund Halley come base per le prime tavole di mortalità. Nel XIX secolo, con l'applicazione del metodo scientifico a tutti i fenomeni riguardanti le scienze naturali e sociali, si riconobbe l'esigenza di limitare la registrazione delle informazioni ai soli dati numerici, al fine di evitare l'ambiguità delle descrizioni verbali.
Attualmente, la statistica fornisce validi metodi per raccogliere, correlare e analizzare dati di natura economica, politica, sociale, psicologica, biologica e fisica. L'attività di chi si occupa di statistica non è più limitata alla mera raccolta e tabulazione dei dati, ma consiste principalmente nella loro interpretazione, che viene condotta anche sulla base della teoria delle probabilità. I dati, infatti, possono essere opportunamente interpolati dalle leggi di distribuzione di probabilità, e i risultati di questa operazione possono essere usati a loro volta per calcoli statistici. La teoria delle probabilità interviene anche nella verifica della verosimiglianza delle conclusioni tratte mediante metodi statistici, e per indicare il tipo e il numero di informazioni necessarie all'analisi di un particolare problema. pharmaciesreview.com
3. Raccolta dei dati
Le "materie prime" della statistica sono i dati numerici ottenuti dalla misurazione o dal conteggio degli elementi in studio. Naturalmente esistono criteri e precauzioni da seguire nella fase di raccolta dei dati, in modo che sia garantita la completezza e l'accuratezza delle informazioni che ne conseguiranno.
Il primo problema che si presenta allo statistico è dunque di stabilire quali e quanti dati raccogliere. Per eseguire un censimento demografico, o anche per contare il numero di collisioni al secondo tra le molecole di un gas, infatti, sarebbe necessaria una rilevazione completa, tuttavia nella maggior parte dei casi vi sono ragioni pratiche che impediscono di raccogliere dati riguardanti l'intera "popolazione", ovvero l'insieme completo sul quale deve essere condotto lo studio statistico. Si presenta quindi il problema di determinare un campione "rappresentativo" di tutta la popolazione, in modo che dall'analisi di quest'ultimo si possano trarre conclusioni accettabili per insiemi più ampi.
Per dedurre una legge fisica, biologica o sociale, lo statistico può iniziare ad analizzare un determinato insieme di dati, e in seguito modificarlo in base ai risultati ottenuti. Ad esempio, nei primi studi sulla crescita delle popolazioni, le previsioni venivano condotte in base al confronto tra il numero di nascite e di morti in un dato periodo. Gli statistici, tuttavia, dovettero presto riconoscere che la crescita di una popolazione dipende dal numero delle nascite, a prescindere da quello delle morti, e in base a questa considerazione adeguarono il metodo di rilevazione dei dati, limitandosi a contare il numero di nascite annue su campioni di popolazione composti da 1000 individui ciascuno. Quando le previsioni ottenute con questo sistema si rivelarono sbagliate, si dovettero individuare altri fattori significativi che incidessero sulla crescita delle popolazioni. Poiché il numero di nascite possibili dipende dal numero di donne piuttosto che dal numero generico di individui della popolazione, e poiché il periodo in cui le donne possono avere figli è limitato a una parte ridotta della vita, si passò perciò a raccogliere i dati del numero di nascite annue su campioni di 1000 donne in età feconda. Infatti l'eccesso del numero di nascite rispetto a quello dei decessi fornisce solo una stima approssimata della crescita di una popolazione nel passato; il numero di nascite, raccolto su un campione di 1000 persone, dà invece una stima della proporzione di crescita della popolazione nel periodo stesso; il numero di nascite preso su un campione di 1000 donne in età feconda, infine, permette di predire la futura crescita della popolazione.
4. Tabulazione e presentazione dei dati
I dati statistici raccolti devono essere ordinati, tabulati e presentati in modo da permetterne un'analisi e un'interpretazione significativa. Ad esempio, supponiamo di voler studiare la distribuzione dei voti in centesimi di un esame in una classe di trenta studenti. Innanzitutto i voti devono essere riscritti in ordine crescente: 30, 35, 43, 52, 61, 65, 65, 65, 68, 70, 72, 72, 73, 75, 75, 76, 77, 78, 78, 80, 83, 85, 88, 88, 90, 91, 96, 97, 100, 100. Questa progressione permette di osservare immediatamente che il massimo è 100, il minimo è 30, e che l'intervallo compreso tra massimo e minimo, cioè il cosiddetto campo di variazione, è uguale a 70.
In un grafico delle frequenze cumulative, i voti vengono riportati sull'asse orizzontale, mentre sulla sinistra dell'asse verticale è riportato in modo cumulativo il numero di volte con cui ciascun voto ricorre, e sulla destra la percentuale del totale corrispondente a tale numero. In questo modo ogni punto del grafico rappresenta il numero di studenti che hanno ottenuto un determinato voto, o un voto a esso inferiore. Ad esempio, il punto A corrisponde al voto 72; leggendo sull'asse verticale, è evidente che ci sono 12 voti, ossia il 40% del totale, minori o uguali a 72.
Se si vogliono analizzare i voti di dieci classi, ciascuna composta da trenta studenti, riportati in quattro diversi esami, si dovranno rappresentare ben 1200 voti: questo è un numero troppo grande per poter trovare spazio in un grafico simile a quello dell'esempio precedente. Si dividono allora i dati in "gruppi significativi" detti classi o intervalli. Come esempio consideriamo la tabella di distribuzione delle frequenze; i 1200 voti vengono raggruppati in dieci intervalli distinti, elencati nella colonna (a), e il numero reale di voti in un intervallo, detto frequenza dell'intervallo, viene riportato nella colonna (c). I valori che definiscono gli estremi dell'intervallo, detti limiti dell'intervallo, sono preferibilmente scelti in modo che gli intervalli siano tutti di uguale ampiezza, e che i punti medi siano numeri semplici. Ancora con riferimento alla tabella, un voto come 87 sarà compreso nell'intervallo 80-90; un voto di confine come 90 può essere contato sia nell'intervallo inferiore che in quello superiore. La frequenza relativa, riportata in colonna (d), è il rapporto tra la frequenza di un intervallo e il conteggio totale. La frequenza cumulata, colonna (e), rappresenta il numero di studenti che hanno ricevuto un voto inferiore a quelli dell'intervallo successivo; così, il numero di studenti con voti inferiori a 30 si ottiene sommando le frequenze della colonna (c) dei primi tre intervalli, e vale 53. La frequenza relativa cumulata, colonna (f), è il rapporto tra la frequenza cumulata e il numero totale di voti.
I dati di una tabella di distribuzione delle frequenze possono essere rappresentati graficamente in un istogramma delle frequenze, oppure con un tratto di curva continuo. L'istogramma consiste in una serie di rettangoli con base uguale alla misura degli intervalli e altezza proporzionale alla frequenza del relativo intervallo. Una curva come quella di figura 3 si ottiene unendo i punti medi degli intervalli di un istogramma delle frequenze cumulative.
Spesso sui giornali o sulle riviste compaiono rappresentazioni grafiche diverse di dati statistici; particolarmente utilizzati sono, ad esempio, gli ortogrammi, diagrammi di superficie nei quali il diverso valore di un fenomeno è rappresentato da figure geometriche, preferibilmente rettangoli, di area diversa; i diagrammi a righe, in cui si utilizzano segmenti verticali o orizzontali, di lunghezza proporzionale al valore del fenomeno analizzato; gli aerogrammi a settori circolari, in cui la superficie di un cerchio viene suddivisa in settori circolari, di area proporzionale alla percentuale del totale coperta dalle varie espressioni del fenomeno in esame.
5. Analisi
Dopo aver raccolto e ordinato i dati, si procede alla fase di analisi, che consiste nel calcolo di alcuni parametri significativi, che esprimono in maniera sintetica le caratteristiche peculiari del campione esaminato.
Valore medio
L'analisi comincia con il calcolo del valore medio, un numero particolarmente significativo, che in un certo senso i "rappresenta" o i "riassume" tutti i valori assunti dalla variabile in esame. Il valore medio rappresenta un indice di posizione, e nella maggior parte dei casi tende a cadere centralmente, all'interno dell’insieme di dati, disposti in ordine crescente o decrescente.
Supponiamo che x1, x2, …, xn siano i dati di una statistica. La misura significativa usata più spesso è la semplice media aritmetica, indicata dal simbolo x, e data dalla somma dei singoli dati divisa per il loro numero, n:
x = Σx / n
Nell'espressione qui sopra il simbolo Σ indica l'operazione di somma di tutti i valori. Se i valori x sono raggruppati in k intervalli, in cui m1, m2 …, mk sono i punti medi e f1, f2, …, fk, le rispettive frequenze, la media aritmetica è data da
Σfi mi / Σfi
con i = 1, 2, …, k.
Due diverse misure dell'indice di posizione sono la mediana e la moda. Per calcolare la mediana occorre dapprima riordinare gli n valori x in modo crescente o decrescente; se n è dispari, essa è il valore centrale di x; se n è pari, è la media dei due valori che separano gli n valori in due parti uguali. La moda invece è il valore di x che ricorre più frequentemente. Se due o più valori distinti di x ricorrono con la stessa frequenza, ma non ce n'è alcuno che abbia una frequenza maggiore, si può dire che l'insieme degli x non ammette moda, o equivalentemente che è bimodale, e le due mode sono allora i due valori di x più frequenti.
Indice di dispersione
I dati raccolti possono mostrare la tendenza a raggrupparsi intorno a un solo valore, che in genere coincide con il valor medio, oppure possono essere "sparpagliati" su tutto l'intervallo dei valori possibili. L'indice di dispersione, o di variabilità, di una distribuzione di frequenze fornisce allora una indicazione di come sono distribuiti i dati, ovvero di quanto si discostano dal valor medio. Una possibile misura della dispersione intorno al valor medio consiste nella valutazione della differenza tra due dati percentili, solitamente il 25° e il 75° ( il p-esimo dato percentile è quel numero tale che il p % delle misure risulta minore o uguale a esso; in particolare, il 25° e il 75° dato percentile sono detti rispettivamente il dato quartile inferiore e superiore).
Un'altra conveniente misura della variabilità di una distribuzione è la deviazione standard.
Correlazione
Due fenomeni di natura fisica, biologica o sociale sono positivamente correlati quando subiscono variazioni proporzionali e simultanee a causa del medesimo fattore esterno. Se uno dei due aumenta nella stessa proporzione in cui l'altro diminuisce, essi si dicono negativamente correlati. Il grado di correlazione si calcola applicando un opportuno coefficiente ai dati dei due fenomeni. A una correlazione positiva perfetta tra le due variabili corrisponde un coefficiente +1; a una correlazione negativa perfetta corrisponde il coefficiente -1; mentre una totale assenza di correlazione è rappresentata dal coefficiente 0. Così, 0,89 indica un valore di alta correlazione positiva, -0,76 un'alta correlazione negativa, e 0,13 una bassa correlazione positiva.
6. Modelli matematici
Un modello matematico è un'idealizzazione matematica di un fenomeno fisico, biologico o sociale, che si traduce in un sistema, una proposizione, una formula o un'equazione matematica. Così, un dado ideale, perfettamente equilibrato, che possa essere lanciato in modo assolutamente casuale, rappresenta un modello matematico per un dado fisico reale.
Si può allora mettere alla prova la "bontà" di un dado reale lanciandolo più volte, e confrontando i risultati sperimentali con quelli del modello di dado ideale.
Come esempio di un modello matematico più complesso, si supponga di avere effettuato molte serie di misure: ad esempio, il numero di volte in cui si ottiene la cifra 6 in n lanci di un dado; il peso di N fagioli scelti a caso da un sacchetto; il valore della pressione barometrica ottenuto da studenti diversi con lo stesso barometro. In tutti questi casi, i valori osservati hanno distribuzioni di frequenze estremamente simili. Si può allora adottare un modello matematico che è un prototipo, o un'idealizzazione, di queste distribuzioni così simili tra loro.
La curva a campana chiamata distribuzione di probabilità normale, o gaussiana riveste un'enorme importanza nella statistica e nella teoria delle probabilità, dal momento che tutti gli eventi in cui intervengono fenomeni casuali si distribuiscono intorno al valor medio secondo tale curva.
|