|
- CLICCA SULLA VOCE "MODIFICA" (O "EDIT") DEL MENU' IN ALTO - SELEZIONA LA VOCE "TROVA NELLA CORNICE"(O "FIND") - DIGITA IL TERMINE DESIDERATO - CLICCA SUL TASTO "SUCCESSIVO" |
GLOSSARIO DI TERMINI STATISTICI GENERALI
Elenco
delle voci
Abbinamento
- Abbinate, unità
Abnorme,
dato (v. Dato anomalo)
Accesso
ai dati statistici
Accuratezza
- Accurato
Acquisizione
dei dati
Adeguatezza
- Adeguata, statistiche
Ad intervalli,
variabile (v. Intervallare, variabile)
Affidabilità
- Affidabile, strumento
Aggiornamento,
aggiornato, dato
Aggiornamento
degli obiettivi (v. Adeguatezza degli obiettivi)
Aggiustamento
delle stime (v. Correzione delle stime)
Aggregato
statistico (v. Popolazione statistica)
Aggregazione
di dati
Aleatoria,
variabile (v. Variabile)
Algoritmo
Allocazione,
di un campione
Ammissibile,
codice registrato, dato
Ammissibilità
- Ammissibile, strategia
Ammontare
di informazione (v. Informazione statistica)
Analisi
dei dati
Analisi
della coerenza tra dati (v. Coerenza tra dati, analisi della)
Analisi
della concordanza (v. Concordanza tra dati, analisi della)
Anomalo,
dato (v. Dato anomalo)
Anonimato
- Anonime, informazioni
Anonimo,
questionario
Appaiamento
di unità (v. Abbinamento di unità)
Approccio
del detentore delle informazioni, modalità di (v. Modalità
di approccio del detentore delle informazioni)
Archivio
di dati
Area
di interesse, di statistiche
Area
rilevata, oggetto della rilevazione
Armonizzazione
di statistiche
Arrotondamento
Arrotondamento
casuale
Asimmetria
- Asimmetrica, distribuzione
Assillo
del rispondente
Astrazione
Attendibilità
- Attendibile, dato statistico
Atteso,
valore (v. Valore atteso)
Attributo
Audio-CASI
Autonomia
tecnica
Autoponderante,
campione (v. Campione autoponderante)
Avallamento
Banca
dati
Base
Base
di campionamento
Base
di dati
Bisogno
di informazioni
Campionamento
alla rinfusa, di materiali
Campionamento
areale (v. Campionamento di aree)
Campionamento
a rete
Campionamento
a scelta ragionata (v. Campione a scelta ragionata)
Campionamento
a valanga
Campionamento
annidato
Campionamento
bernoulliano (v. Campionamento con reinserimento)
Campionamento
casuale (v. Campionamento probabilistico)
Campionamento
casuale semplice
Campionamento
cattura-etichettatura-ricattura
Campionamento
censurato (v. Rilevazione incompleta)
Campionamento
complesso
Campionamento
con reinserimento
Campionamento
da liste
Campionamento
di aree
Campionamento
di grappoli (v. Campionamento su più stadi; Grappolo)
Campionamento
di linee (v. Campionamento su linee)
Campionamento
di punti
Campionamento
di quote
Campionamento
diretto
Campionamento
distorto
Campionamento
di zone (v. Campionamento di aree)
Campionamento
doppio
Campionamento
esaustivo (v. Rilevazione totale, esaustiva)
Campionamento
estensivo
Campionamento
in blocco (v. Campionamento senza reinserimento)
Campionamento
indiretto
Campionamento
in più fasi
Campionamento
intensivo
Campionamento
lungo linee (v. Campionamento su linee)
Campionamento
lungo strade (v. Campionamento su strade)
Campionamento
misto
Campionamento
multi-fase (v. Campionamento in più fasi)
Campionamento
non probabilistico
Campionamento
ottimale (v. Campionamento stratificato)
Campionamento
per quote (v. Campione per quote)
Campionamento
probabilistico
Campionamento
proporzionale (v. Campionamento stratificato)
Campionamento
rappresentativo (v. Campionamento non probabilistico)
Campionamento
ruotato
Campionamento
senza reinserimento
Campionamento
simmetrico
Campionamento
sistematico
Campionamento
stratificato
Campionamento
su griglie
Campionamento
su linee
Campionamento
su più stadi
Campionamento
su strade
Campionamento
zonale (v. Campionamento di aree)
Campione
Campione
abbinato (v. Campioni abbinati)
Campione
a più stadi (v. Campione su più stadi)
Campione
a scelta ragionata
Campione
autoponderante
Campione
casuale semplice, campione semplice (v. Campionamento casuale
semplice)
Campione
censurato (v. Campione incompleto)
Campione
complesso (v. Campionamento complesso)
Campione
corretto
Campione
di linee (v. Campionamento su linee)
Campione
distorto
Campione
fisso
Campione
non probabilistico (v. Campionamento non probabilistico)
Campione
per quote
Campione
probabilistico (v. Campionamento probabilistico)
Campione
ripetuto (v. Campioni ripetuti)
Campione
ruotato (v. Campionamento ruotato)
Campione
stratificato (v. Campionamento stratificato)
Campione
su più stadi (v. Campionamento su più stadi)
Campioni
abbinati
Campioni
equivalenti
Campioni
compenetrati
Campioni
duplicati
Campioni
ripetuti
Campo
di osservazione
Campo
di variazione
Canale
di acquisizione dei dati
Canale
di diffusione dei dati ufficiali
CAPI
- Computer Assisted Personal Interviewing
Carattere
statistico (sinonimo di: Variabile statistica)
Carico
di lavoro
Carico
di lavoro del rispondente
Carico
di lavoro del rilevatore
Carico
di lavoro del supervisore
Carico
di lavoro del codificatore
Cartogramma
CASI
- Computer Assisted Self-administered Interviewing
Caso
Caso
unico
Caso
statistico
Casualità
della selezione di campioni (v. Selezione di un campione)
Categoria
Catena
CATI
- Computer Assisted Telephone Interviewing
Cell
(v. Modalità)
Cella,
di un tabella (v. Modalità congiunta)
Censimento
Censimento
per campione
Censura
- Censurato, campione (v. Troncamento - Troncata, distribuzione,
campione)
Centralità
(v. Tendenza centrale)
Ciclo
Classe
Classi
aperte
Classi
chiuse
Classificazione
Classificazione
marginale (v. Distribuzione marginale)
Classificazione
tipo
Cluster
(v. Gruppo omogeneo)
Codice
Codificazione,
di informazione
Coefficiente
di affidabilità
Coefficiente
di espansione (all’universo) (v. Fattore di espansione
all’universo)
Coefficiente
di variazione
Coerenza
- Coerenti, dati
Coerenza
tra dati, analisi della
Coerenza
interna tra risultati ed obiettivi d’indagine (v. Pertinenza)
Coerenza
tra risultati di indagini diverse
Collegamento
esatto
Collegamento
statistico
Collettivo
(statistico) (v. Popolazione statistica)
Comparabilità
- Comparabili, dati
Compatibilità
- Compatibile, dato (v. Dato manifestamente errato; Regole di
compatibilità)
Compenetrazione
dei campioni, delle assegnazioni
Completezza
- Completa, rilevazione
Computer
Assisted Personal Interviewing (v. CAPI)
Computer
Assisted Self-administered Interviewing (v. CASI)
Computer
Assisted Telephone Interviewing (v. CATI)
Concentrazione
Conciliazione
di dati discordi
Concordanza
tra dati, analisi della
Condizionata,
distribuzione (v. Distribuzione condizionata)
Conferenza
nazionale di statistica
Confidenzialità
Conformità
Connessione
Consistenza
- Consistente, stimatore
Contingenza,
tabella di (v: Tabella di contingenza)
Continuità-
Continua, variabile
Controllo
contabile
Controllo
di compatibilità
Controllo
di concordanza
Controllo
di qualità
Controllo
di verosimiglianza
Controllo
esterno, indiretto
Controllo
interno, diretto
Controllo
statistico
Convalida
delle stime
Coorte
Copertura
della rilevazione
Copertura
degli obiettivi d’indagine
Correlazione
Correlazione
illusoria
Correlazione
interclasse
Correlazione
intraclasse
Correlazione
seriale
Correttezza
- Corretto, dato, stimatore
Correzione
degli errori
Correzione
delle stime (v. Correzione degli errori)
Costo
del fornire informazioni
Costo
di un’indagine
Credibilità
(v. Attendibilità)
Curva
di frequenza
Data
base ( v. Base di dati)
Data
di riferimento, dei dati
Dato
aggiornato (v. Aggiornato, dato)
Dato
aggregato, macrodato
Dato
anomalo (v. Valore abnorme)
Dato
definitivo
Dato
elementare, individuale, microdato
Dato
incompatibile (v. Dato manifestamente errato)
Dato
individuale (v. Dato elementare)
Dato
mancante
Dato
manifestamente errato
Dato
non ammissibile (v. Dato manifestamente errato)
Dato
preliminare (v. Dato provvisorio)
Dato
provvisorio, preliminare
Dato
riservato (v. Dato sensibile)
Dato
sensibile
Decremento
Demografia
Densità,
di distribuzione
Descrittiva,
statistica (v. Statistica descrittiva)
Detentore
delle informazioni (v. Unità di rilevazione)
Deterministica,
tecnica di correzione di errori (v. Correzione degli
errori)
Deviazione
standard
Diagramma
a barre
Diagramma
a blocchi (v. Istogramma)
Diagramma
circolare
Diagramma
a torta (sinonimo di: Diagramma circolare)
Dicotomia
Diffusione
delle statistiche ufficiali
Dimensione
campionaria (v. Numerosità del campione)
Dimensione
di unità statistica
Dipendenza
Diritto
alla privacy
Diritto
alla riservatezza
Diritto
all’informazione
Disaggregazione
territoriale dei dati
Discordanza
(v. Concordanza tra dati)
Discrepanza
Disegno
di campionamento (v. Piano di campionamento)
Disegno
di controllo (v. Piano di controllo)
Disegno
d’indagine (v. Piano d’indagine)
Disegno
di rilevazione (v. Piano di rilevazione)
Dispersione
(v. Variabilità)
Disponibilità
- Disponibili, statistiche
Distanza
Distorsione
(v. Errore sistematico)
Distorsione
del campione (v. Campione distorto)
Distorsione
del codificatore
Distorsione
dell’addetto alla registrazione
Distorsione
dell’intervistatore (v. Distorsione del rilevatore)
Distorsione
del rilevatore
Distorsione
del supervisore
Distorsione
di uno stimatore (v. Stimatore corretto)
Distorsione
dovuta alla ponderazione
Distorsione
relativa
Distorsione
verso il basso (v. Sottostima)
Distorsione
verso l’alto (v. Sovrastima)
Distribuzione
campionaria
Distribuzione
casuale
Distribuzione
condizionata
Distribuzione
di frequenze
Distribuzione
di probabilità
Distribuzione
marginale
Divulgazione
- Divulgato - Divulgabile, dato (v. Diffusione delle
statistiche
ufficiali)
Domanda
a risposta aperta
Domanda
a risposta chiusa
Dominio
di studio
Donatore,
tecnica del
Economicità
delle statistiche
Editing
(v. Revisione dei dati)
Effettivo
campionario (v. Dimensione campionaria)
Effetto
proxy
Effetto
vanità
Effetto
simpatia
Efficacia
del Sistema statistico, di un’indagine
Efficienza,
di stimatore
Efficienza
del Sistema statistico, di un’indagine
Efficienza
relativa di un disegno di campionamento
Efficienza
relativa di uno stimatore
Elaborazione
elettronica
Elaborazione
statistica, di dati
Epoca
di disponibilità dei risultati
Eligible
unit (v. Unità designata)
Errore
Errore
accidentale (v. Errore casuale)
Errore
assoluto
Errore
campionario, di campionamento
Errore
casuale
Errore
correlato
Errore
cumulantesi
Errore
del codificatore
Errore
dell’intervistatore (v. Errore del rilevatore)
Errore
del rilevatore
Errore
del supervisore
Errore
di approssimazione
Errore
di arrotondamento (v. Errore di approssimazione)
Errore
di campionamento (v. Errore campionario)
Errore
di elaborazione
Errore
di imposizione automatica
Errore
di imputazione (v. Errore di imposizione automatica)
Errore
di misura (v. Errore extracampionario)
Errore
di osservazione (v. Errore di rilevazione)
Errore
di osservazione (v. Errore di rilevazione)
Errore
di registrazione
Errore
di rilevazione
Errore
di risposta
Errore
di stima (v. Errore globale di stima)
Errore
extracampionario
Errore
globale di stima
Errore
medio di stima
Errore
non campionario (v. Errore extracampionario)
Errore
probabile (v. Errore standard)
Errore
quadratico medio
Errore
quadratico medio, di stimatore
Errore
relativo
Errore
sistematico, distorsione
Errore
sperimentale
Errore
standard
Errore
statistico
Errore
statistico globale (v. Errore globale di stima)
Errore
tipico (v. Errore standard)
Errore
variabile (v. Errore casuale)
Error
profile (v. Profilo degli errori)
Estremi,
valori (v. Valori estremi)
Falso
negativo
Falso
positivo
Fase,
di serie
Fase
di campionamento (v. Campionamento in più fasi)
Fase
di un’indagine
Fattibilità
delle statistiche
Fattore
di espansione all’universo
Fenomeno
oggetto di rilevazione
Fiducia
dei rispondenti
Finalità
statistiche
Flusso
informativo
Fluttuazione
Follow-up
(v. Indagine ripetuta)
Fonte
dei dati
Forma
di diffusione, dei dati (v. Canale di distribuzione dei dati
ufficiali)
Forzatura
Frazione
di campionamento
Frequenza
Frequenza
assoluta
Frequenza
cumulata
Frequenza
di categoria
Frequenza
nell’ipotesi di indipendenza (v. Indipendenza)
Frequenza
proporzionale (v. Frequenza relativa)
Frequenza
relativa
Frequenza
percentuale (v. Frequenza relativa)
Fruibilità
del dato
Funzione
dei costi
Funzione
di densità di probabilità
Funzione
distributiva (di frequenze)
Generalizzabilità
- Generalizzabile, dato statistico
Generalizzabilità
- Generalizzabile, indagine statistica
Generalizzabilità
- Generalizzabile, strumento di rilevazione
Generazione
Gradi
di libertà
Grandezza
Grappolo
Gruppo
Gruppo
omogeneo
Identificabilità
- Identificabile, unità statistica
Ideogramma
Imparzialità
- Imparziale, statistica
Imparzialità
- Imparziale, statistico
Imparzialità
- Imparziale, sistema statistico (v. Germania, CEE 94/0026)
Impresa
Imputazione
(v. Forzatura; Metodi di imposizione automatica)
Imputation
(v. Metodi di imposizione automatica)
In blocco,
campionamento (v. Campionamento senza reinserimento)
Inchiesta
statistica (v. Indagine statistica)
Incoerenza
tra dati (v. Coerenza)
Incompatibilità
- Incompatibile, dato (v. Dato manifestamente errato)
Indagine
analitica
Indagine
campionaria
Indagine
descrittiva
Indagine
di controllo
Indagine
di opinione
Indagine
diretta
Indagine
esaustiva
Indagine
esplorativa (v. Indagine pilota)
Indagine
indiretta
Indagine
longitudinale
Indagine
parziale (v. Indagine campionaria)
Indagine
per campione (v. Indagine campionaria)
Indagine
pilota, preliminare
Indagine
preliminare (v. Indagine pilota)
Indagine
principale
Indagine
prospettica (v. Indagine longitudinale)
Indagine
retrospettiva (v. Indagine longitudinale)
Indagine
ripetuta
Indagine
secondaria
Indagine
statistica
Indagine
successiva
Indagine
suppletiva
Indagine
trasversale
Indicatore
statistico
Indice
a base fissa
Indice
a base mobile
Indice
a catena (v. Indice concatenato, a catena)
Indice
aggregativo
Indice
composito (v. Indice aggregativo)
Indice
concatenato, a catena
Indice
corretto
Indice
dei prezzi
Indice
descrittivo
Indice
elementare
Indice
relativo
Indice
sintetico (v. Indice aggregativo)
Indice
statistico
Indifferenza
statistica
Indipendenza
- Indipendenti, eventi, variabili, unità
Indipendenza
scientifica
Individuo
(v. Unità statistica)
Induzione
statistica
Inferenza
statistica
Informazione
Informazione
ancillare (v. Informazione ausiliaria)
Informazione
a priori
Informazione
ausiliaria
Informazione
previa
Informazione
statistica
Informazione
suppletiva (v. Informazione ausiliaria)
Iniezione
di errori casuali (v. Perturbazione casuale di dati)
Integrazione
delle fonti di produzione statistica
Integrità
del Sistema statistico, di statistiche
Interazione
Interconnnessione
dei sistemi informativi
Interfaccia
con l’utenza
Interpretazione
dei dati
Intervallare,
variabile
Intervallo
di campionamento
Intervallo
di confidenza
Intervallo
di divulgazione dei dati
Intervallo
fiduciario (v. Intervallo di confidenza)
Intervista
Intrapresa
Ipotesi
statistica
Istituzione
Istogramma
Item
Limite
della qualità uscente media
Limiti
probabilistici
Lineare,
stimatore (v., Stimatore)
Linee
guida
Linkage
(v. Collegamento esatto)
Lista
(della popolazione)
Livello
accettabile di attendibilità, di stime
Livello
di campionamento (v. Campionamento su più stadi)
Livello
di qualità accettabile
Livello
territoriale
dei dati (v. Disaggregazione territoriale dei dati)
Macrodato
(v. Dato aggregato)
Mancata
intervista (v. Mancata rilevazione)
Mancata
rilevazione
Mancata
risposta, non risposta
Mancato
rispondente
Mappa
Master
sample
Matching
(v. Abbinamento di unità)
Memorizzazione
dei dati (v. Registrazione dei dati)
Metadato
Metainformazione
Metodo
di correzione automatica (v. Metodo di imposizione automatico)
Metodo
di imposizione automatica
Mezzo
di diffusione dei dati
Microcensimento
(v. Censimento per campione)
Microdato
Minimo
livello territoriale dei dati (v. Livello territoriale dei dati)
Misura
di locazione (v. Tendenza centrale)
Misura
standard (v. Standardizzazione statistica)
Misurazione
degli errori
Modalità
Modalità
congiunta
Modalità
di approccio del detentore delle informazioni
Modalità
di risposta
Modalità
di effettuazione di un’indagine
Modalità
di rilevazione dei dati
Modalità
di una variabile (v. Modalità)
Modello
Mutabile
(v. Variabile)
Mutabilità
Neutralità
Nomenclatura
(v. Classificazione tipo)
Nomogramma
Non
ammissibile, dato (v. Dato manifestamente errato)
Non
lineare, stimatore (v. Stimatore)
Non
risposta (v. Mancata risposta)
Non
risposta parziale (v. Mancata risposta)
Non
risposta totale (v. Mancata rilevazione)
Numero
indice
Numero
indice composito
Numero
indice ponderato
Numerosità
del campione
Obbligo
di risposta
Obiettivi
statistici (v. Finalità statistiche)
Obiettività
- Obiettivo, dato statistico
Obiettività
- Obiettivo, statistico, Sistema statistico
Oggetto
della rilevazione
Omofilia
Omogeneità
Ordine
casuale
Organo
della rilevazione
Oscillazione
Osservatore
mobile, tecnica del (v. Tecnica dell’osservatore mobile)
Osservatori
indipendenti di un fenomeno, tecnica degli
Ottimalità
di un disegno
Ottimalità,
di uno stimatore
Outlier
(v. Valore abnorme)
Panel
(v. Campione fisso)
PAPI
- Pen And Pencil Interviewing
Parametro
Parametro
di locazione (v. Tendenza centrale)
Parametro
di scala
Parzialità,
di Sistema statistico, di statistica
Passo
di campionamento (v. Intervallo di campionamento)
Passo
di estrazione (v. Intervallo di campionamento)
Perequazione
Periodicità
della rilevazione
Periodo
Periodo
di base
Periodo
di riferimento (v. Periodo di base)
Periodo
tipico
Persistenza
Pertinenza
- Pertinente, dato
Perturbazione
casuale di dati
Peso
Piano
di campionamento
Piano
di campionamento complesso (v. Campionamento complesso)
Piano
di campionamento composito
Piano
di codifica
Piano
di compatibilità (v. Regole di compatibilità)
Piano
di controllo
Piano
d’indagine
Piano
di rilevazione
Piano
sperimentale
Picco,
di serie, di distribuzione
Pilota,
indagine (v. Indagine pilota)
Pittogramma
Plausibilità
(di un dato)
Poligono
delle frequenze
Politz-Simmons,
tecnica (v. Tecnica di Politz-Simmons)
Ponderazione
Popolazione
finita (v. Popolazione statistica)
Popolazione
infinita (v. Popolazione statistica)
Popolazione
standard
Popolazione
statistica, universo
Popolazione
tipo
Precisione
Precisione
relativa
Predizione
Preliminare,
indagine (v. Indagine pilota)
Pre-test
Previsione
Principale,
indagine, rilevazione (v. Indagine principale)
Privacy
(v. Segreto statistico; Diritto alla privacy)
Probabilità
Probabilità
di selezione, di inclusione nel campione
Processo
di produzione delle statistiche
Professionalità
nella produzione dei dati
Profilo
degli errori
Programma
statistico comunitario
Programma
Statistico Nazionale (PSN)
Programmi
di imposizione automatica
Proiezione
Prospettica,
indagine (v. Indagine prospettica)
Protezione
della qualità media
Protezione
del segreto statistico
Prove
indipendenti
Proxy
interview (v. Rispondente proxy)
Proxy
response (v. Risposta proxy)
Pseudo-casuale,
selezione (v. Selezione di campioni)
PSN
(v. Programma Statistico Nazionale)
Pubblicazione
dei risultati di un’indagine
Punteggio
Quadro
di riferimento dell’analisi statistica
Qualità
del dato statistico
Qualità
di un sistema informativo statistico
Quasi
casuale, campionamento (v. Selezione di campioni)
Questionario
Quote,
campionamento di (Campionamento non probabilistico)
Quoziente
Raccolta
dei dati (v. Rilevazione dei dati)
Raccordo
di indici
Range
(v. Campo di variazione)
Rango
Rapporto
Rapporto
costi/benefici di statistiche (v. Economicità delle fonti
statistiche)
Rapporto
di coesistenza (v. Rapporto)
Rapporto
di composizione (v. Rapporto)
Rapporto
di derivazione (v. Rapporto)
Rapporto
di durata (v. Rapporto)
Rapporto
statistico (v. Rapporto)
Reazione
(v. Risposta)
Record
(v. Microdato)
Registrazione,
memorizzazione dei dati
Regola
di compatibilità
Regole
di correzione (v. Correzione degli errori)
Regressione
Reintervista
Rel-varianza
Replicazione,
di osservazione
Residuo
Rete
di rilevatori, di rilevazione
Revisione
dei dati
Ricerca
Richiamo
telefonico
Riconducibilità
- riconducibile, classificazione
Riferimento
individuale
Rilevanza
- Rilevanti, statistiche
Rilevatore
Rilevazione
Rilevazione
campionaria
Rilevazione
completa (v. Rilevazione totale)
Rilevazione
dei dati
Rilevazione
diretta
Rilevazione
incompleta
Rilevazione
per campione (v. Rilevazione campionaria)
Rilevazione
secondaria (v. Indagine secondaria)
Rilevazione
statistica (v. Rilevazione dei dati)
Rilevazione
totale, esaustiva
Ripetizione,
di osservazione
Riproducibilità
Rischio
Rischio
relativo
Riservatezza
- Riservato, dato
Rispondente
Rispondente
proxy
Risposta
Risposta
proxy
Robustezza
Rotazione
del campione (v. Campionamento ruotato)
Rumore
Scadenzario
di un’indagine
Scala
di misura, di variabile
Scambiabilità
- Scambiabili, variabili
Scarto
quadratico medio
Scomposizione
di una serie temporale
Schema
(v. Piano)
Segreto
d’ufficio
Segreto
statistico
Selezione
casuale
Selezione
di campioni
Sensibilità
- Sensibile, di strumento di misura
Senza
reinserimento, campionamento (v. Campionamento senza reinserimento)
Seriazione
(v. Serie e seriazione)
Serie
cronologica (v. Serie temporale)
Serie
e seriazione
Serie
storica (v. Serie temporale)
Serie
temporale, storica
Settore
di interesse (di rilevazione)
Simmetria
- Simmetrica, distribuzione
SISTAN
(v. Sistema Statistico Nazionale)
Sistema
informativo
Sistema
informativo statistico
Sistema
Statistico Nazionale
Sistematico
Sistematico,
campionamento (v. Campionamento sistematico)
Soggettività
dello statistico (v. Oggettività dello statistico)
Sollecito,
di mancati rispondenti
Soppressione
di frequenze esigue
Sostituzione
Sottocampionamento
Sottocampione
(v. Sottocampionamento)
Sottoclasse
Sottostima
Sovrastima
Specializzazione,
di statistiche
Specificità
- Specifico, di strumento di misura
Stadio
di campionamento (v. Campionamento su più stadi)
Stagionalità
di una serie (v. Variazione stagionale)
Standardizzazione
statistica
Statistica
(v. Stima)
Statistica
campionaria
Statistica
descrittiva
Statistica
inferenziale (v. Statistica descrittiva)
Statistica
ufficiale
Statistica,
variabile (v. Variabile)
Statistiche
analitiche (v. Statistiche descrittive)
Statistiche
comunitarie
Statistiche
definitive
Statistiche
descrittive
Statistiche
di movimento
Statistiche
di stato
Statistiche
di stock (v. Statistiche di stato)
Statistiche
provvisorie
Stereogramma
Stima
Stima
basato su rapporto (v. Stimatore basato su rapporto)
Stima
basato su quoziente (v. Stimatore basato su quoziente)
Stima
intervallare
Stima
puntuale
Stimatore
Stimatore
basato su rapporto
Stimatore
basato su regressione
Stimatore
corretto
Stimatore
distorto (v. Stimatore corretto)
Stimatore
di tipo quoziente (v. Stimatore basato su rapporto)
Stimatore
di tipo rapporto (v. Stimatore basato su rapporto)
Stimatore
di tipo regressione (v. Stimatore basato su regressione)
Stimatore
efficiente
Stocastica,
tecnica di correzione di errori (v. Correzione di errori)
Stocastica,
variabile (v. Variabile)
Stock,
statistiche di (v. Statistiche di stato)
Strategia
Stratificazione
Strato
Strumento
di rilevazione
Struttura
del campione
Studio
progettuale
Style
book
Sub-campionamento
(v. Sottocampionamento)
Sub-campione
(v. Sottocampionamento)
Supporti
per la diffusione delle statistiche ufficiali
Su scala
intervallo, variabile (v. Intervallare, variabile)
Sussidiarietà
del Servizio statistico comunitario
Tabella
complessa
Tabella
di contingenza
Tabella
di frequenze
Tabella
di intensità
Tabella
tetracorica (v. Tabella di frequenze)
Tasso
demografico
Tasso
di rifiuto
Tasso
di risposta (v. Frequenza di risposta)
Tasso
istantaneo (v. Tasso statistico)
Tasso
specifico
Tasso
standardizzato
Tasso
statistico
Tavola
(v. Tabella di frequenze)
Tecnica
degli osservatori indipendenti (V. Osservatori indipendenti del
fenomeno)
Tecnica
dell’osservatore mobile
Tecnica
di Politz-Simmons
Tempestività
- Tempestiva, statistica
Tempo
di riferimento
Tendenza
(v. Trend)
Tendenza
centrale, centralità
Tipico,
anno (v. Anno tipico)
Tipico,
carattere (v. Carattere tipico)
Tipico,
periodo (v. Periodo tipico)
Tipo
di rilevazione (v. Canale di rilevazione; Rilevazione dei dati)
Trasformazione
di variabile
Trasparenza
- Trasparente, dato statistico
Trend
Troncamento
- Troncata, distribuzione, campione
Ufficialità
del dato (v. Statistiche ufficiali)
Unità
amministrativa
Unità
campionaria
Unità
complessa
Unità
designata
Unità
di analisi
Unità
di classificazione
Unità
di campionamento
Unità
d’informazione
Unità
di rilevazione
Unità
di tabulazione
Unità
elementare
Unità
finale (di campionamento)
Unità
primaria
Unità
secondaria
Unità
sovrapposte, campionamento di
Unità
sperimentale
Unità
statistica
Universo
statistico (v. Popolazione statistica)
Validazione
(v. Convalida)
Validità
- Valido, strumento, dato statistico
Valore
abnorme, anomalo, outlier
Valore
atteso
Valore
medio
Valore
osservato (v. Valore rilevato)
Valore
predittivo, di strumento di misura
Valore
rilevato, osservato
Valore
vero
Valori
estremi
Variabile
(statistica)
Variabile
aleatoria (v. Variabile)
Variabile
casuale (v. Variabile)
Variabile
chiave
Variabile
pubblica
Variabile
riservata (v. Variabile sensibile)
Variabile
sensibile
Variabile
stocastica (v. Variabile)
Variabilità
Varianza
campionaria
Varianza
correlata di risposta
Varianza
del codificatore
Varianza
dell’intervistatore (v. Varianza del rilevatore)
Varianza
del rilevatore
Varianza
del rispondente
Varianza
di campionamento delle stime
Varianza
di rilevazione (v. Varianza di risposta)
Varianza
di risposta
Varianza
di stima
Varianza
elementare di risposta
Varianza
extracampionaria
Varianza
globale di stima (v. Varianza di stima)
Varianza
incorrelata di risposta (v. Varianza elementare di risposta)
Varianza
relativa
Varianza
residua
Varianza
semplice di risposta (v. Varianza elementare di risposta)
Variazione
ciclica, di una serie (v. Ciclo)
Variazione
di lunga durata, trend, di una serie (v. Trend)
Variazione
sistematica (v. Sistematico)
Variazione
stagionale
Variogramma
Video-CASI
Violazione
del segreto statistico (v. Segreto statistico)
Glossario
Abbinamento
- Abbinate, unità
Si dicono
"abbinate" le unità campionarie che presentano la stessa modalità
sulla o sulle variabili delle quali si vogliono scomputare gli effetti
dall’analisi. Per esempio, nella sperimentazione clinica o farmaceutica,
vengono abbinati il campione dei "trattati" (con un farmaco, con unaterapia
sperimentale) e quello dei "controlli" (nessun farmaco, trattati solo con
una terapia di base), per inferire sulla differenza risultante dall’applicazione
della modalità sperimentale. Supponiamo che si intenda studiare
l’effetto dell’assunzione di analgesici durante la gravidanza sull’esito
della gravidanza stessa, conviene eliminare il possibile effetto confondente
dell’età della gravida selezionando un campione composto da coppie
di donne gravide di pari età, una delle quali ha assunto analgesici
e l’altra no. Siccome ogni coppia campionaria è di pari età,
questa variabile non influisce sulla relazione tra l’esito della gravidanza
e l’assunzione di analgesici. Si possono abbinare insiemi di numerosità
p qualsiasi. Se p=2, questa tecnica di campionamento viene detta "appaiamento".
In inglese, il termine abbinamento si traduce matching, o pairing, e match,
o pair, è un’unità campionaria abbinata.
Abnorme, dato (v. Dato anomalo)
Accesso
ai dati statistici
Diritto
dei soggetti e di enti ad utilizzare le informazioni statistiche ufficiali.
Le modalità di circolazione delle informazioni statistiche nell’ambito
del SISTAN e nei confronti di soggetti esterni, nonché i dati non
accessibili o con accesso limitato sono disciplinati dal D.Lgs. 322/1989.
L’accesso è reso possibile tramite pubblicazioni o certificati,
oppure, su domanda dell’interessato, su supporto informatico o mediante
l’ammissione alle banche dati esistenti. Sotto il profilo soggettivo, il
D.Lgs. 322/1989 distingue i titolari del diritto soggettivo ad accedere
alle informazioni (art. 10), o alla
esecuzione
di particolari elaborazioni remunerate a condizioni di mercato (art. 15),
dai soggetti sottoposti al regime dell’interscambio dei dati fra le componenti
del SISTAN (artt. 6 e 21 e Dir. n. 3 del Comstat). L’accesso ai dati censuari
è regolato da autonome leggi.
Accuratezza
- Accurato
Nell’accezione
più generale, accuratezza esprime la vicinanza di un valore
rilevato
al corrispondente valore vero. Lo scarto tra il valore osservato e
quello
vero è il saldo dell’unione di tutti gli errori commessi nella formazione
del dato. Riferito, come spesso avviene, ad una stima, il
termine
denota la ridotta dimensione dell’errore statistico globale, misurato con
l’errore quadratico medio: tanto maggiore è l’errore
quadratico
medio, tanto minore è l’accuratezza delle stime. In questa accezione,
il termine "attendibilità" è preferibile. Riferito ad uno
stimatore,
il termine assume talvolta il significato statistico di
uguaglianza
tra il valore atteso dello stimatore e l’estimando: per
chiarezza,
è allora preferibile usare il termine "correttezza".
Acquisizione
dei dati
In un’indagine
o in un esperimento statistico, l’acquisizione dei dati
equivale
alla loro rilevazione. In senso più generale, acquisizione dei
dati
indica l’operazione in base alla quale le informazioni vengono
trasferite
dal possessore all’ente incaricato della loro elaborazione, siano esse
risposte ad un questionario, o registrazioni strumentali ad impulsi fisici
o chimici, o prodotti secondari di attività amministrative etc.
Adeguatezza
- Adeguata, statistiche
E’ la
capacità del dato o del sistema di informazioni statistiche di soddisfare
i bisogni conoscitivi dell’utente. Qualità estrinseca del dato precisabile
facendo riferimento all’insieme dei criteri che consentono di valutare
la soddisfazione dell’utente. Tra i principali criteri di adeguatezza delle
statistiche si evidenziano la "pertinenza" rispetto agli obiettivi e la
"tempestività" della messa a disposizione (SIS, 1991).
Ad intervalli, variabile (v. Intervallare, variabile)
Affidabilità
- Affidabile, strumento
Nel
linguaggio tecnico, è "affidabile" lo strumento che dà garanzia
di buon funzionamento. Nell’indagine statistica, il termine si riferisce
alla fonte dei dati, e quindi al metodo o alla procedura di produzione,
all’addetto che esegue un’operazione etc. E’, quindi, affidabile una procedura
o un intervistatore dal quale si ottengono dati di qualità costante
o poco variabile in (idealmente) ripetute applicazioni sotto identiche
condizioni. Nel contesto delle analisi della sopravvivenza (di prodotti
industriali, di macchine etc.) il termine indica la probabilità
di sopravvivenza dopo un certo tempo t0, data da 1-F(t), dove F(t) è
la funzione distributiva delle durate di vita. Nella letteratura statistica,
il termine è talvolta utilizzato per denotare una stima il cui errore
globale non supera un livello prestabilito. Per chiarezza di significati,
è preferibile denominare "attendibile" tale stima. In inglese, ambedue
i termini si traducono reliability.
Aggiornamento,
aggiornato, dato
L’aggiornamento
di un dato si ha quando, disponendo di nuove informazioni, o di tempo adeguato
ad eseguire determinate elaborazioni, si giudicano le stime precedentemente
divulgate come insufficientemente accurate. L’aggiornamento delle ultime
occasioni di una serie temporale di dati di contabilità nazionale,
spesso dipendenti da calcoli di grandezze concomitanti, o la stima di grandezze
tratte da indagini correnti, che richiedono calcoli complessi, ma che per
motivi di tempestività sono divulgate in tempi stretti, è
prassi comune negli Istituti statistici nazionali.
Aggiornamento degli obiettivi (v. Adeguatezza degli obiettivi)
Aggiustamento delle stime (v. Correzione delle stime)
Aggregato statistico (v. Popolazione statistica)
Aggregazione
di dati
Aggregazione
è una qualsiasi funzione dei dati elementari (registrati in distinti
microdati) utilizzata per riassumere le informazioni in essi contenute.
Per esempio, il reddito nazionale e i numeri indici dei prezzi sono aggregazioni
di dati, mentre il reddito individuale e il prezzo di un bene sono dati
elementari. L’aggregazione è talora svolta per rendere i dati pubblicabili
evitando il rischio di riferimento individuale. Ad esempio, nell’Annuario
di Statistiche Industriali, ed. 1986, nella Tav. 24 sulla distribuzione
delle unità rilevate per classe di addetti, incrociate con alcuni
rami o classi di attività economica, vengono raggruppate le classi
di addetti in cui, per qualche casella il numero di unità rilevate
è inferiore a 3.
Aleatoria, variabile (v. Variabile)
Algoritmo
Nel
passato, il termine era quasi equivalente a "formula" o a combinazione
di formule. Oggi, specialmente nel linguaggio del calcolo automatico, significa
una relazione esplicita che permette il calcolo di una quantità,
con un processo che può anche prevedere iterazioni per la convergenza
al valore atteso.
Allocazione,
di un campione
Neologismo
che indica il modo in cui la numerosità campionaria è assegnata
alle varie parti che compongono il campione. Per esempio, in un campionamento
stratificato, si può assegnare agli strati una numerosità
campionaria proporzionale al numero di individui che appartengono allo
strato, oppure in base a criteri diversi dalla proporzionalità.
Ammissibile,
codice registrato, dato
Ammissibile
è la modalità registrata, afferente ad una unità statistica,
che non contraddice alcuna regola di compatibilità. Si veda: "dato
manifestamente errato".
Ammissibilità
- Ammissibile, strategia
Nella
terminologia tecnica, una strategia (di rilevazione, di analisi etc.) è
ammissibile se non esiste altra strategia con risultati validi per tutti
gli stati di natura possibili e se quella in esame ottiene risultati migliori
per alcuni stati particolari. In altre parole, se esiste una strategia
uniformemente più valida, non è ammissibile alcuna altra
strategia. Quindi, se vogliamo valutare l’ammissibilità di una tecnica
di approccio dei rispondenti per la rilevazione dei dati, dovremo definire
le variabili che determinano la validità della rilevazione (per
esempio, la frazione di risposta, il tasso d’errore nelle risposte, il
costo per informazione, il carico dei lavoro dei partecipanti alla rilevazione
etc.) e, su questa base, determinare quali sono le tecniche ammissibili,
ossia migliori per almeno uno degli aspetti considerati. La scelta della
tecnica appropriata sarà effettuata discriminando tra quelle ammissibili.
Ammontare di informazione (v. Informazione statistica)
Analisi
dei dati
Fase
dell’indagine statistica comprendente la valutazione della qualità
dei dati acquisiti, l’elaborazione statistica e la valutazione dei risultati.
L’analisi dei dati mira all’ottenimento di stime dei cosiddetti parametri
oggetto d’indagine e, talvolta, alla verifica delle ipotesi di ricerca
prefissate. Per l’ottenimento di stime si applicano "stimatori", per la
veriifica statistica delle ipotesi si applicano appositi test che permettono
di esprimere affermazioni sulle ipotesi corredate da probabilità
di verosimiglianza. Nell’ambito dei Sistemi statistici ufficiali, la maggior
parte dell’attività è destinata alla stima di medie, totali,
frequenze relative e assolute, dei loro indici di dispersione e delle altre
statistiche e informazioni che permettono di valutare l’attendibilità
della stima ottenuta.
Analisi della coerenza tra dati (v. Coerenza tra dati, analisi della)
Analisi della concordanza (v. Concordanza tra dati, analisi della)
Anomalo, dato (v. Dato anomalo)
Anonimato
- Anonime, informazioni
Le informazioni
inerenti ad una unità statistica si considerano anonime quando siano
state rimosse le generalità ed altri caratteri identificativi dell’unità,
in modo che sia ridotto ad un livello accettabile il rischio della sua
identificazione diretta.
Anonimo,
questionario
Anonimo
è il questionario nel quale non compare né il nome, né
altro contrassegno che permetta di risalire al rispondente. L’anonimato
del questionario è particolarmente adatto nelle rilevazioni postali
e in altre rilevazioni svolte mediante autocompilazione quando l’argomento
è tale da creare una situazione di ansia nel rispondente. Nelle
rilevazioni ufficiali l’anonimato è scarsamente applicato. D’altronde,
si è anche teorizzato, e anche empiricamente dimostrato, che la
richiesta di apporre la firma su un questionario di fonte ufficiale può
far aumentare la percentuale di collaborazione.
Appaiamento di unità (v. Abbinamento di unità)
Approccio del detentore delle informazioni, modalità di (v. Modalità di approccio del detentore delle informazioni)
Archivio
di dati
Insieme
strutturato di dati inerenti ad un determinato fenomeno o raccolti in una
indagine statistica. Per gli archivi si usa talvolta il termine inglese
file. Gli archivi sono spesso contenuti in "basi di dati".
Area
di interesse, di statistiche
Area
sostantiva i cui aspetti si intendono rappresentare con un insieme di statistiche.
Nell’ambito delle statistiche ufficiali, si individuano le seguenti aree
sostantive: demografica, sociale, economica e ambientale.
Area
rilevata, oggetto della rilevazione
Si intende
il fenomeno o l’insieme dei fenomeni oggetto della rilevazione.
Armonizzazione
di statistiche
E’ il
processo in base al quale statistiche prodotte da Amministrazioni o da
Enti diversi possono essere confrontate. L’armonizzazione riguarda le fonti
di dati per il Sistema Statistico Nazionale, come pure gli Enti nazionali
che producono i dati di base per le statistiche comunitarie dell’EUROSTAT
(CEE 94/0026), nonché gli Stati per i quali le organizzazioni internazionali
affiliate alle Nazioni Unite pubblicano dati. Per armonizzare statistiche
idealmente comparabili si adottano (a) comuni definizioni, nomenclature
e criteri di classificazione delle unità, (b) criteri di produzione
delle statistiche che permettano il confronto tra le stesse, ossia i criteri
di rilevazione e di campionamento devono avere gli stessi riferimenti metodologici,
(c) dettaglio territoriale e temporale tale da rendere possibili le necessarie
aggregazioni e disaggregazioni. Le classificazioni adottate per la rilevazione
delle variabili più complesse (sistemi scolastici, malattie e cause
di morte, professioni, attività economiche, prodotti, merci trasportabili,
etc.), denominate classificazioni-tipo, sono predisposte ed aggiornate
da gruppi di lavoro internazionali a ciò dedicati.
Arrotondamento
E’ il
processo di approssimazione di un numero che comporta omissione di un certo
numero di cifre finali e aggiustando l’ultima cifra espressa in modo da
allontanarlo il meno possibile dal numero originario. Se l’arrotondamento
dell’ultima cifra è verso il numero superiore, si dice arrotondamento
per eccesso, se è verso la cifra inferiore, è per difetto.
Arrotondamento
casuale
Procedura
di correzione delle frequenze di una tabella statistica che sono a rischio
di violazione del segreto statistico. Per correggere le frequenze, si applica
la regola di approssimare ogni frequenza della tabella a multipli di un
numero intero, detto "base", di solito 3, 4 o 5. Talora, a maggiore garanzia
di tutela del segreto, si tace anche sul valore del numero di base cui
ci si attiene nell’arrotondamento.
Asimmetria
- Asimmetrica, distribuzione
Asimmetrica
si dice la distribuzione di frequenze che presenta sulle code valori estremi
con basse frequenze. Si può avere la coda a destra, e in tal caso
l’asimmetria si dice positiva, o la coda a sinistra, e in tal caso l’asimmetria
si dice negativa. In una distribuzione di frequenze di una variabile continua,
la media è condizionata dai valori estremi e, come indice di tendenza
centrale, è considerata meno rappresentativa della mediana, la quale
è insensibile ai valori estremi.
Assillo
del rispondente
Si parla
di assillo del rispondente per indicare l’esasperata richiesta di informazioni
alla popolazione per indagini statistiche. Nella moderna società
dell’informazione, il questionario e l’indagine statistica sono diventati
metodi comuni di ricerca di informazioni possedute da privati e da Enti
pubblici. Nei Paesi statisticamente più avanzati, ciò ha
generato fastidio nella popolazione, oltre che diffidenza per la possibilità
di uso improprio delle informazioni. La limitazione del carico di lavoro
e la tutela della privacy dei rispondenti, con lo sfruttamento più
adeguato dei "giacimenti informativi" delle Pubbliche Amministrazioni,
con la regolamentazione della - e la vigilanza sulla - richiesta e l’utilizzazione
dei dati sono alla base di un corretto rapporto tra i cittadini e le istituzioni,
già previsti dal D.Lgs. 322/1989 e segg.
Astrazione
Fase
di un’indagine o di un esperimento, consistente (i) nel fissare gli obiettivi
dell’indagine, per cui è necessario precisare la popolazione e i
caratteri oggetto d’indagine, (ii) nel determinare le modalità di
acquisizione delle informazioni che permettono il raggiungimento degli
obiettivi della ricerca, (iii) nel prefigurare le modalità di analisi
statistica dei dati, i tempi e le risorse necessari per portare a compimento
l’indagine.
Attendibilità
- Attendibile, dato statistico
Attendibile,
sia in relazione al dato rilevato che alla stima, è il termine comunemente
utilizzato per esprimere un livello di qualità valutabile statisticamente.
L’attendibilità delle stime è misurabile con l’errore medio
di stima. Talvolta, anche a causa della comune traduzione inglese reliability,
al posto di attendibilità si usa il termine "affidabilità".
Atteso, valore (v. Valore atteso)
Attributo
E’ una
caratteristica qualitativa di un individuo. Il termine si usa talvolta
per giustapporre una caratteristica qualitativa ad una quantitativa. Per
esempio, per gli esseri umani, il sesso è un attributo e l’età
è una caratteristica quantitativa. In taluni casi, l’attributo è
una modalità, e quindi identifica una caratteristica dicotomica,
nel senso che le unità della popolazione sono classificabili in
una delle due categorie complementari secondo che possiedano o no lo specifico
attributo. In altri casi, però, si denomina attributo anche la variabile
qualitativa stessa, qualunque sia il numero di possibili modalità;
per esempio, si dice che il gruppo sanguigno di una persona è un
attributo, anche se le alternative di classificazione sono numerose.
Audio-CASI
E’ così
detto il sistema di somministrazione di questionari da autocompilare assistito
da computer (CASI - Computer Assisted Self-administered Interviewing) nel
quale la domanda è somministrata con un sistema audio.
Autonomia
tecnica
E’ il
potere conferito alle autorità nazionali ed internazionali che svolgono
attività statistiche nel definire liberamente i mezzi tecnici idonei
al conseguimento dei compiti e delle attività loro attribuiti, operando
con totale indipendenza nell’ambito delle proprie competenze. L’unico vincolo
all’autonomia è il rispetto della riservatezza nella diffusione
dei dati.
Autoponderante, campione (v. Campione autoponderante)
Avallamento
In una
serie temporale discontinua, è una osservazione di valore inferiore
alle due contigue; in una serie continua, è un punto di minimo.
Banca
dati
Insieme
strutturato e permanente di archivi di dati di grandi dimensioni, inerenti
ad uno o più fenomeni sociali, economici o naturali, accessibile
mediante programmi predisposti ad hoc. Oggi si tende a gestire le banche
dati come "basi di dati" informatiche.
Base
Valore
o grandezza usata come standard di riferimento. Si può trattare
del denominatore per il calcolo di un rapporto o di una percentuale. Può
essere una grandezza di riferimento per il calcolo di una serie temporale
di numeri indici relativi, di cui costituisce il "periodo di base".
Base
di campionamento
E’ la
lista comprendente le unità della popolazione che si intende sottoporre
a campionamento. La lista può essere costituita dalle sole etichette
identificative delle unità o anche da altre informazioni utili alla
selezione del campione (probabilità di selezione, caratteri di stratificazione
etc.) o alla successiva stima (variabili ancillari etc.). Una base di campionamento
che non comprenda tutte le unità della popolazione ideale, può
dare origine a campioni distorti, ossia campioni nei quali certe categorie
di unità sono sistematicamente assenti.
Base
di dati
Archivio
di dati caratterizzato da criteri di accesso e gestione automatizzati.
Tra i criteri di gestione sono comuni le possibilità di identificare
e correggere eventuali errori, di visualizzare i dati, di manipolare l’archivio
di dati, di interfacciarlo con altri archivi o con altri programmi di gestione.
Bisogno
di informazioni
E’ l’insieme
delle esigenze informative dell’utenza. In relazione ad una indagine, il
bisogno di informazioni è espresso come insieme di statistiche da
stimare e di ipotesi da verificare con l’indagine o con l’esperimento statistico
in progetto.
Campionamento
alla rinfusa, di materiali
Indica
il campionamento di materiali che si trovano accumulati alla rinfusa. E’,
cioè, la popolazione alla rinfusa, non necessariamente il campione
risultante. Tale tipo di campionamento è applicato a materiali stivati
senza contenitori nelle navi o in magazzini (carbone, grano, tabacco etc.)
Campionamento areale (v. Campionamento di aree)
Campionamento
a rete
E’ una
procedura per la rilevazione di popolazioni rare che consiste nella ricostruzione
della popolazione chiedendo alle unità individuate di segnalare
altre unità del loro intorno. Per esempio, ad una donna selezionata
da una lista di donne che hanno avuto un aborto in un dato periodo si può
chiedere di elencare altre donne della propria zona che hanno avuto la
stessa esperienza. La tecnica permette sia di ricostruire una più
ampia lista della popolazione, sia di valutare la qualità della
lista disponibile.
Campionamento a scelta ragionata (v. Campione a scelta ragionata)
Campionamento
a valanga
Metodo
di campionamento consistente nel selezionare casualmente n unità,
a ciascuna delle quale viene chiesto di indicare altre k unità che
appartengono alla stessa popolazione, per s stadi successivi. Il campionamento
si dice a valanga perchè ad ogni stadio il campione coinvolge nuove
unità. Un semplice schema di campionamento di questo tipo è
il campionamento basato sulla tecnica dei "tre amici più prossimi",
ossia sulla richiesta rivolta al campione di individui di decrivere la
situazione dei tre amici più prossimi, soprattutto su temi delicati,
per i quali è difficile ottenere risposte dirette.
Campionamento
annidato
Termine
pittoresco da taluni adottato in luogo di "campionamento su più
stadi", dato che a ciascun livello le unità sono "annidate" in quelle
di livello superiore selezionate.
Campionamento bernoulliano (v. Campionamento con reinserimento)
Campionamento casuale (v. Campionamento probabilistico)
Campionamento
casuale semplice
E’ il
metodo di selezione di campioni casuali nel quale ogni membro della popolazione
ha una uguale probabilità di selezione e le estrazioni successive
sono indipendenti. Un metodo di formazione di tali campioni è il
campionamento con reimmissione.
Campionamento
cattura-etichettatura-ricattura
Metodo
di campionamento particolarmente adatto alla rilevazione di popolazioni
animali selvatiche. Il procedimento consiste (i) nella cattura di un campione
casuale di animali, (ii) nella loro etichettatura con segni che ne permettano
il successivo riconoscimento (per esempio, per marcare gli uccelli, si
usa attaccare ad una zampa una iscrizione su metallo leggero), (iii) nella
loro ricattura e conta della frequenza di animali variamente etichettati.
In questo modo, si possono determinare, tra l’altro, gli spostamenti degli
animali, al loro demografia etc. E’ comunemente metodo "cattura-ricattura",
lasciando sottintesa l’operazione di etichettatura.
Campionamento censurato (v. Rilevazione incompleta)
Campionamento
complesso
Modo
di indicare un campionamento svolto con procedure diverse da quella semplice.
Tipicamente, il campionamento complesso riguarda la selezione da liste
di sub-popolazioni ("campionamento stratificato"), la selezione da liste
gerarchicamente strutturate ("campionamento su più stadi", "campionamento
in più fasi"), la selezione da liste riferentesi alla stessa popolazione
in diversi punti temporali ("campionamento ripetuto", "campionamento ruotato"),
e altre forme di campionamento particolari.
Campionamento
con reinserimento
Con
reinserimento, o bernoulliano, è detto il criterio di selezione
casuale di campioni nel quale, dopo ogni estrazione di unità, si
reiserisce l’unità estratta nell’urna. L’estrazione con reinserimento
si può effettuare anche con le "tavole dei numeri casuali". V. anche
"selezione di campioni".
Campionamento
da liste
Si dice
"da liste" il campionamento nel quale le unità sono selezionate
da una o più liste nelle quali sono elencate le unità della
popolazione. Si giustappone al campionamento di aree, nel quale, invece,
le unità sono identificate sul territorio, al momento della rilevazione.
Campionamento
di aree
Si denomina
di aree, o areale, o di areole, o aereolare, il campione formato individuando
con criteri probabilistici le superfici entro, o sopra, o sotto le quali
si intende osservare un fenomeno. La lista dalla quale si seleziona il
campione di aree è composta da particelle del territorio sul quale
si intende svolgere la rilevazione. Si adotta in alternativa al cosiddetto
"campionamento da liste" per indagini su popolazione e aziende; è
il modo ovvio per indagini ecologiche, per rilevazioni su animali selvatici,
per talune indagini agricole e forestali. Si usa anche per il controllo
di qualità dei dati rilevati presso campioni di cui è incerta
la completezza e, in alternativa a quello da liste quando le liste non
sono accurate o aggiornate.
Campionamento di grappoli (v. Campionamento su più stadi; Grappolo)
Campionamento di linee (v. Campionamento su linee)
Campionamento
di punti
Metodo
di individuazione casuale di punti su una mappa, o direttamente sul
terreno,
per sottoporli a rilevazione. Si usa, tra l’altro, per valutare la qualità
dei suoli o per piantarvi dei sistemi di rilevazione di caratteristiche
atmosferiche.
Campionamento
di quote
Tipo
di campionamento non probabilistico nel quale, a ciascun rilevatore, è
assegnato un certo numero di individui, detto "quota", da rilevare, ma
la scelta delle unità è lasciata alla sua soggettiva scelta.
Normalmente, le quote sono precisate in termini di caratteristiche della
popolazione, per esempio, sesso, età e condizione professionale.
Il rilevatore può scegliere le unità da rilevare purché
rispetti le quote assegnate. Spesso si aggiungono anche vincoli sui criteri
di individuazione delle unità, come l’obbligo di seguire un certo
percorso. Queste accortezze mirano a limitare la soggettività della
scelta con questo tipo di campionamento.
Campionamento
diretto
Termine
impropriamente impiegato per indicare la rilevazione diretta delle unità
di un campione o della popolazione.
Campionamento
distorto
Si usa
per definire un processo di campionamento che incorpora una
componente
d’errore sistematica, in giustapposizione ai piani di campionamento che
generano solo l’errore casuale, che si compensa in media. Sono tendenzialmente,
anche se non necessariamente, distorti i processi di campionamento non
probabilistici, in particolare quelli fondati sul giudizio soggettivo di
uno o pochi addetti alla formazione del campione.
Campionamento di zone (v. Campionamento di aree)
Campionamento
doppio
Nel
campionamento per il controllo industriale, si dice "doppio" il campione
formato da due sottinsiemi di numerosità n1 e n2, di cui si esamina
il primo e, sulla base delle risultanze, si decide se accettare o respingere
il lotto, e si esamina il secondo solo se l’esame del primo campione è
insifficiente per decidere. Il termine si usa anche nel "campionamento
in più fasi" per denotare un campione selezionato in seconda battuta
da un campione di più ampie dimensioni tratto dalla popolazione
e insufficiente per informare sul fenomeno su cui si ricerca. Tipicamente,
il primo campione sarà facile da ottenere e a basso costo, mentre
il secondo richiedererà maggiori risorse ma risultati più
vicini a quelli cui si mira con l’indagine.
Campionamento esaustivo (v. Rilevazione totale, esaustiva)
Campionamento
estensivo
Espressione
che indica un campionamento di unità, aree etc. che contengono un
numero limitato di unità della popolazione o che sono osservate
a larghi intervalli di tempo. In questo senso il campionamento estensivo
si giustappone a quello intensivo. Quando l’azione descritta riguarda la
rilevazione e non la selezione campionaria, è preferibile usare
l’espressione rilevazione estensiva.
Campionamento in blocco (v. Campionamento senza reinserimento)
Campionamento
indiretto
Termine
impropriamente impiegato per indicare la rilevazione indiretta di informazioni
assumendole da documenti, registri etc., invece che direttamente dalle
unità cui le informazioni si riferiscono.
Campionamento
in più fasi
Campionamento
effettuato selezionando nella prima fase dalla popolazione, nella seconda
e nelle successive campioni di dimensione sempre più ridotta. Si
applica quando il campione ottenuto nelle prime fasi è praticamente
ed economicamente conveniente e può dare informazioni suppletive
non altrimenti disponibili per la stratificazione e per l’adozione di stimatori
di tipo rapporto o regressione. Non va confuso con il campionamento su
più stadi. La forma più frequente di campionamento in più
fasi è il cosiddetto "campionamento doppio", costituito cioè
da due fasi, nella prima delle quali si trae un campione che viene esaminato
e poi viene tratto da questo un campione di minori dimensioni basato anche
sulle informazioni (per esempio, variabili di stratificazione) ottenute
dal primo campione.
Campionamento
intensivo
Si usa
talvolta questa espressione per indicare il campionamento in una determinata
area caratterizzata da una elevata densità di punti da campionare
e anche il campionamento su un insieme ristretto di elementi che si esaminano
a fondo. E’ preferibile l’espressione "rilevazione intensiva".
Campionamento lungo linee (v. Campionamento su linee)
Campionamento lungo strade (v. Campionamento su strade)
Campionamento
misto
Campionamento
nel quale si possono intravedere due o più metodi di campionamento
fondamentali. Per esempio, in due strati diversi, si possono selezionare
le unità con due tecniche diverse, tra le altre, casuale semplice
e sistematica. Il termine è poco usato e forse neppure consigliabile.
Campionamento multi-fase (v. Campionamento in più fasi)
Campionamento
non probabilistico
Non
probabilistico, o "rappresentativo", è detto il campionamento di
unità che non segue criteri probabilistici. Tra i più comuni
campioni non probabilistici si individuano i campioni "a scelta ragionata"
e i campioni "per quote", di uso frequente nelle indagini di mercato e
nelle indagini non impegnate scientificamente. Rispetto a quelli probabilistici,
i campioni non probabilistici presentano il duplice svantaggio di rendere
incontrollabile il rischio di distorsioni nel processo di formazione dei
dati e di non permettere la valutazione con metodi analitici dell’errore
di stima. Un tipo di campionamento sicuramente distorto è quello
detto "a casaccio", ossia la rilevazione svolta solo su unità che
aderiscono volontariamente all’indagine.
Campionamento ottimale (v. Campionamento stratificato)
Campionamento per quote (v. Campione per quote)
Campionamento
probabilistico
Probabilistico,
o casuale, o statistico, è detto il campionamento nel quale, ad
ogni unità della popolazione, è attribuita una probabilità
positiva e nota di far parte del campione. Dal punto di vista operativo,
tale procedura comporta l’utilizzazione in modo appropriato delle tecniche
per la selezione casuale del campione. L’applicazione di queste tecniche
è finalizzata all’ottenimento dell’indipendenza del campione da
qualsiasi variabile interna o esterna all’indagine, compreso, in particolare,
l’orientamento di colui che sta predisponendo il campione.
Campionamento proporzionale (v. Campionamento stratificato)
Campionamento
rappresentativo (v. Campionamento non probabilistico)
In senso
esteso, qualsiasi campione tratto con intenti di rappresentare la popolazione
è rappresentativo. Oggi il termine indica un tipo di campionamento
non probabilistico nel quale le unità sono scelte con criterio di
tipicità rispetto a certe caratteristiche, comunque scelte, della
popolazione. Un campionamento rappresentativo in questo senso è
quello formato individuando quote della popolazione. Questa accezione è
contestata da coloro che vedono la rappresentatività determinata
unicamente da criteri casuali di selezione. Se si parla di campioni rappresentativi,
invece che di campionamento rappresentativo, ossia del risultato invece
che delle intenzioni, il termine rappresentatività acquisisce il
suo significato primario.
Campionamento
ruotato
Si dice
ruotato il disegno di campionamento per rilevazione in occasioni successive
nel quale le unità campionarie sono parzialmente sovrapposte in
due o più occasioni. Il disegno più elementare è quello
in cui, a partire dalla seconda occasione, si sovrappone con la precedente
occasione il 50% del campione. Il criterio di sovrapposizione tra occasioni
e la possibilità per le unità di uscire dal campione per
un certo numero di occasioni e poi rientrare qualificano questo disegno.
Campionamento
senza reinserimento
Senza
reinserimento, o in blocco, è detto il criterio di selezione casuale
di campioni nel quale l’unità estratta non viene reinserita nell’urna.
L’estrazione senza reinserimento si può effettuare anche con le
"tavole dei numeri casuali". Si veda anche "selezione di campioni".
Campionamento
simmetrico
Espressione
desueta che denota la selezione equiprobabile di unità a fini di
campionamento.
Campionamento
sistematico
Selezione
di campioni casuali effettuata mettendo in sequenza le unità da
campionare e selezionandone una ogni tante, a partire da una selezionata
casualmente. Il salto tra due unità selezionate si chiama "passo
di campionamento". Il campionamento sistematico si può applicare
sia ad una popolazione alle cui unità sono state assegnate le stesse
probabilità di selezione, e in tal caso le unità campionarie
hanno uguale probabilità n/N di inclusione, ovvero probabilità
di selezione variabile, e in tal caso ogni unità ha probabilità
di inclusione n pi, dove pi è la probabilità di selezione
assegnata.
Campionamento
stratificato
Campionamento
svolto selezionando un campione da ciascuno strato. Nel ripartire il campione
tra gli strati, si può adottare una delle seguenti tecniche (i)
la cosiddetta "allocazione proporzionale", ossia la selezione di un’uguale
proporzione da ciascuno strato, (i) l’allocazione "ottimale", o di Neyman-Tschuprow,
nella quale la numerosità assegnata ad uno strato è funzione,
oltre che del numero di unità appartenenti allo strato, anche della
variabilità interna allo strato e al costo della rilevazione delle
unità dello strato, (iii) altri criteri di ripartizione del campione
finalizzati alla ottimizzazione del campione.
Campionamento
su griglie
Caso
particolare del "campionamento di aree", nel quale il territorio da sottoporre
a rilevazione è suddiviso in areole di ampiezza e forma costante
disposte secondo una regolarità geometrica. E’ detto da taluni "campionamento
di configurazioni".
Campionamento
su linee
Su linee,
o lungo linee, è detto il metodo di campionamento geografico consistente
nel tracciare delle linee sull’area e nell’includere nel campione tutte
le unità che cadono sulla linee o che le "intersecano". Se le linee
sono parallele, il campionamento è assimilabile a quello sistematico.
Se, invece, si prendono punti equispaziati sulle linee, il campionamento
è simile ad una griglia e si può considerare un caso particolare
del campionamento su più stadi.
Campionamento
su più stadi
Campionamento
realizzato selezionando per stadi, o livelli, le unità campionarie.
Ad ogni stadio, le unità sono selezionate da unità campionarie
di maggiori dimensioni selezionate allo stadio precedente. Per esempio,
per formare un campione di famiglie, si può selezionare al primo
stadio un campione di comuni e al secondo stadio un campione di famiglie
traendole dalle liste anagrafiche dei comuni campione. Le unità
selezionate al primo stadio si dicono "primarie", quelle del secondo "secondarie",
etc.; le unità dell’ultimo stadio si dicono, talvolta, "finali".
E’ un tipo di campionamento che si applica, in particolare, quando non
sono note le liste della popolazione da sottoporre a rilevazione. Per selezionare
un campione dal secondo stadio in poi è, infatti, sufficiente conoscere
le liste delle sole unità selezionate allo stadio immediatamente
superiore.
Campionamento
su strade
Su strade,
o lungo strade, è detto il metodo di campionamento, in uso prevalentemente
nelle rilevazioni agricole, svolto lungo strade di distretti agricoli.
Si esplica rilevando, con riferimento al campionamento sistematico, le
colture visibili dalle strade campione. Dato che è improbabile che
le strade siano casuali, il campione risultante è tendenzialmente
distorto, ma la rilevazione svolta percorrendo sempre le stesse vie può
essere valida per rilevare le variazioni nelle colture.
Campionamento zonale (v. Campionamento di aree)
Campione
Data
una popolazione statistica composta da N unità, con N qualsiasi
(anche infinito), si denomina campione l’insieme delle n unità selezionate
fra le N che compongono la popolazione. Un campione può essere formato
in base a logiche probabilistiche, e allora si dice probabilistico, oppure
in base a criteri soggettivi di rappresentatività, e allora si dice
non probabilistico. Le tecniche campionarie sono utilizzate per stimare
statistiche della popolazione, ad esempio: medie, totali, rapporti fra
variabili. Le stime ottenute in base a campioni di popolazione sono soggette
all’errore campionario.
Campione abbinato (v. Campioni abbinati)
Campione a più stadi (v. Campione su più stadi)
Campione
a scelta ragionata
Campione
costruito in modo da assomigliare, per alcune caratteristiche fondamentali
(per esempio, in una indagine su popolazioni umane, per il sesso, l’età,
la professione, etc.) alla popolazione statistica che si vuole rappresentare.
Le informazioni sulla struttura della popolazione devono essere note a
priori. Si tratta di metodi piuttosto arbitrari da impiegare soprattutto
negli studi comparativi di situazioni tipiche non altrimenti rilevabili.
Tra i tanti meodi di formazione di campioni a scelta ragionata, si annovera
il "campione di unità tipiche". Questo è formato da unità
tratte da certi strati o sottocampioni relativamente omogenei per alcune
caratteristiche fondamentali di classificazione. La tecnica si basa sulla
logica che le variabili afferenti ad un’unità statistica sono interdipendenti
e che, se una unità è vicina alla media della popolazione
per una variabile, in generale differirà di poco dalla media della
popolazione anche per diverse altre.
Campione
autoponderante
Campione
le cui unità hanno uguale probabilità di appartenervi. L’autoponderazione
del campione permette di realizzare stime corrette operando nel modo più
semplice, ossia come se la rilevazione fosse esaustiva. Il campione può
non essere autoponderante: (a) quando le unità sono state selezionate
con probabilità diseguali; (b) quando la copertura di un eventuale
campione autoponderante è incompleta. Nel caso di mancata autoponderazione,
per ottenere stime corrette, si dovrà assegnare ad ogni unità
statistica un peso variabile e proporzionale all’inverso della probabilità
di appartenere al campione, in modo da far pesare di più nella stima
le unità con probabilità più basse e, viceversa, da
ridurre il peso delle unità selezionate con probabilità elevate.
Campione casuale semplice, campione semplice (v. Campionamento casuale semplice)
Campione censurato (v. Campione incompleto)
Campione complesso (v. Campionamento complesso)
Campione
corretto
Campione
ottenuto con un metodo corretto, ossia privo di distorsione. La distorsione
può verificarsi sia nel processo di selezione delle unità,
sia nelle procedure di formazione delle liste e di contatto delle unità.
Secondo alcuni studiosi, la correttezza del campionamento si valuta anche
rispetto alla prassi di rilevazione adottata e ai problemi incontrati nell’espletamento
della rilevazione. Per non ingenerare confusione, conviene restringere
il significato dell’espressione alla formazione del campione.
Campione
di linee (v. Campionamento su linee)
Campione
distorto
Campione
ottenuto con un piano di campionamento distorto. Si veda anche "campione
corretto".
Campione
fisso
Nelle
indagini ripetute nel tempo, si dice fisso il campione che viene osservato
ripetutamente invece di selezionare nuovi campioni ad ogni occasione. Il
campione fisso è spesso denotato con il termine inglese panel.
Campione non probabilistico (v. Campionamento non probabilistico)
Campione
per quote
Per
quote, o di quote, è detto il campione non probabilistico per la
cui formazione vengono fissati a priori solo la dimensione totale del campione
in alcuni strati significativi e il numero di unità da assegnare
ad ogni rilevatore. La scelta delle unità campionarie è lasciata
all’iniziativa degli intervistatori sotto la condizione che rispettino
le quote di popolazione che presentano le caratteristiche di strato prefissate.
Le quote per strato vengono determinate in base alla conoscenza della distribuzione
marginale o congiunta di alcuni caratteri legati alle variabili che si
studiano nella popolazione o nelle sottopopolazioni in cui la stessa è
stata preventivamente suddivisa. Per introdurre una forma di controllo
sulla selezione del campione, si può fare in modo che gli intervistatori
seguano particolari percorsi, oppure che intervistino il tipo di persone
designate nel luogo in cui svolgono la loro attività.
Campione probabilistico (v. Campionamento probabilistico)
Campione ripetuto (v. Campioni ripetuti)
Campione ruotato (v. Campionamento ruotato)
Campione stratificato (v. Campionamento stratificato)
Campione su più stadi (v. Campionamento su più stadi)
Campioni
abbinati
Coppia,
o insieme di ordinalità superiore, di campioni i cui elementi sono
stati abbinati sulla base di una o più variabili diverse da quella
oggetto d’indagine. Lo scopo dell’abbinamento è la rimozione di
possibili effetti confondenti delle relazioni tra variabili non-abbinate
e la variabile o le variabili criterio dell’analisi (v. Abbinamento)
Campioni
equivalenti
Equivalenti
dal punto di vista statistico sono i campioni selezionati con lo stesso
schema di campionamento e di pari numerosità, dai quali, in forza
della casualità della selezione, ci si aspetta la stessa informazione
sui parametri in esame.
Campioni
compenetrati
Compenetrati,
o compenetranti, si dicono i (sub)campioni selezionati dalla stessa popolazione
con lo stesso processo di selezione. La formazione di campioni compenetrati
permette di valutare le differenze tra campione e campione come attribuibili
al caso e, quindi, permette di stimare le componenti di variabilità
delle stime anche quando non sia nota la distribuzione dello stimatore.
La tecnica dei campioni compenetranti, mediante assegnazione casuale di
un sub-campione ad ogni addetto, si applica a fini di stima della varianza
del rilevatore, del supervisore, del codificatore.
Campioni
duplicati
Campioni
formati da unità comuni. Normalmente, queste unità comuni
sono rilevate da diversi rilevatori, o codificate da diversi codificatori,
o memorizzate da diversi addetti alla memorizzazione, per valutare la coerenza
tra gli esiti della stessa azione (rilevazione, codifica, memorizzazione)
svolta da diversi addetti.
Campioni
ripetuti
Campioni
formati per la seconda o per successive volte per assegnarlo a unità
diverse di rilevazione, codifica, digitazione, analisi. Un caso particolare
di campioni ripetuti sono quelli "compenetrati", ossia selezionati casualmente
dalla stessa popolazione e poi attribuiti ad unità diverse al fine
di valutare le differenze tra i valori medi delle osservazioni ottenuti
da queste unità.
Campo
di osservazione
Ambito
della rilevazione definito dal "caso statistico", ossia dalla categoria
di enti che hanno lo stesso nome ("nome comune"). Gli enti rientranti nel
campo e sottoposti a rilevazione si chiamano unità statistiche.
Da esse si distinguono le unità di rilevazione, strumenti prescelti
per effettuarla nel modo più soddisfacente. Unità statistiche
sono, ad esempio, i censiti, unità di rilevazione le famiglie di
censimento, le convivenze, gli individui singoli nei casi speciali, o altro.
Campo
di variazione
Differenza
tra il massimo e il minimo valore della distribuzione di una variabile
quantitativa. Il campo di variazione è una misura grezza di variabilità
che, nel campionamento ripetuto, può essere assunta per stimare
lo scarto quadratico medio della popolazione.
Canale
di acquisizione dei dati
Metodo
seguito per il reperimento di informazioni e dati utilizzabili a fini statistici.
Per reperire dati statistici si possono utilizzare registri amministrativi
oppure impostare indagini statistiche ad hoc. Le registrazioni di carattere
amministrativo sono molteplici (Ministero delle Finanze, USL, statistiche
dell’anagrafe e dello stato civile, catasto edilizio etc.) e possono, e
sono, utilizzate a fini statistici dal Sistema Statistico Nazionale: oltre
il 70% delle statistiche pubblicate dall’ISTAT è di origine amministrativa.
Le indagini statistiche ad hoc possono essere dirette o indirette. Le indagini
dirette sono svolte mediante un questionario che può essere autocompilato
dai rispondenti o somministrato da rilevatori. Tra le indagini svolte per
autocompilazione del questionario ha particolare rilevanza metodologica
l’indagine postale; tra quelle svolte per intervista, si distingue l’intervista
faccia-a-faccia, svolta di norma presso l’abitazione del rispondente, da
quella telefonica, svolta ovviamente tramite telefono. Le indagini dirette
riguardano obiettivi di stima che non possono essere soddisfatti usufruendo
di dati già disponibili: infatti, se è possibile adattare
un dato amministrativo a fini di analisi statistica, è opportuno
rivolgersi al canale amministrativo, sia per motivi di economicità
dell’acquisizione, sia per diminuire il cosiddetto "assillo dei rispondenti".
Canale
di diffusione dei dati ufficiali
Mezzo
utilizzato per far conoscere all’utenza le statistiche ufficiali. I canali
principalmente utilizzati per la messa a disposizione delle statistiche
ufficiali sono: (i) i comunicati stampa, utilizzati particolarmente per
la tempestività della divulgazione; (ii) i notiziari, volumi di
formato ridotto che informano sulle materie sulle quali, in linea di massima,
saranno diffuse pubblicazioni più analitiche e circostanziate; (iii)
i volumi a stampa, predisposti secondo indicazioni fissate in uno style
book dell’ISTAT e talvolta accompagnati da un supporto magnetico riproducente
i dati delle tabelle; (iv) il catalogo delle informazioni disponibili,
che riporta anche, per ogni categoria di informazione, le varie categorie
"multimediali" disponibili; (v) il dizionario dei dati statistici, in via
di costruzione, che consiste in un repertorio informatizzato delle indagini,
delle variabili e delle definizioni impiegate nelle indagini stesse; (vi)
il Centro diffusione multifunzionale dell’ISTAT di Roma, presso il quale
è possibile accedere a tutti i dati informatizzati e alle pubblicazioni
diffuse dall’Istituto; (vii) la Biblioteca dell’ISTAT. I risultati di un’indagine
statistica sono diffusi mediante uno o più dei seguenti canali:
(a) pubblicazioni su volumi, notiziari e altri documenti cartacei, (b)
comunicazioni a convegni, seminari scientifici etc., dove si presentano
i risultati innovativi della ricerca, (c) files di dati registrati su supporto
magnetico, come nastri magnetici, compact disk, CD-Rom, oppure trasmessi
direttamente per via telematica (quando le banche dati siano accessibili
da terminale collegato).
CAPI
- Computer Assisted Personal Interviewing
Acronimo
che indica il sistema di rilevazione assistito da computer, basato sulla
tecnica dell’intervista faccia-a-faccia. Il sistema consiste nella utilizzazione
di micro-computer portati dai rilevatori presso le abitazioni dei rispondenti.
Sul computer è reso disponibile il questionario informatizzato e
un programma di acquisizione delle informazioni digitate a seguito delle
risposte ottenute dai rispondenti.
Carattere statistico (sinonimo di: Variabile statistica)
Carico
di lavoro
In una
indagine statistica, indica l’entità dell’impegno chiesto ai vari
insiemi di unità designate per la rilevazione e l’elaborazione dei
dati. Tra gli insiemi il cui carico di lavoro è rilevante per la
definizione del piano d’indagine, si individuano i rispondenti, gli eventuali
rilevatori, gli eventuali supervisori, i codificatori delle risposte ottenute
"in chiaro", gli addetti alla memorizzazione dei codici di risposta, gli
addetti alla revisione manuale delle informazioni rilevate.
Carico
di lavoro del rispondente
In una
indagine statistica, riguarda sia il numero di domande poste alle unità
designate a rispondere, sia le difficoltà inerenti alle stesse.
Quando il carico di lavoro fa riferimento all’insieme delle indagini cui
è assoggettata la più generale popolazione, si parla di "assillo
dei rispondenti".
Carico
di lavoro del rilevatore
In una
indagine statistica svolta mediante rilevatori, si dice carico di lavoro
del rilevatore il numero (medio) di unità assegnate a ciascun rilevatore.
Il carico di lavoro dei rilevatori è un elemento fondamentale della
struttura del piano di rilevazione: il carico dovrà essere tanto
più contenuto quanto più è sensibile l’errore dei
rilevatori. Un carico di lavoro pesante si traduce, in genere, in un incremento
della varianza di rilevazione.
Carico
di lavoro del supervisore
In una
indagine statistica svolta mediante rilevatori e supervisori, o coordinatori
dell’attività di rilevazione, si dice carico (di lavoro) del supervisore
il numero (medio) di rilevatori assegnati a ciascun supervisore. Il carico
di lavoro dei supervisori è un elemento importante della struttura
del piano di rilevazione: il carico dovrà essere tanto più
contenuto quanto più è evidente la tendenza dei supervisori
ad inserire soggettività nello svolgimento del proprio compito.
Un carico di lavoro pesante si traduce, in genere, in un incremento della
varianza di rilevazione.
Carico
di lavoro del codificatore
In una
indagine statistica nella quale si debbano impiegare codificatori delle
risposte "in chiaro", ossia delle risposte libere a domande aperte, si
dice carico di lavoro del codificatore il numero (medio) di unità
assegnate a ciascun codificatore. Il carico di lavoro dei rilevatori è
un elemento fondamentale del piano di codifica: il carico dovrà
essere tanto più contenuto quanto più è alto l’errore
atteso dei codificatori. Un carico di lavoro pesante si traduce, in genere,
in un incremento della varianza extra-campionaria.
Cartogramma
Diagramma
che rappresenta informazioni statistiche di tipo descrittivo mediante simboli,
tratteggi o colori diversi, o mappe. E’ una tecnica di rappresentazione
grafica che si presta in modo particolare per rappresentare distribuzioni
geografiche.
CASI
- Computer Assisted Self-administered Interviewing
Acronimo
che indica il sistema di rilevazione assistito da computer basato sul questionario
da autocompilare assistito dal computer. Consiste nel rendere disponibile
al rispondente un computer sul quale è attivo un programma che attiva
le domande e memorizza le risposte. L’interpellato sente le domande per
cuffia (si parla allora di Audio-CASI) e le legge dallo schermo del computer
(Video-CASI) e risponde digitando le risposte sulla tastiera del computer.
Caso
Termine
che si assume per rappresentare un concetto indefinito, o, se il concetto
è definito, è espresso in relazione al concetto di probabilità.
Un processo di selezione di campioni è casuale se ad ogni unità
della popolazione è assegnata una probabilità nota e positiva
di essere inclusa nel campione.
Caso
unico
Unità
statistica che, sola nella popolazione, presenta determinate caratteristiche
rispetto a "variabili chiave". I casi unici possono essere collegati ad
archivi esterni e possono quindi essere identificati. Per esempio, se si
considerano le variabili superficie aziendale e comune di localizzazione
delle aziende del Censimento dell’agricoltura, può verificarsi il
caso che, in un determinato comune, esista solo un’azienda di superficie
così ampia da poter essere individuata nella classe di ampiezza
superiore delle pubblicazioni censuarie.
Caso
statistico
Risultato
di un’operazione mediante la quale si realizza una visione schematica della
realtà, orientata da obiettivi specifici di conoscenza ed operativi.
Ogni entità potenzialmente destinata a costituire una unità
statistica è considerabile nell’insieme dei caratteri che la contraddistinguono:
il caso statistico nasce da una visione semplificata, la quale isola i
caratteri interessanti per il particolare obiettivo, e quindi meritevoli
di attenzione, da altri ritenuti irrilevanti e quindi trascurati. La formazione
del caso si completa con una specificazione, per ciascun carattere, dell’elenco
esaustivo di modalità mutuamente escludentisi che possono presentarsi
nell’unità statistica e sollecitare attenzione mirata. La formazione
del caso è un momento creativo, un’astrazione che precede la rilevazione
di cui costituisce l’essenziale punto di partenza. Un modello di rilevazione
ne costituisce la visibile espressione linguistica.
Casualità della selezione di campioni (v. Selezione di un campione)
Categoria
Modalità
di una variabile nominale.
Catena
Nell’analisi
delle serie temporali di indici, indica la sequenza di elementi nella quale
ogni elemento dipende, in un modo definito, dal precedente. Nella costruzione
di serie di indici dei prezzi, è il metodo per la costruzione di
indici concatenati.
CATI - Computer Assisted Telephone Interviewing Acronimo che indica il sistema di rilevazione assistito da computer basato sull’intervista per via telefonica. I sistemi CATI, che oggi hanno quasi ovunque sostituito le rilevazioni telefoniche con "carta e penna", sono costituiti da un programma informatico che gestisce il questionario e, nei sistemi più evoluti, anche l’intero processo di rilevazione e di elaborazione statistica dei dati. L’intervista si svolge con l’intervistore che, avendo di fronte il computer, colloquia con il rispondente e registra immediatamente le risposte. Il sistema è in grado di effettuare un controllo automatico delle risposte e di segnalare eventuali incoerenze tra risposte date in precedenza, nonché di scegliere il percorso di questionario adeguato per le caratteristiche del rispondente. Per esempio, se la persona si è dichiarata occupata, appariranno sullo schermo solo le domande pertinenti e non, tra le altre, le domande sui modi in cui cerca occupazione. I sistemi CATI possono essere centralizzati, e allora si può anche esercitare un’attività di supervisione in tempo reale del lavoro svolto, o locali, ossia utilizzati presso l’abitazione del rilevatore.
Cell (v. Modalità)
Cella, di un tabella (v. Modalità congiunta)
Censimento
Rilevazione
svolta al fine di accertare la consistenza numerica, le principali caratteristiche
strutturali e la distribuzione territoriale delle unità di una popolazione
statistica. Il censimento è una rilevazione diretta, individuale,
nel senso che ogni unità rispondente viene enumerata separatamente
con tutte le caratteristiche, previste dal piano di rilevazione, trasversale,
ossia riferita ad un preciso istante, con periodicità definita,
solitamente decennale. In Italia, si svolgono a cadenze decennali, rilevazioni
censuarie sulla popolazione, le famiglie e le abitazioni ("Censimento generale
della popolazione e delle abitazioni"), sulle imprese industriali e del
terziario, comprese le istituzioni pubbliche e private ("Censimento generale
dell’industria e dei servizi"), e, a cadenze quasi regolari, anche il censimento
delle aziende agricole e forestali ("Censimento generale dell’agricoltura").
Il censimento è l’esempio più classico di rilevazione totale,
che prende cioè in considerazione tutte le unità del collettivo
di riferimento, tanto che l’espressione "censimento incompleto" è
usato da taluni per indicare l’insuccesso nella rilevazione di tutte le
unità della popolazione. Nel corso dell’ultimo ciclo di censimenti,
in alcuni paesi, alcuni dati censuari sono stati raccolti o elaborati utilizzando
metodi campionari, permettendo un notevole risparmio di risorse senza tuttavia
compromettere la qualità dei dati finali. Nel censimento della Gran
Bretagna dl 1991, ad esempio, per le variabili difficili da codificare,
come l’occupazione, sono stati immessi ed elaborati solamente i dati relativi
ad un campione del 10% della popolazione. Negli U.S.A., invece, il Bureau
of the Census prevede di adottare il campionamento nel censimento del 2000
per raccogliere dati relativi alle minoranze etniche che, tradizionalmente,
presentano particolari difficoltà per quanto riguarda il grado di
copertura e la qualità delle informazioni raccolte. Un’altra strada
percorsa con successo da diversi paesi dell’Europa settentrionale consiste
nell’utilizzo a fini censuari dei registri amministrativi. Nel 1990 e 1991,
infatti, in Danimarca e Finlandia hanno svolto per la prima volta censimenti
basati esclusivamente su informazioni presenti nei registri amministrativi,
mentre Belgio, Olanda e Svezia hanno utilizzato anche informazioni provenienti
da rilevazioni campionarie.
Censimento
per campione
Indagine
campionaria svolta a fini di censimento. Siccome i censimenti richiedono
l’impiego di risorse umane, materiali e finanziarie notevoli e la qualità
dei dati rilevati è spesso problematica, si è discusso e
si discute, anche in Italia, sull’opportunità di svolgere rilevazioni
alternative ai censimenti. In alcuni Paesi dell’Europa settentrionale,
sono stati eseguiti censimenti per campione abbinando registri di popolazione
e rilevazioni a rotazione della popolazione nel corso di un decennio (v.
Censimento). In Germania, dove è stato svolto un censimento su base
campionaria, è stato denominato Mikrozensus.
Censura - Censurato, campione (v. Troncamento - Troncata, distribuzione campione)
Centralità (v. Tendenza centrale)
Ciclo
In senso
stretto, è un movimento periodico in una serie temporale. Si usa
talvolta anche per denotare andamenti alti e bassi, non necessariamente
periodici, di una rappresentazione in serie; per denominare questa situazione
conviene usare il più generico termine "oscillazione".
Classe
Modalità
di una distribuzione di frequenze. Un gruppo di osservazioni su una variabile
quantitativa, anche continua, può essere raggruppato in modo da
rendere le elaborazioni meno laboriose: il gruppo così formato definisce
una classe. Gli estremi, inferiore e superiore, dell’intervallo della variabile
della classe sono detti "limiti", o "estremi di classe", l’intervallo compreso
tra i detti limiti è detto "intervallo di classe", e la frequenza
nell’intervallo è detta "frequenza di classe".
Classi
aperte
Termine
talvolta usato per definire le possibili realizzazioni di una "domanda
a risposta aperta".
Classi
chiuse
Modalità
per la classificazione di unità osservate su una variabile di cui
siano state definite tutte le possibili realizzazioni empiriche. Se la
rilevazione avviene ponendo domande e attendendo risposte, si tratta di
una "domanda a risposta chiusa".
Classificazione
Assegnazione
di un insieme di unità alle classi di una o più variabili,
le quali, per questo specifico obiettivo, si denominano anche fattori,
o criteri, di classificazione. La classificazione si dice "ad una via"
se l’assegnazione è svolta con riferimento alle k classi di una
sola variabile, è "a due vie" se i fattori di classificazione sono
due etc.
Classificazione marginale (v. Distribuzione marginale)
Classificazione
tipo
Classificazione-tipo,
o nomenclatura, o nomenclatura standard, è denominato l’insieme
delle modalità di una variabile che descrive un fenomeno complesso.
Tra le principali classificazioni tipo internazionali vi sono: la classificazione
delle attività economiche (ISIC - International Standard Industrial
Classification of all Economic Activities, che è stata dettagliata
nella classificazione NACE dell’Unione Europea e ulteriormente dettagliata
dalla classificazione ATECO dell’ISTAT), quella centrale dei prodotti,
inerente a merci, servizi e beni immateriali (CPC - Central Product Classification,
anche questa modificata dall’Unione Europea e dall’ISTAT), quella delle
merci trasportabili che entrano nel commercio internazionale (SITC - Standard
International Trade Classification, anche questa modificata sia a livello
europeo che nazionale), la classificazione delle professioni (ISCO - International
Standard Classification of Occupations) e delle posizioni nelle professioni
(ISCSE - International Standard Classification of Status in Employment)
proposte dall’Ufficio Internazionale del Lavoro delle Nazioni Unite, la
classificazione internazionale delle malattie e delle cause di morte (ICD
- International statistical Classification of Diseases and related health
problems) proposta dall’Organizzazione Mondiale della Sanità, le
classificazioni che presentano le varie categorie del sistema scolastico
(ISCED - International Standard Classification of Education) studiata dall’UNESCO.
Cluster (v. Gruppo omogeneo)
Codice
Simbolo
della modalità di una variabile idoneo all’elaborazione statistica.
Normalmente, si tratta di un numero, a cui non corrisponde necessariamente
un valore, ma può anche essere un carattere alfanumerico. Per esempio,
alle modalità dello stato civile si possono associare codici numerici
da 1 a 5 (1=Celibe, nubile, 2= Coniugato/a, 3=vedovo/a, 4=separato/a, 5=divorziato/a)
senza che i numeri di codice si possano considerare valori. Per lo stesso
motivo si sarebbero potute porre le lettere da a ad e, o altri simboli,
ma l’elaborazione informatica è facilitata con l’apposizione di
codici numerici.
Codificazione,
di informazione
Operazione
mediante la quale vengono trasformati in numeri, in sequenze alfanumeriche,
le informazioni espresse in forma verbale contenute in un questionario.
L’operazione di codificazione, quando necessaria, precede quella di registrazione
delle informazioni del questionario sul supporto informatico.
Coefficiente
di affidabilità
Termine
introdotto da Spearman per valutare la componente d’errore sistematico
di un test psicologico da quella casuale. La misura dell’attendibilità
del test è stimata con la correlazione tra due somministrazioni
dello stesso test in contesti confrontabili.
Coefficiente di espansione (all’universo) (v. Fattore di espansione all’universo)
Coefficiente
di variazione
Rapporto
tra lo scarto quadratico medio e la media di una distribuzione, talvolta
espresso in percentuale.
Coerenza
- Coerenti, dati
In senso
lato, vi è coerenza tra dati statistici quando tra di essi non esiste
contraddittorietà, o incompatibilità. Nell’indagine statistica,
si parla di controllo di coerenza sia in rapporto al dato relativo alla
singola unità, sia in rapporto ai risultati complessivi. La coerenza
tra i dati non implica assenza di errore nei dati (v. Concordanza tra dati).
Si distingue tra "coerenza interna" ad insiemi di dati e "coerenza esterna"
tra risultati di indagini diverse.
Coerenza
tra dati, analisi della
Vi è
coerenza interna ad un insieme di statistici quando tra questi non esiste
contraddittorietà. Nell’ambito della contabilità nazionale
si parla di coerenza interna quando vi è coerenza tra stime legate
tra loro da un vincolo contabile. La coerenza tra stime non implica assenza
di errore nelle stesse (v. Concordanza tra dati).
Coerenza interna tra risultati ed obiettivi d’indagine (v. Pertinenza)
Coerenza tra risultati di indagini diverse I risultati di indagini diverse sono coerenti se il raffronto tra stime di fenomeni tra loro collegati non sono contraddittori. La coerenza tra stime non implica assenza di errore nelle stesse (v. Concordanza tra dati).
Collegamento
esatto
Operazione
mediante la quale si abbinano dati relativi ad un’unica unità statistica
ma rilevati in occasioni diverse (due o più indagini, un’indagine
e una registrazione amministrativo-contabile, ecc.). L’operazione è
possibile a condizione che, nella varie occasioni, siano stati rilevati
caratteri identificatori dell’unità. Al posto di collegamento esatto
si usa spesso il termine inglese linkage. Il collegamento consta di due
fasi: (i) la ricerca di records potenzialmente abbinabili (cioè
riferiti alla stessa unità) sulla scorta del confronto dei caratteri
di identificazione, (ii) se si verificano discrepanze nei caratteri di
identificazione, a causa di errori nella formazione dei dati, la decisione
di procedere alla loro riunificazione. L’operazione di collegamento esatto
può dar luogo a due tipi di errore: (a) l’abbinamento di records
relativi ad unità diverse (falsi positivi), (b) il mancato abbinamento
di record relativi alla stessa unità (falsi negativi).
Collegamento
statistico
Operazione
di abbinamento, con metodi probabilistici, di dati relativi ad unità
provenienti da fonti diverse che si presentano complessivamente simili
per le modalità di un insieme di caratteri.
Collettivo (statistico) (v. Popolazione statistica)
Comparabilità
- Comparabili, dati
Sono
comparabili le statistiche internazionali sullo stesso fenomeno prodotte
in base a norme uniformi e, se necessario, seguendo metodi armonizzati.
Compatibilità - Compatibile, dato (v. Dato manifestamente errato; Regole dicompatibilità)
Compenetrazione
dei campioni, delle assegnazioni
Compenetrazione
dei sub-campioni, o dei campioni, si denomina lo schema di ripartizione
casuale di un campione in un certo numero di sub-campioni equivalenti.
Sia, cioè, n la numerosità di un campione selezionato da
una popolazione di N unità con uno schema di selezione appropriato,
si dicono compenetrati i k campioni formati suddividendo in modo casuale
il campione di n unità in k campioni di m=n/k unità. Lo schema
si applica ad una varietà di situazioni nelle quali sia basilare
il confronto tra l’esito dell’osservazione di campioni equivalenti della
popolazione. Si applica in particolar modo alla misura dell’effetto di
rilevatori e altri addetti alla formazione e alla elaborazione di dati
sulla varianza di stima. Supponiamo di aver formato casualmente k sub-campioni
e di assegnarne uno a ciascuno dei k rilevatori disponibili. Il confronto
tra le medie dei dati rilevati dai diversi rilevatori, in rapporto alla
varianza interna alle assegnazioni, permette di stimare la varianza dei
rilevatori. Ciascuno scarto tra la media di un rilevatore e la media globale
è stima della "distorsione del rilevatore", ossia della sua tendenza
a distorcere l’esito della rilevazione in una particolare disrezione. Se
impiegato anche nella reintervista con gli stessi rilevatori, il disegno
della compenetrazione, che diventa allora una reintervista con doppia compenetrazione
delle assegnazioni dei rilevatori, permette di separare - con la debita
approssimazione - la varianza dovuta al campionamento da quella imputabile
agli errori di rilevazione e di identificare con maggiore precisione varie
componenti d’errore extra-campionario.
Completezza
- Completa, rilevazione
Associato
alle informazioni raccolte per le unità statistiche che partecipano
all’indagine, indica l’assenza di dati mancanti nel questionario. Considerando
il complesso dei dati raccolti nell’indagine, è detto "tasso di
completezza" la quota o percentuale di unità per le quali siano
state raccolte informazioni complete, sul totale delle unità che
hanno partecipato all’indagine
Computer Assisted Personal Interviewing (v. CAPI)
Computer Assisted Self-administered Interviewing (v. CASI)
Computer Assisted Telephone Interviewing (v. CATI)
Concentrazione
Aspetto
della variabilità che esprime l’entità della concentrazione
in poche unità di una grandezza "trasferibile" tra unità
ed unità. Per esempio, si dice che il reddito di un Paese è
più o meno concentrato secondo che la proporzione di reddito totale
del Paese sia posseduto da poche persone o sia ben redistribuito. Il livello
minimo di concentrazione è quello della equi-ripartizione della
grandezza, ossia la sua invarianza tra unità ed unità.
Conciliazione
di dati discordi
Qualora
in una indagine di controllo si ottenga un dato diverso da quello ottenuto
nella rilevazione principale, e la discrepanza sia resa immediatamente
nota al rilevatore che sta eseguendo l’indagine di controllo, egli può,
dopo un breve contraddittorio con il rispondente (se e quando ciò
sia tecnicamente plausibile), conciliare le risposte avute ottenendo un
dato per lo meno non-incoerente. La conciliazione delle risposte permette
di disporre di due dati supplementari per ogni rispondente all’indagine
di controllo, un primo dato utilizzabile per stimare la fluttuazione delle
risposte imputabile al rispondente (v. Errore del rispondente), un secondo
per stimare la distorsione della stima, ossia lo scarto tra il parametro
e il valore di stima ottenuto con la rilevaione principale. Il dato conciliato
è, infatti, plausibilmente, il valore che più si avvicina
al valore vero tra quelli rilevati.
Concordanza tra dati, analisi della Particolare aspetto dell’analisi della dipendenza. Si ha concordanza tra due o più osservazioni inerenti allo stesso fenomeno se l’osservazione del fenomeno dà tendenzialmente gli stessi risultati quando avviene da punti di vista diversi. Per esempio, si dice che la rilevazione di dati inerenti alla coppia concorda se l’osservazione del marito e della moglie dà tendenzialmente lo stesso risultato su un dato fenomeno. Il fenomeno, cioè, è unico, ogni punto di vista (marito, moglie) genera le osservazioni per la valutazione della concordanza entro le famiglie, le quali assumono il ruolo di unità statistiche. Si parla di concordanza anche quando il numero di osservazioni varia tra unità ed unità: per esempio, si può rilevare, all’interno delle famiglie, la concordanza della statura tra figli adulti. L’opposto della concordanza è la discordanza. Per misurare la concordanza si valuta se, relativamente a ciascuna unità, i dati sono coerenti.
Condizionata, distribuzione (v. Distribuzione condizionata)
Conferenza
nazionale di statistica
L’ISTAT,
per l’esercizio delle sue funzioni è tenuta (art. 15 del D.Lgs.322/1989)
a convocare, con periodicità almeno biennale, una Conferenza nazionale
di statistica alla quale partecipano gli enti ed uffici del SISTAN ed altri
soggetti interessati allo sviluppo delle statistiche ufficiali. La prima
Conferenza si è tenuta nel 1992.
Confidenzialità
Traduzione
impropria dell’inglese confidentiality; il termine più appropriato
è "riservatezza".
Conformità
Termine
talvolta usato per esprimere la concordanza tra i risultati sperimentali
e quelli attesi in qualche precisata ipotesi. Con riferimento a due classificazioni,
la conformità implica l’uguaglianza delle voci ad almeno un livello
gerarchico dell’articolazione delle voci stesse.
Connessione
In statistica,
termine generale per "dipendenza" tra variabili. Si usa talvolta distinguere
tra connessione "concreta", ossia empirica, e connessione "limite", ossia
inerente alle popolazioni o ad insiemi infiniti. Nell’ambito di varie discipline,
il termine evoca il concetto di "rete". In una rete elettrica, una connessione
è un circuito costituito da un certo numero di elementi fra loro
collegati. Il concetto può essere esteso anche all’organizzazione
logistica di sistemi.
Consistenza
- Consistente, stimatore
Consistente
è lo stimatore che converge in probabilità, all’aumentare
della dimensione campionaria, al parametro estimando.
Contingenza, tabella di (v: Tabella di contingenza)
Continuità-
Continua, variabile
Un parametro
o una variabile sono continui se possono assumere qualsiasi valore in un
intervallo continuo. Una distribuzione di frequenze o probabilità
è talvolta detta continua sia se è relativa ad una variabile
continua, sia se è essa stessa continua. Per chiarezza, si dovrebbe
parlare, secondo i casi, di "distribuzione di variabile continua" e di
"distribuzione continua di variabile".
Controllo
contabile
Controllo
di qualità di dati basato sulla coerenza tra valori registrati in
un record. La coerenza tra due o più caratteri interrelati è
determinata da regole contabili specificate. Un semplice esempio di controllo
contabile può essere il far combaciare i valori registrati su singole
voci di dettaglio con il totale ottenuto separatamente. Un altro esempio
di coerenza tra valori registrati su record inerenti a bilanci familiari
può essere: "reddito=consumi+risparmio", o forme più articolate
di
equazioni costruibili con voci di bilancio.
Controllo
di compatibilità
Controllo
di qualità di dati basato sull’ammissibilità delle modalità
congiunte di due o più variabili riferite a una o più unità
di rilevazione. Il controllo di ammissibilità richiede la specificazione
delle modalità che, in congiunzione, non sono ammissibili (v. Regole
di compatibilità). Le modalità controllate per la compatibilità
sono, quindi, compatibili o incompatibili.
Controllo
di concordanza
Controllo
di qualità dei dati basato sulla coerenza tra modalità descrittive
dello stesso fenomeno ottenute da più osservatori indipendenti dello
stesso fenomeno, ovvero da ripetute osservazioni della stessa unità
statistica. Si ha concordanza tra osservazioni dello stesso fenomeno quando
le osservazioni sono poco o punto variabili; quanto più le osservazioni
variano, tanto più si ha discordanza. Nell’ambito dei metodi basati
sul principio delle prove ripetute, la concordanza tra misure è
uno dei riferimenti dell’attendibilità.
Controllo
di qualità
Analisi
statistica di dati inerenti ad un processo ispettivo con l’obiettivo di
controllare la qualità di un prodotto industriale prodotto in grandi
numeri. Mira ad identificare ed eliminare variazioni sistematiche della
qualità, o a ridurle entro limiti accettabili, ammettendo solo imperfezioni
casuali. Un processo del tipo esposto si dice "sotto controllo". Da qualche
tempo, i princìpi del controllo della qualità industriale
sono applicati anche al controllo della qualità dei dati statistici.
Controllo
di verosimiglianza
Controllo
di qualità di un dato basato sulla determinazione della probabilità
che un valore registrato sia accurato. La verosimiglianza è determinabile
con vari criteri: (a) se della variabile è nota la distribuzione,
si può determinare la probabilità che la stessa assuma il
valore registrato o un valore più estremo: se questa probabilità
è molto bassa, si può controllare manualmente la correttezza
del valore, o considerarlo non verosimile a fini operativi; (b) anche se
non è nota la distribuzione della variabile, ma questa ha un andamento
regolare, un valore che si discosti dalla media di almeno 3-4 volte lo
scarto quadratico medio, può essere considerato poco verosimile.
Controllo
esterno, indiretto
Controllo
di qualità dei dati svolto in molteplici forme (a) confrontando
quanto raccolto in una specifica indagine con quanto risulta da altra fonte,
indipendente dalla prima, al fine di valutare principalmente la copertura
e l’accuratezza dei risultati. Lo si applica ai dati elementari mediante
un’indagine (campionaria) successiva condotta sullo stesso oggetto nelle
stesse condizioni essenziali, oppure (b) collegando dati elementari provenienti
da una singola unità da un distinto canali di informazione. Lo si
applica anche ai dati aggregati, secondo la stessa logica. Ad esempio,
la stima del consumo nazionale di una certa categoria di prodotti derivata
dalle risultanze di indagini presso le famiglie può venir messa
a confronto con la disponibilità calcolata per la stessa categoria,
nel dato intervallo di tempo, partendo dalla produzione e dal saldo con
l’estero. Talvolta il confronto è fatto con i risultati di un’analisi
statistica e dell’applicazione di modelli. Il modello della popolazione
stabile può, in certe condizioni, mettere in luce incoerenze tra
parametri demografici stimati per una popolazione storica o per un Paese
con statistiche lacunose o difettose.
Controllo
interno, diretto
Controllo
di qualità dei dati svolto sia sui microdati, sia sui macrodati
ottenuti nell’indagine. Nel primo caso rientrano i controlli di ammissibilità
e compatibilità che si effettuano, dopo la rilevazione, sui
dati
elementari. Nel secondo si operano analoghi controlli sui dati aggregati
per evidenziare eventuali distorsioni e carenze. Ad esempio, l’analisi
del rapporto di mascolinità dei figli delle decedute può
far emergere l’inattendibilità di quella informazione.
Controllo
statistico
Controllo
statistico della qualità attuato nella produzione in serie. In questa,
mantenendo costanti i fattori co-agenti in una linea di produzione, ci
si assicura che il complesso causale messo in atto garantisca una relativa
uniformità - entro i limiti accettati e prefissati - del "pezzi"
prodotti: relativa, nel senso che al complesso mantenuto stabile nel tempo
si sovrappone un insieme di fattori accidentali sì che le caratteristiche
delle unità prodotte possono differire tra loro per ragioni casuali,
con una dispersione di risultati che non disturba, in quanto compatibile
con i limiti di tolleranza che ci si è proposti di rispettare. In
una indagine statistica, il prodotto è un unicum e la definizione
di limiti di tolleranza rimane ambigua: infatti, in ogni caso, si mira
a rappresentare al meglio, nel dato, la realtà effettuale cui esso
si riferisce. L’errore totale può essere misurato solo a posteriori.
Tenere sotto controllo statistico l’insieme di operazioni in cui un’indagine
si articola significa mettere in atto provvedimenti atti a garantire in
modo efficiente che ogni persona o istituzione coinvolta in una qualsiasi
sua fase rispetti sempre e uniformemente regole di comportamento e modalità
di azione quali sono predisposte dal piano fissato.
Convalida
delle stime
E’ l’operazione
di conferma della qualità dei dati a cui si giunge dopo adeguati
controlli. In senso strettamente statistico, la convalida si ha quando
il dato è stato giudicato obiettivo, attendibile e trasparente,
ma il concetto si può estendere anche all’adeguatezza dell’informazione
rispetto agli obiettivi prefissi. In questo senso, il concetto di validità
è affine a quello di coerenza interna tra i dati o tra le procedure
seguite per ottenerli. Un dato provvisorio è diffondibile anche
se, per ragioni di tempestività nella diffusione è stato
assoggettato a forme di convalida incomplete. Definitivo è allora
il dato per il quale è completo il processo di messa a punto. Si
possono avere più convalide in tempi successivi, e quindi più
aggiornamenti dei dati quando si ottenessero nuove informazioni ausiliarie
o l’utenza chiedesse un affinamento delle stime. Quantunque il termine
"convalida" sia esso stesso un neologismo di origine burocratica, che ha
sostituito "convalidazione", oggi è più diffuso il termine
"validazione", dall’inglese validation, per denotare lo stesso concetto.
Coorte
Insieme
di unità statistiche che vivono la stessa esperienza (demografica,
economica, sanitaria etc.) per la stessa durata. Per esempio, è
una coorte l’insieme dei conuigati nello stesso anno, oppure l’insieme
delle persone esposte a radiazioni disperse per un incidente ad una centrale
nucleare e osservate per un certo periodo a fini sanitari.
Copertura
della rilevazione
In una
indagine statistica il termine denota: (a) il rapporto esistente tra il
numero di unità che hanno collaborato all’indagine e quelle designate
a parteciparvi (v. Mancata rilevazione); (b) la frazione sottoposta a indagine,
ma in questo senso è preferibile la locuzione "frazione di campionamento".
Nel Programma Statistico Nazionale, nel quale si attribuisce al termine
il significato descritto al punto (a), si distingue tra copertura: ÿ
totale, quando l’insieme delle unità rilevate coincide con quello
delle unità statistiche, ÿ parziale, quando le unità
rilevate sono un sottinsieme ben delimitato dell’universo delle unità
statistiche, ÿ campionario, quando le unità rilevate sono una
parte dell’universo delle unità statistiche scelte a caso con metodi
probabilistici o scelte in maniera ragionata.
Copertura
degli obiettivi d’indagine
Corrispondenza
tra gli obiettivi realizzati nell’indagine e gli obiettivi prefissi. Si
tratta di quell’aspetto della qualità dei dati denominato anche
"pertinenza".
Correlazione
In una
accezione generale, indica l’interdipendenza tra due variabili, sia qualitative
che quantitative, e in questo senso include anche l’associazione tra variabili
dicotomiche e nominali. In una - più comune - accezione ristretta,
la correlazione indica la interrelazione tra due variabili quantitative
o ordinali. Nell’analisi della dipendenza, il concetto di correlazione
è sinonimo di covariazione, ossia è di correlazione o covariazione
la relazione tra due variabili che variano simultaneamente, o nella stessa
direzione ("correlazione positiva"), o in direzioni opposte ("correlazione
negativa"). Il concetto di correlazione è immediatamente estendibile
a più di due variabili.
Correlazione
illusoria
Correlazione
significativa alla quale non corrisponde una connessione causale tra le
variabili. Per esempio, in Europa, si può trovare una relazione
positiva tra l’abilità nel pattinaggio e il colore chiaro dei capelli,
dato che le due variabili sono ambedue frequenti nei paesi nordici e ambedue
assenti in quelli meridionali. La probabilità di trovare correlazioni
illusorie è elevata quando si misura la correlazione tra serie storiche.
Correlazione
interclasse
Correlazione
ordinariamente intesa. Si usa talvolta il termine per distinguerla dalla
correlazione intraclasse.
Correlazione
intraclasse
Correlazione
che esiste tra i membri di una entità statistica. Per esempio, la
relazione intra-familiare tra le stature dei discendenti adulti si valuta
confrontando, famiglia per famiglia, le stature dei membri adulti in rapporto
alla statura media dell’insieme delle famiglie. All’interno di una famiglia
di k individui, si confronteranno le k(k-1)/2 coppie di differenze tra
le stature degli individui e la statura media degli individui dell’insieme
delle famiglie: si ha correlazione intraclasse se le coppie di stature
formate sono tendenzialmente sopra la media o tendenzialmente sotto la
media.
Correlazione
seriale
Correlazione
tra le realizzazioni di una serie temporale o spaziale e le realizzazioni
che precedono o seguono ad una distanza temporale o spaziale fissa. Data
una serie, si dice correlazione seriale di ordine k la correlazione tra
le coppie di realizzazioni a distanza k. In questo senso, la correlazione
seriale è il valore campionario dell’autocorrelazione nella popolazione.
Alcuni autori usano il termine autocorrelazione per denotare la correlazione
tra i membri di una serie tra loro, sia campionaria che nella popolazione,
mentre la correlazione seriale denota la correlazione tra due serie differenti.
Correttezza
- Corretto, dato, stimatore
Indica
una misurazione non affetta da errore. In altri termini, un dato è
corretto se il valore osservato coincide con il "valore vero". Nella teoria
della stima, la correttezza è la proprietà per la quale il
valore atteso dello stimatore coincide con quello del parametro stimato.
Si tratta di una proprietà teorica, analiticamente dimostrabile
per gli stimatori analitici. Per esempio, la media campionaria è
stimatore corretto della media della popolazione, mentre la varianza campionaria
non lo è, ma lo è la varianza tra i valori campionari che
ha (n-1) al denominatore. Uno stimatore non corretto è detto "distorto".
Correzione
degli errori
Operazione
di eliminazione dell’errore statistico da microdati o da stime del parametro
oggetto d’indagine. La correzione dei microdati si attua quando sono stati
individuati valori mancanti o dati manifestamente errati perché
incompatibili con altre informazioni più attendibili. La correzione
delle stime si attua quando si constata una distorsione. La correzione
del dato elementare può essere deterministica o stocastica: quella
deterministica si attua imponendo un determinato codice al posto di quello
mancante o errato, quella stocastica, o probabilistica, determinando una
regola per la scelta casuale del codice tra una distribuzione di codici.
Tra le tecniche stocastiche sono particolarmente utilizzate quelle dette
"da donatore". La correzione di una stima si attua adottando le regole
idonee ad eliminare la distorsione. Per una media, la distorsione si elimina
sotraendo la stima della distorsione. Per indagini che si protraggono nel
tempo, e nelle quali si constati una correlazione tra il valore di stima
e il tempo, si possono applicare anche tecniche di regressione per stimare
eventuali carenze informative.
Correzione delle stime (v. Correzione degli errori)
Costo
del fornire informazioni
Insieme
degli oneri cui si sottopone colui che collabora ad una indagine fornendo
le informazioni e i dati richiesti. Tra i costi del fornire informazioni
si possono annoverare quelli economici (rari), la perdita di tempo, l’ansia
che può nascere da quesiti che ledono la privacy del rispondente.
Saper organizzare indagini implica anche abilità nel ridurre i costi
del fornire informazioni. Il CSO del Regno Unito indica tra le sue politiche
quelle di: (i) non sottoporre più questionari di quanti siano necessari
per assicurare qualità adeguata, rendendo altresì minimo
il numero di quesiti di ciascun questionario, (ii) semplificare al limite
le domande e fornire una guida chiara per le risposte.
Costo
di un’indagine
Somma
dei costi delle varie fasi di cui si compone l’indagine. Le operazioni
di un’indagine che comportano un costo sono: (a) la preparazione dei materiali
per il rilevamento dei dati, (b) la formazione delle liste ed il campionamento
delle unità, (c) il reclutamento e l’addestramento del personale
addetto alla formazione dei dati, (d) la raccolta dei dati, (e) il controllo
della qualità dei dati rilevati, (f) il trattamento dei dati, (g)
l’elaborazione e la tabulazione dei risultati delle analisi, (h) la diffusione
dei risultati. I costi di un’indagine si possono classificare in fissi
e variabili. Variabili sono quelli che dipendono dal numero di unità
coinvolte in una determinata fase dell’indagine; fissi sono, naturalmente,
quelli indipendenti dalla dimensione dell’insieme cui si applicano.
Credibilità (v. Attendibilità)
Curva
di frequenza
Rappresentazione
grafica di una distribuzione di frequenze continua, nella quale l’ascissa
è la variabile e l’ordinata è la frequenza. Si può
concepire la curva di frequenza come la forma limite del poligono di frequenze
al divergere del numero di osservazioni e per classi che diventano indefinitamente
piccole.
Data base ( v. Base di dati)
Data
di riferimento, dei dati
Data
alla quale fanno riferimento i dati rilevati e, in linea di massima, anche
le stime. Per esempio, il censimento generale della popolazione fa riferimento
alla situazione della popolazione ad un determinato istante: quello della
popolazione del 1991 fa riferimento alle ore 0.00 del 20 ottobre del 1991.
Negli esperimenti e in molte indagini statistiche, quantunque i dati facciano
riferimento ad un preciso istante o intervallo di tempo, si estende intuitivamente
l’inferenza a tempi più attuali di quelli dell’indagine, nonché
a tempi a venire.
Dato aggiornato (v. Aggiornato, dato)
Dato
aggregato, macrodato
Valore
che si ottiene per sintesi dei dati elementari. In realtà, non vi
è distinzione precisa tra macro e micro-dato, esistendo piuttosto
tra i due un continuum. Il consumo familiare pro-capite è un insieme
di consumi individuali distinti e di altri indivisi. A sua volta, il macrodato
può essere preso come dato di base per una distribuzione di dati
a livello gerarchico superiore. Per esempio, con il consumo familiare pro-capite
si può costruire una distribuzione di famiglie secondo il livello
di consumo pro-capite. Analogamente, la dimensione demografica di un comune
è una grandezza costruibile attraverso informazioni individuali
sulla residenza o sulla presenza, ma con le dimensioni demografiche di
in insieme di comuni si può costruire la distribuzione di comuni
per dimensione demografica. Tra i dati aggregati diffusi dai Sistemi statistici,
si evidenziano le "tabelle di frequenze" e le "tabella di intensità".
Dato anomalo (v. Valore abnorme)
Dato
definitivo
Dato
diffuso dal produttore di statistiche quando egli ha completato il relativo
piano di rilevazione su tutti gli elementi in gioco e i cui risultati sono
stati sottoposti ad un processo di messa a punto che li qualificano come
validi.
Dato
elementare, individuale, microdato
Dato
che si riferisce al singolo carattere osservato su ciascuna unità
di analisi. Se l’unità di analisi è un aggregato di unità
statistiche, come ad esempio una famiglia, il dato relativo al reddito
familiare totale, o pro-capite, è da considerarsi elementare anche
se risulta da una funzione di dati relativi ad unità di livello
inferiore. Ciò evidenzia l’impossibilità di distinguere il
dato elementare dal dato aggregato se non in rapporto all’unità
statistica di riferimento.
Dato incompatibile (v. Dato manifestamente errato)
Dato individuale (v. Dato elementare)
Dato
mancante
Dato
elementare del quale non sia registrato il codice. Quando manchi il dato
si possono adottare varie strategie: (a) se ne può ignorare la mancanza
se questa è casuale e i dati disponibili sono congrui per la stima,
(b) si può rimpiazzare con un codice probabile determinato con una
delle tecniche per la "correzione degli errori", (c) si può calcolare
la stima ignorando la mancanza del dato anche quando questa non sia casuale
e correggere poi la stima con un metodo idoneo.
Dato
manifestamente errato
Si considera
manifestamente errato il dato difforme da uno più attendibile ottenuto
indipendentemente, o che assume valori non compresi nel campo di variazione
della variabile, o che non rispetta l’ordine logico di una sequenza. Per
esempio, è manifestamente errato in Italia il dato di un militare
di leva che risulti di sesso femminile. Il dato che esce dal campo di variazione
o da una sequenza logica è detto non ammissibile, quello ammissibile
che è in contraddizione con un altro con cui è paragonabile
è detto incompatibile. Si può anche parlare di dato probabilmente
errato quando il valore rilevato è abnorme rispetto alla massa dei
valori rilevati. Per esempio, è abnorme un valore che si collochi
a tre o più scarti quadratici medi dalla media in una distribuzione
continua con i valori concentrati al centro.
Dato non ammissibile (v. Dato manifestamente errato)
Dato preliminare (v. Dato provvisorio)
Dato
provvisorio, preliminare
Dato
che il produttore di statistiche rende disponibile in via preliminare,
per ragioni di tempestività nell’informazione, anche se basato su
dati incompleti e/o non ancora sottoposto al processo di convalida
Dato riservato (v. Dato sensibile)
Dato
sensibile
Informazione
su variabili che riguardano la sfera strettamente personale del rispondente
(v. Variabili sensibili). Comunemente, con tale locuzione, si fa riferimento
ai dati per i quali, ai sensi dell’art. 7, comma 2, del D.Lgs. 322/1989,
non esiste l’obbligo di risposta
Decremento
Variazione
negativa di una variabile quantitativa.
Demografia
Studio
quantitativo delle popolazioni umane. Esistono definizioni più analitiche
della demografia, in accordo ai settori, alcuni di nuovo sviluppo, degli
studi demografici. La demografia, infatti, è stata uno dei primi
campi di ricerca della statistica, prima ancora che questa disciplina fosse
così denominata, e ha contribuito allo sviluppo sia della statistica
cosiddetta descrittiva, sia di quella analitica. Oggi si parla anche di
"demografia delle imprese" per indicare la descrizione dell’evoluzione
quantitativa delle stesse, in analogia ai processi di nascite e morte umani.
Densità,
di distribuzione
Frequenza
relativa o probabilità sopra un punto di una variabile continua.
Se si considera una distribuzione empirica in classi di frequenza, la densità
di una classe è data dal rapporto tra la frequenza della classe
e l’ampiezza dell’intervallo di base. Se la variabile è discreta,
la densità si dice puntuale.
Descrittiva, statistica (v. Statistica descrittiva)
Detentore delle informazioni (v. Unità di rilevazione)
Deterministica, tecnica di correzione di errori (v. Correzione degli errori)
Deviazione
standard
Traduzione
letterale dell’inglese standard deviation che indica la radice quadrata
della varianza. E’ più corretto il termine "scarto quadratico medio".
Diagramma
a barre
Rappresentazione
grafica di frequenze o intensità mediante rettangoli di altezza
proporzionale alla frequenza o all’intensità pertinente. Si possono
rappresentare barre "composite", ossia suddivise in sezioni di lunghezza
proporzionale alla dimensione relativa delle componenti in cui si ripartisce
il fenomeno che la barra rappresenta. Di solito, per distinguere le componenti,
si usano retinature di varia intensità o colore. Per rappresentare
fenomeni che variano in aumento o in diminuzione, si possono rappresentare
barre orientate in direzioni opposte, sopra e sotto la linea dello zero.
Diagramma a blocchi (v. Istogramma)
Diagramma
circolare
Metodo
diagrammatico di rappresentazione nel quale le parti che compongono un
totale sono rappresentate da settori di un cerchio. Gli angoli dei settori
sono proporzionali al peso della componente sul totale. I moderni programmi
di calcolo automatico sono predisposti per evidenziare graficamente una
o più parti di particolare interesse. E’ anche detto "diagramma
a torta".
Diagramma a torta (sinonimo di: Diagramma circolare)
Dicotomia
Ripartizione
dei membri di una popolazione, o di un campione, in due gruppi. La definizione
dei gruppi può basarsi su una variabile quantitativa o qualitativa,
o addirittura sulle modalità congiunte di più variabili,
anche se, generalmente, la variabile di classificazione è un attributo.
Diffusione
delle statistiche ufficiali
Le statistiche
prodotte dal Sistema statistico nazionale sono messe a disposizione dell’utenza
in modi e su supporti idonei alla consultazione. Il principio fondamentale
che caratterizza il nuovo SISTAN è quello della circolazione dell’informazione
statistica come bene pubblico per la collettività. I dati ottenuti
dalle famiglie e dalle imprese non solo debbono essere resi virtualmente
disponibili organizzandoli in archivi e basi di dati accessibili, ma debbono
anche essere restituiti su supporti utilizzabili, in forme tali da garantire
il segreto statistico
Dimensione campionaria (v. Numerosità del campione)
Dimensione
di unità statistica
Nella
teoria del campionamento, l’individuazione delle unità campionarie
può avvenire assegnando probabilità variabili alle unità
della popolazione. Molti disegni di campionamento fanno riferimento a probabilità
di selezione proporzionali alla dimensione delle unità. La dimensione
può essere quella demografica (numero di abitanti, numero di famiglie
etc.), quella territoriale (superficie, SAU etc.), quella economica (fatturato,
numero addetti etc.), o altro. Nel campionamento su due stadi, la dimensione
delle unità primarie congrua per la selezione con probabilità
variabili al primo stadio è il numero di unità secondarie
in esse contenute.
Dipendenza
Legame
tra variabili o tra unità statistiche che comporta, dal punto di
vista statistico, la covariazione delle osservazioni realizzate sulle variabili
o sulle unità. L’assenza di dipendenza si denomina "indipendenza".
Diritto
alla privacy
In termini
generali, è il diritto che spetta ad ogni cittadino di essere "lasciato
in pace" nel privato. Con riguardo all’attività statistica, è
il diritto di decidere se, quando, da chi e come, informazioni riguardanti
la propria persona, azienda, istituzione etc. possono essere raccolte e
divulgate.
Diritto
alla riservatezza
Diritto
del soggetto a che il Sistema statistico nazionale garantisca che le informazioni
da lui rese per fini statistici siano utilizzate soltanto per tale scopo
e non vengano comunicate a terzi (v, Riservatezza). Tale diritto si può
indirettamente desumere dalle norme costituzionali (artt. 13, 14 e 15)
che proteggono il diritto del cittadino contro violazioni della sua sfera
privata.
Diritto
all’informazione
Diritto
che il soggetto privato ha di ottenere notizie su tutto ciò che
può interessare, direttamente o indirettamente, come componente
della comunità di cui fa parte, al fine di formarsi un proprio pensiero
e di effettuare le proprie scelte consapevolmente. Tale diritto trova il
suo fondamento nell’art. 21 della Costituzione.
Disaggregazione
territoriale dei dati
Si intende
il livello territoriale minimo per il quale sono prodotte statistiche.
La analiticità della disaggregazione territoriale va contemperata
con l’economicità dell’informazione e con il rischio di violazione
del segreto statistico. Il livello ideale di disaggregazione territoriale
delle informazioni statistiche deve dunque nascere da una indagine sui
reali bisogni informativi dell’utenza potenziale e da una valutazione probabilistica
del rischio di violazione della segretezza del dato.
Discordanza (v. Concordanza tra dati)
Discrepanza
In senso
esteso, è sinonimo di scarto. Nell’analisi della varianza, è
talvolta usata per indicare la somma del quadrato degli scarti. Disegno
di campionamento (v. Piano di campionamento)
Disegno di controllo (v. Piano di controllo)
Disegno d’indagine (v. Piano d’indagine)
Disegno di rilevazione (v. Piano di rilevazione)
Dispersione (v. Variabilità)
Disponibilità
- Disponibili, statistiche
Le statistiche
sono concepibili come un bene collettivo da diffondere in modi che ne facilitino
l’utilizzazione per le entità cui sono dirette. Per soddisfare questo
requisito, il Sistema statistico deve in certi casi rendere disponibili
le statistiche in forme differenti che ne permettano sia la produzione
in base a criteri di economia e di massima efficienza interna, sia il reperimento
agevole da parte degli utenti interessati. Per aziende, organizzazioni
e altre autorità, le statistiche dovrebbero essere rese disponibili
su supporti informatici in rete; per il pubblico più vasto, si dovrebbero
trovare in libreria pubblicazioni che le presentano in modo comprensibile
anche a chi difetta di cultura statistica ed entro tempi che non le rendano
obsolete.
Distanza
Termine
usato in molti contesti con il suo significato ordinario, come separatezza
o dissomiglianza tra due posizioni. Di solito, le posizioni poste a confronto
sono quelle della singola osservazione e della media, ma può trattarsi
anche della distanza tra due qualsiasi osservazioni, tra due gruppi di
unità o tra due popolazioni, nonché tra due variabili o tra
due funzioni.
Distorsione (v. Errore sistematico)
Distorsione del campione (v. Campione distorto)
Distorsione
del codificatore
In una
indagine svolta ricorrendo a codificatori delle informazioni riportate
"in chiaro", ossia in forma verbale, è l’esito del condizionamento
esercitato dai codificatori sui dati registrati. La distorsione può
derivare dall’incapacità del codificatore di comprendere le informazioni
scritte o registrate o dal suo modo distorto di intendere il tema di cui
si tratta. La distorsione è quantificabile con lo scarto tra il
valor medio ottenuto dal codificatore e il valor medio atteso. Se, in vista
della codifica, è stata effettuata la compenetrazione dei campioni,
la distorsione di un codificatore è misurata dallo scarto tra la
media del campione assegnatogli e la media campionaria globale.
Distorsione
dell’addetto alla registrazione
In una
indagine nella quale si memorizzino i codici di risposta su supporto idoneo
all’elaborazione statistica mediante computer, è l’esito del condizionamento
esercitato dal o dagli addetti alla registrazione dei codici. La distorsione
può derivare dall’incapacità dell’addetto di comprendere
i codici scritti o dal suo modo distorto di svolgere il proprio compito.
La distorsione è quantificabile con lo scarto tra il valor medio
ottenuto dall’addetto e il valor medio atteso. Se è stata effettuata
la compenetrazione dei campioni su diversi addetti, la distorsione di un
addetto è misurata dallo scarto tra la media degli errori commessi
e la media globale di errore.
Distorsione dell’intervistatore (v. Distorsione del rilevatore)
Distorsione
del rilevatore
In una
indagine svolta mediante rilevatori, è il risultato del condizionamento
esercitato dai rilevatori sui dati ottenuti. La distorsione può
derivare dall’incapacità del rilevatore di stabilire una relazione
adeguata con il rispondente, dalla incapacità di porre correttamente
le domande e di ottenere le giuste risposte, da errori commessi nella registrazione
delle risposte. La distorsione è quantificabile con lo scarto tra
il valor medio ottenuto dal rilevatore e il valor medio atteso. In un disegno
di rilevazione nel quale sia stata effettuata la compenetrazione dei campioni,
la distorsione di un rilevatore è misurata dallo scarto tra la media
del campione assegnatogli e la media campionaria globale.
Distorsione
del supervisore
In una
indagine svolta mediante supervisori, è il risultato del condizionamento
esercitato dai supervisori sull’azione dei rilevatori. La distorsione è
quantificabile con lo scarto tra il valor medio ottenuto dal singolo supervisore
e il valor medio atteso. In un disegno di rilevazione nel quale sia stata
realizzata la compenetrazione delle assegnazioni (di rilevatori) dei supervisori,
la distorsione di un supervisore è misurata dallo scarto tra la
media del campione di unità osservate dai rilevatori assegnatigli
e la media campionaria globale.
Distorsione di uno stimatore (v. Stimatore corretto)
Distorsione
dovuta alla ponderazione
Modo
con il quale si esprime talvolta l’adozione di un erroneo sistema di pesi
per le unità statistiche.
Distorsione
relativa
Distorsione
rapportata al valore dell’estimando. Si esprime spesso in percentuale.
Distorsione verso il basso (v. Sottostima)
Distorsione verso l’alto (v. Sovrastima)
Distribuzione
campionaria
Distribuzione
di una statistica o di un insieme di statistiche in tutti i campioni che
si possono formare con una dato schema di campionamento. In genere, associata
allo schema di campionamento è una procedura di selezione delle
unità della popolazione. L’espressione riguarda la distribuzione
di una funzione di un numero fisso di n variabili indipendenti.
Distribuzione
casuale
Termine
poco idoneo come sinonimo di distribuzione di probabilità.
Distribuzione
condizionata
Con
riferimento ad una variabile, è la sub-distribuzione ottenuta di
una distribuione di frequenze congiunta tenendo fissa una modalità
di una variabile. Così, se fij è la frequenza relativa congiunta
della distribuzione di X (X=x1, .., xi, .., xr) e Y (Y=y1, .., yj, ...,
yc), dove r è il numero di modalità di X e c quello di Y,
si dice distribuzione di Y condizionata xi la distribuzione delle frequenza
di Y|xi = yi|i, .., yj|i, .., yc|i, dove la frequenza di yj|i, fj|i è
data da fij/fi. Per esempio, se X è il sesso e Y l’età in
classi di una popolazione, e fij denota la frequenza del sesso xi e della
classe di età yj, la distribuzione delle età per i maschi
è la distribuzione di frequenze, a somma 1, delle età in
corrispondenza della riga X=maschi. Distribuzione di frequenze Modo di
specificare come una popolazione o un campione si distribuiscono in rapporto
alle modalità di una o più variabili. La distribuzione di
frequenze inerente ad una sola variabile si dice "univariata", quella congiunta
inerente a due variabili si dice "bivariata", quella inerente ad una molteplicità
di variabili si dice "multivariata". La distribuzione concettuale di una
variabile quantitativa è, di solito, specificata da una "funzione
distributiva" (di frequenze).
Distribuzione
di probabilità
Funzione
che dà le probabilità del verificarsi di un valore x di una
variabile casuale in ragione del valore di x. Se le variabili sono più
d’una, dà la probabilità del verificarsi congiunto dei valori
delle variabili considerate. Molti usano le espressioni "distribuzione
di probabilità" per denotare la funzione di densità di una
variabile continua e "distribuzione cumulativa di probabilità" per
denotare la probabilità di verificarsi di valori fino, e compreso,
il valore x.
Distribuzione
marginale
In una
distribuzione bivariata di frequenze, è la distribuzione (talvolta
detta anche classificazione) univariata delle frequenze delle due variabili
singolarmente considerate. Il concetto è applicabile anche al caso
multivariato, con significato automaticamente estensibile.
Divulgazione - Divulgato - Divulgabile, dato (v. Diffusione delle statistiche ufficiali)
Domanda
a risposta aperta
Domanda
nella quale non sono prefigurate le possibili modalità di risposta,
ma si lascia al rispondente e all’eventuale rilevatore la scelta della
risposta da registrare.
Domanda
a risposta chiusa
Domanda
nella quale sono specificate le alternative di risposta. Se alle modalità
di risposta sono affiancati dei codici, le modalità di risposta
si dicono precodificate.
Dominio
di studio
Nelle
indagini campionarie, è un sottoinsieme della popolazione di particolare
interesse per l’analisi. Secondo alcuni Autori, i domini di studio sono
formati da strati della popolazione o dall’unione di più strati.
In questo senso si differenziano dalle "sottoclassi della popolazione"
che sono domini d’interesse che tagliano trasversalmente gli strati e anche
gli stadi campionari.
Donatore,
tecnica del
Nell’imposizione
automatica di codici validi al posto di dati mancanti o manifestamente
errati, è la tecnica di forzare la modalità posseduta da
un’unità con dati validi, detta "donatore" (v. Metodi di imposizione
automatica)
Economicità
delle statistiche
Le statistiche
prodotte dal Sistema Statistico Nazionale devono essere prodotte al minor
costo possibile (DL 3/2/93, n. 29 e L. 241/90). Le statistiche comunitarie
sono prodotte utilizzando in modo ottimale tutte le risorse disponibili
e riducendo al minimo l’onere che grava sui rispondenti. Il carico di lavoro
e i costi che la produzione delle statistiche comunitarie impongono sia
alle autorità nazionali, sia a quella comunitaria, sia ai responsabili
delle indagini, devono essere proporzionali all’importanza dei risultati/benefici
ricercati (Regolamento COM(94) 78 def. del 10/3/1994)
Editing (v. Revisione dei dati)
Effettivo campionario (v. Dimensione campionaria)
Effetto
proxy
Termine
talvolta utilizzato per indicare l’errore che si verifica nelle risposte
ottenute da rispondenti diversi da quelli designati per la rilevazione.
Tipicamente, quando una persona è assente, si può ammettere
in certe condizioni che risponda in sua vece un familiare. Questo rispondente
è detto talvolta proxy.
Effetto
vanità
Espressione
che descrive la forma di errore distorsivo commesso in una indagine sulla
popolazione mediante intervista da rispondenti che danno risposte imprecise,
adattandole a quelli che ritengono essere i modelli di risposta socialmente
più accettabili. Questo effetto è particolarmente rilevante
sulle risposte a domande aventi per oggetto argomenti delicati, come le
opinioni politiche, i comportamenti sessuali, quelli illegali e quelli
socialmente riprovevoli, nonché la descrizione biografica di eventi
lontani nel tempo o poco salienti per l’interpellato etc.
Effetto
simpatia
Espressione
che descrive la reazione dei rispondenti ad una indagine sulla popolazione
che danno risposte, consciamente o inconsciamente, imprecise, adattandole
a quelli che immaginano essere gli obiettivi dell’indagine. In senso esteso
si tratta di una forma di condiscendenza che dà origine ad errori
di tipo sistematico, soprattutto all’interno di strati caratterizzati da
diversità strutturali rispetto alle variabili oggetto di rilevazione.
Per esempio, in una indagine caso-controllo, i casi e i controlli possono
interpretare in modo differente gli obiettivi, oppure sono i rilevatori
che si comportano in modo diverso con i casi e con i controlli.
Efficacia
del Sistema statistico, di un’indagine
Capacità
di un sistema o di uno strumento statistico di dare risultati congrui con
gli obiettivi prefissi. Per poter valutare l’efficacia di un sistema statistico
o di un’indagine, vanno predefiniti gli obiettivi che ci si prefigge di
raggiungere. In Italia e nell’Unione Europea, gli obiettivi dei rispettivi
sistemi statistici sono descritti annualmente nel Programma statistico
(DL 3/2/93, n. 29, L. 241/90, CEE 94/0026).
Efficienza,
di stimatore
Nella
teoria della stima, indica la precisione relativa di uno stimatore. Dati
due stimatori T’ e T" appartenenti ad una prestabilita classe di stimatori,
si dice che T’ è più efficiente di T" se V(T’)<V(T"),
dove V(T) denota la varianza di T. Il concetto, proposto da Fisher (1921),
dà per implicito che lo stimatore è stato vagliato almeno
in relazione alla "consistenza". Inoltre, se in una classe di stimatori
ne esiste uno che ha varianza minima, questo può essere utilmente
assunto come termine di confronto per valutare l’efficienza di altri stimatori
della stessa classe, mediante il confronto (differenza o rapporto) tra
le varianze. Se si abbina il concetto di efficienza di uno stimatore con
quello di economicità nella produzione delle pertinenti informazioni,
si ottiene la cosiddetta "ottimalità" dello stimatore.
Efficienza
del Sistema statistico, di un’indagine
Capacità
di un sistema o di uno strumento statistico di assicurare il miglior impiego
delle risorse (umane e altre) disponibili nella conduzione delle proprie
attività di produzione statistica. Va data importanza alla capacità
di ridurre al minimo il numero di questionari e, per ciascun questionario,
il numero di domande poste, nonché, per assicurare la qualità
delle informazioni, di semplificare le domande e di aiutare il rispondente
nello svolgimento del ruolo richiesto. La valutazione dell’efficienza delle
tecniche di raccolta, elaborazione e diffusione di dati statistici è
effettuata con metodi che rapportano i benefici ai costi.
Efficienza
relativa di un disegno di campionamento
Nelle
indagini campionarie, l’espressione denota l’efficienza in rapporto al
"costo per unità di informazione", dove l’informazione è
intesa nel senso proposto da Fisher. Un’altra accezione è quella
di rapporto tra il costo del piano di campionamento ottimo e quello del
piano realizzato.
Efficienza
relativa di uno stimatore
E’ una
misura dell’efficienza comparativa tra due stimatori dello stesso parametro.
Per esprimere l’efficienza relativa, si possono rapportare le varianze
degli stimatori, oppure il reciproco delle numerosità campionarie
necessarie per ottenere la stessa efficienza con i due stimatori.
Elaborazione
elettronica
Elaborazione
di dati con metodi di calcolo elettronico.
Elaborazione
statistica, di dati
Fase
processuale di un’indagine statistica nella quale i codici registrati vengono
elaborati con metodiche statistiche che mirano alla stima di parametri
o alla verifica delle ipotesi prefissate. L’elaborazione riguarda la revisione
con strumenti elettronici a fini convalida e di eventuale correzione dei
dati registrati, la stima dei parametri e dei rispettivi livelli di attendibilità
statistica, il computo di statistiche (meta-dati) per la valutazione della
qualità dei dati. Nell’ambito del Programma statistico nazionale,
si definisce elaborazione il processo finalizzato alla produzione di informazioni
statistiche, consistente nel trattamento di dati statistici già
disponibili, perché derivanti da precedenti rilevazioni o elaborazioni,
ovvero di dati non statistici che costituiscono patrimonio dell’ente titolare
del processo, in ragione della sua attività istituzionale
Epoca
di disponibilità dei risultati
Tempo
nel quale i risultati di un’indagine statistica o dell’elaborazione di
dati di un archivio amministrativo sono resi disponibili nella forma prestabilita
per la diffusione. Il prefissare l’epoca entro la quale i lrisultati saranno
diffusi permette il calcolo della tempestività dello lsvolgimento
dell’indagine o dell’elaborazione dei dati.
Eligible unit (v. Unità designata)
Errore
Scostamento
fra il dato che si sta esaminando e il suo valore "vero", ossia lreale.
Tra i tipi di errore si distinguono quelli casuali, che si annullano lin
media, da quelli sistematici, sempre uguali in direzione e misura. In luna
indagine statistica, tra le fonti di errore si annoverano il lcampionamento,
la rilevazione dei dati, la codifica, la registrazione, l’imposizione automatica
di codici, l’approssimazione numerica, etc, nonché ll’allontamento
dalla rappresentatività.
Errore accidentale (v. Errore casuale)
Errore
assoluto
Con
riferimento ad una osservazione, si intende lo scarto tra il valore osservato
e quello "vero".
Errore
campionario, di campionamento
Differenza
tra la stima e il corrispondente valore che si sarebbe ottenuto esaminando
la totalità delle unità statistiche della popolazione. Questo
scarto si verifica giacché si osserva solo una parte delle unità
della popolazione. Mediamente, l’errore diminuisce in valore all’aumentare
della numerosità campionaria, ed è nullo quando il campione
è composto dalla totalità delle unità della popolazione.
L’errore dovuto al campionamento va distinto da quello non campionario,
che si manifesta anche se la rilevazione è esaustiva. l’errore di
campionamento è valutato sulla base della varianza di campionamento
delle stime, e precisamente è la radice quadrata di tale varianza.
Errore
casuale
Errore
statistico che si manifesta con segni ed entità variabili nelle
unità esaminate. Si distingue dall’errore sistematico perché
si compensa in media sulle osservazioni effettuate o su quelle teoricamente
effettuabili. Un errore casuale è concepibile come la combinazione
di innumerevoli fattori d’errore, di peso e segno diversi e tra loro indipendenti.
La casualità implicita nel risultato della combinazione implica
la normalità della sua distribuzione.
Errore
correlato
L’espressione
indica la presenza di errori di tipo casuale non indipendenti nelle osservazioni.
Sono errori correlati quelli commessi dai singoli rilevatori, dai supervisori,
dai codificatori e dagli altri addetti alla formazione e al trattamento
statistico dei dati. Per stimare l’entità della correlazione tra
errori dei rilevatori, si considerano, rilevatore per rilevatore, tutti
i possibili confronti a coppie tra gli errori commessi da un rilevatore:
se gli errori sono tendenzialmente positivi, o tendenzialmente negativi,
la correlazione tra gli errori sarà positiva, altrimenti può
assumere valori nulli o anche negativi. La presenza di correlazione positiva
tra gli errori, supponiamo dei rilevatori, indica che le medie degli errori
dei rilevatori tendono ad essere tra loro diverse. Lo scarto tra la media
di un rilevatore e la media globale stima la "distorsione del rilevatore".
Errore
cumulantesi
Termine
(in inglese: cumulative error) usato talvolta per denotare un errore che,
cumulato su un insieme di unità, non tende a zero. L’errore relativo
dell’errore, cioè, non si annulla all’aumentare del numero di osservazioni.
Errore
del codificatore
Nei
dati raccolti e codificati, è l’errore imputabile all’azione dei
codificatori. Si esprime solitamente in termini di incremento della varianza
di stima: la parte della varianza globale di stima attribuibile ai codificatori
è detta "varianza dei codificatori".
Errore dell’intervistatore (v. Errore del rilevatore)
Errore
del rilevatore
Nei
dati rilevati, è l’errore imputabile all’azione dei rilevatori.
Si esprime solitamente in termini di incremento della varianza di stima:
la parte della varianza globale di stima attribuibile ai rilevatori è
detta varianza dei rilevatori.
Errore
del supervisore
Nei
dati rilevati, è l’errore imputabile all’azione dei supervisori.
Si esprime solitamente in termini di incremento della varianza di stima:
la parte della varianza globale di stima attribuibile ai supervisori è
detta varianza dei supervisori.
Errore
di approssimazione
In generale,
è un errore di approssimazione nei calcoli numerici o di arrotondamento
per motivi pratici delle cifre. Si distingue dall’errore casuale di rilevazione,
che è un forma di imprecisione non voluta.
Errore di arrotondamento (v. Errore di approssimazione)
Errore di campionamento (v. Errore campionario)
Errore
di elaborazione
Errore
che può verificarsi nella elaborazione statistica dei dati. In una
indagine, l’errore di elaborazione può essere originato da errori
di trascrizione, di digitazione dei dati e di calcolo delle stime.
Errore
di imposizione automatica
Errore
commesso sostituendo, mediante programmi di imposizione automatica, un
valore diverso o un dato mancante con un valore diverso da quello vero.
Errore di imputazione (v. Errore di imposizione automatica)
Errore di misura (v. Errore extracampionario)
Errore di osservazione (v. Errore di rilevazione)
Errore di osservazione (v. Errore di rilevazione)
Errore
di registrazione
Errore
commesso nel registrare su supporto informatico i codici di risposta ottenuti
nella fase di rilevazione dei dati e nella eventuale successiva codifica
di informazioni raccolte "in chiaro".
Errore
di rilevazione
Di rilevazione,
o di osservazione, è la parte di errore extra-campionario dovuta
a difformità tra il valore vero e il valore rilevato presso le unità
statistiche osservate. Con riferimento ad una stima, è la parte
di errore di stima imputabile agli errori commessi nella fase di rilevazione
dei dati. Comprende l’errore dei rispondenti, l’errore dei rilevatori,
l’errore dei supervisori e l’errore della scuola degli addetti alla rilevazione
dei dati.
Errore
di risposta
Errore
extra-campionario dovuto a difformità tra la risposta data e il
valore vero. Nelle indagini svolte per rilevazione diretta dei dati, il
termine si usa talvolta per denotare l’errore di rilevazione. Il termine
è spesso utilizzato anche se il processo di formazione dei dati
non implica richiesta di informazioni e relativa risposta.
Errore di stima (v. Errore globale di stima)
Errore
extracampionario
Errore
statistico risultante dalla somma di tutti gli errori commessi, o che si
possono commettere, in una qualsiasi fase del processo d’indagine, nonché
delle loro possibili interazioni, con l’esclusione dell’errore imputabile
alle fluttuazioni campionarie. E’ anche detto errore non campionario. Può
essere originato da difetti nelle liste (doppioni, casi mancanti), errori
nella rilevazione dei dati dovute a casualità, a marcata soggettività
o a vero dolo nello svolgimento dei vari ruoli nella rilevazione (rispondente,
rilevatore, supervisore), codifica (codificatori, supervisori), memorizzazione
ed elaborazione dei dati.
Errore
globale di stima
Errore
delle stime dovuto all’effetto dell’incompletezza della rilevazione, degli
errori di rilevazione e di ogni altro errore extracampionario, misurabile
e non, e della eventuale interazione tra l’errore campionario e gli errori
extracampionari. Sulla distribuzione delle stime si manifesta come una
varianza per la parte degli errori variabili e come una distorsione per
gli errori sistematici. L’errore globale si misura con l’errore quadratico
medio.
Errore
medio di stima
Indice
di variabilità di uno stimatore, formalmente espresso dalla radice
quadrata della sua varianza campionaria. L’errore medio è tanto
minore quanto maggiore è la numerosità del campione, annullandosi
quando l’indagine investe la totalità delle unità della popolazione.
L’errore medio si può stimare solo quando il campione è stato
selezionato con criteri probabilistici. Sulla base della stima e del suo
errore medio, è possibile fare affermazioni probabilistiche definendo,
tra l’altro, l’intervallo fiduciario della stima stessa.
Errore non campionario (v. Errore extracampionario)
Errore probabile (v. Errore standard)
Errore
quadratico medio
Indice
di misura della variabilità dato dalla media del quadrato degli
scarti attorno ad un’origine arbitraria. Se l’origine è la media
delle osservazioni, l’errore quadratico medio coincide con la varianza.
Se l’origine è il valore vero del parametro, e questo non coincide
con la media delle osservazioni, ossia la media è distorta, l’errore
quadratico medio è dato dall’unione della varianza e del quadrato
della distorsione.
Errore
quadratico medio, di stimatore
Valore
atteso dello scarto quadratico tra lo stimatore e il valore vero della
statistica che si desidera stimare (nella popolazione). Se lo stimatore
è corretto, l’errore quadratico medio si identifica con la varianza
dello stimatore, altrimenti è maggiore di tale varianza per una
quantità pari al quadrato della distorsione dello stesso stimatore.
Errore
relativo
Entità
di errore rapportata al valore stimato. Per esempio, l’errore relativo
di stima di una grandezza è dato dal rapporto tra l’errore di stima
e il valore atteso della grandezza. L’errore così relativizzato
si può esprimere in percentuale del valore stimato. Se la stima
è corretta, l’errore relativo è dato dal rapporto tra la
radice quadrata della varianza di stima e la stima stessa, se, invece,
la stima è affetta da distorsione, l’errore relativo è dato
dal rapporto tra l’errore medio (di stima) e la stima.
Errore
sistematico, distorsione
Scarto
tra un valore empirico e il suo valore atteso che, in prove ripetute, si
manifesta sempre nella stessa direzione e misura. Questo scarto è
anche detto distorsione. Si distingue dall’errore casuale che varia tra
prove campionarie e può, quindi, bilanciarsi in media. Nella valutazione
della variabilità di uno stimatore (v. Errore quadratico medio),
la componente dovuta alla distorsione si aggiunge alla varianza campionaria
e alla varianza dovuta agli errori variabili di rilevazione.
Errore
sperimentale
In senso
generale, è l’errore commesso in un esperimento, dovuto sia ad errori
casuali, sia ad errori sistematici di impostazione dell’esperimento. Nel
linguaggio statistico, si intende più precisamente l’errore atteso
in probabilità in eventuali ripetizioni dell’esperimento. La limitazione
di questo errore è l’obiettivo dei piani sperimentali.
Errore
standard
Radice
quadrata della varianza della distribuzione campionaria di una statistica.
In altri tempi, si usava come misura di variabilità campionaria
l’errore probabile, pari a 0,6745 volte l’errore standard.
Errore
statistico
Discrepanza
tra il valore disponibile nell’indagine e il suo valore vero. La definizione,
di carattere generale, ha contenuto diverso secondo che si riferisca alla
singola unità statistica oppure ad una statistica di sintesi dei
dati rilevati. Nel primo caso, la discrepanza è dovuta al complesso
degli errori extracampionari che si commettono nel formare il dato inerente
all’unità. Nel secondo, l’errore comprende sia gli errori campionari
che quelli extracampionari, per cui, anche quando i dati di ogni unità
fossero rilevati con esattezza, la statistica campionaria differirebbe
comunque dal valore osservabile in un’indagine completa. Errori statistici
si possono commettere in ogni fase di un’indagine, dall’impostazione alla
definitiva divulgazione dei risultati. Per definire le categorie d’errore
di un’indagine e quantificare, ove possibile, l’effetto che l’esposizione
delle varie fonti d’errore ha sulle stime, va tracciato un "profilo degli
errori". Conoscendo i possibili errori e il loro probabile impatto, l’organizzatore
di un’indagine può adottare le metodiche opportune per prevenirli
o limitarne l’effetto. E’ altresì necessario che si misurino gli
errori nei dati per determinare l’utilizzabilità delle stime. L’unico
errore fatale è l’ignorare la possibilità d’errore.
Errore statistico globale (v. Errore globale di stima)
Errore tipico (v. Errore standard)
Errore variabile (v. Errore casuale)
Error profile (v. Profilo degli errori)
Estremi, valori (v. Valori estremi)
Falso
negativo
Classificazione
erronea di un’unità che possiede un dato attributo alla categoria
che esprime il non possesso dell’attributo. La capacità di uno strumento
di evitare falsi negativi è detta sensibilità.
Falso
positivo
Classificazione
di unità statistiche in base ad un determinato attributo, si dice
falso positivo l’attribuzione (erronea) al gruppo delle unità che
possiedono l’attributo di un’unità che non lo possiede. La capacità
di uno strumento di evitare falsi positivi è detta specificità.
Fase,
di serie
Intervallo
tra due punti di inversione della tendenza (picchi o avvallamenti) di una
serie ordinata temporalmente o spazialmente.
Fase di campionamento (v. Campionamento in più fasi)
Fase
di un’indagine
In una
indagine statistica, si possono individuare varie fasi: (i) l’astrazione,
ossia l’ideazione degli obiettivi dell’indagine e la determinazione delle
strategie di rilevazione e di analisi dei dati e di diffusione dei risultati,
(ii) la rilevazione dei dati, che comprende anche l’esecuzione di tecniche
di controllo della qualità dei dati, (iii) l’elaborazione statistica
dei dati, che comprende la codifica delle informazioni in chiaro, la revisione
manuale ed elettronica delle rinformazioni raccolte, l’elaborazione con
metodi statistici e matematici mediante strumenti in genere elettronici,
(iv) l’interpretazione dei risultati in rapporto agli obiettivi, (v) la
diffusione dei risultati e quindi anche la stesura di uno o più
rapporti di ricerca nei quali si descrivono le scelte metodologiche salienti.
Tutte queste fasi sono interconnesse: errori commessi in una fase gravano
nelle fasi successive. Per questo, nella fase di astrazione dell’indagine,
si traccia un "profilo degli errori", nel quale si evidenziano le fasi
che saranno percorse, gli errori che si rischia di commettere e si può
quindi immaginare quali strategie seguire per prevenire o contenere gli
errori. La rilevazione principale di un’indagine è spesso preceduta
o seguita da indagini per la verifica dell’accuratezza della rilevazione.
Se la verifica si basa sulla riproposizione di una parte o di tutto l’insieme
dei quesiti posti nella rilevazione principale, l’indagine supplementare
si denomina "reintervista".
Fattibilità
delle statistiche
Indica
la pratica realizzabilità di rilevazioni e delle relative statistiche
(CEE 94/0026). La fattibilità è correlata alla economicità
della rilevazione, alla problematicità dell’impianto di rilevazione,
alla disponibilità di stimatori e di informazioni ancillari idonee
alla stima. Nell’ambito delle statistiche comunitarie, la fattibilità
è un presupposto per l’armonizzazione delle statistiche.
Fattore
di espansione all’universo
Valore
con il quale ponderare, o, come si dice anche inflazionare, le unità
campionarie per ottenere stime corrette dei parametri della popolazione.
Questi valori dipendono dal criterio di formazione del campione, dal processo
di rilevazione e dallo stimatore adottato. Se i valori sono tutti uguali,
il fattore inflattivo è detto fattore di espansione del campione,
e il campione è detto "autoponderante".
Fenomeno
oggetto di rilevazione
In una
indagine o in un esperimento statistico, è un fatto, un tratto,
una dimensione latente della popolazione statistica su cui svolge l’indagine
o l’esperimento. I fenomeni sono il contenuto della ricerca che si cerca
di misurare, catalogare e rappresentare, nonché analizzare e prevedere
ponendoli in relazione, ipotizzando strutture e regolarità, inventando
teorie. Di un fenomeno oggetto d’indagine si può rilevare una o
più variabili. Se si tratta di un fenomeno non osservabile, o "latente",
per rappresentare il quale sono state osservate più variabili, mediante
tecniche di riduzione delle dimensioni (multivariate o non), si possono
stimare le dimensioni latenti del fenomeno. Per esempio, per valutare l’intelligenza
si possono somministrare più test psicometrici e sintetizzare i
punteggi ottenuti sui test con tecniche elementari o con più sofisticate
tecniche multivariate. Parimenti, per stimare la variazione dei prezzi
in un’area, si medieranno i prezzi di un paniere di beni e servizi acquisiti
dai consumatori nell’area.
Fiducia
dei rispondenti
Indica
il rapporto fiduciario che sta alla base dello scambio di informazioni
tra chi risponde e chi raccoglie, elabora, interpreta e diffonde le risposte
ottenute. La fiducia dei rispondenti poggia innanzitutto sulle garanzie
offerte da chi raccoglie le informazioni di mantenere il più assoluto
riserbo sui dati raccolti, ma anche sulla utilizzazione corretta, non di
parte, dei dati e delle informazioni ufficiali. La fiducia dei cittadini,
potenzialmente tutti rispondenti, negli Enti del SISTAN che raccolgono
dati è corroborata dalla constatazione che le informazioni statistiche
sono utili alla società, in quanto vengono rese disponibili nei
tempi utili alla fruizione e nei modi che favoriscono l’accesso alla più
ampia utenza possibile.
Finalità
statistiche
Espressione
utilizzata per indicare che la rilevazione e l’analisi di dati hanno scopi
di documentazione statistica. Si giustappone a finalità di ogni
altro tipo, amministrativo, giudiziario etc.. Le finalità statistiche
escludono che l’identità delle unità abbia interesse per
l’utilizzatore dei dati, pertanto l’identità delle unità
statistiche individuali è utilizzata solo a fini di rilevazione
dei dati e i risultati sono presentati in forme che garantiscono il segreto
statistico sui dati raccolti.
Flusso
informativo
Insieme
delle informazioni che "transitano" in un sistema informativo e che descrivono
le attività dell’ente entro cui il sistema è attivo. Si tratta
dell’insieme dei dati utili alla gestione dell’ente e, quindi, i flussi
informativi non sono costituiti solo da dati di flusso, ma anche da dati
di stock e da indicatori qualitativi e quantitativi di gestione, di analisi
e di previsione dei fenomeni su cui il sistema intende informare.
Fluttuazione
Movimento
verso l’alto o verso il basso di una serie ordinata di valori. Si dice
"fluttuazione campionaria" di una statistica la variazione osservabile
in campioni diversi della stessa popolazione.
Follow-up (v. Indagine ripetuta)
Fonte
dei dati
Entità
presso la quale sono state acquisite le informazioni. Se si segue il canale
amministrativo, la fonte può essere un registro cartaceo o automatico,
una pubblicazione, un documento o un insieme di documenti risultanti da
resoconti di attività di gestione etc.. Se si segue il canale dell’acquisizione
dei dati mediante indagini dirette, la fonte dei dati è il rispondente,
il quale può rispondere per sé stesso o per altre persone.
Sono tipiche fonti dirette le imprese, le persone fisiche, le istituzioni.
Conviene distinguere tra rilevazione indiretta, svolta su documenti amministrativi,
e rilevazione in sostituzione dell’unità designata, che si ha quando
questa non può collaborare e viene sostituita da un’altra avente
titolo a rispondere in sua vece. Per esempio, il capofamiglia può
rispondere su questioni di carattere oggettivo a lui note anche al posto
di altri membri della famiglia: in tal caso si dice che risponde "in vece"
del membro del quale si cercano le informazioni statistiche.
Forma di diffusione, dei dati (v. Canale di distribuzione dei dati ufficiali)
Forzatura
Operazione
che consiste nel sostituire i valori di una o più variabili dopo
l’analisi di compatibilità sulla base di regole e metodi prestabiliti
(v. Metodi di imposizione automatica). Anche la modalità forzata
si denomina forzatura.
Frazione
di campionamento
Nel
campionamento di una popolazione finita, è il rapporto n/N tra il
numero di unità campionarie, n, e il numero di unità della
popolazione, N. Se la selezione del campione è effettuata da più
strati, la frazione di campionamento riguarda i singoli strati oltre che
l’intera popolazione. Da ogni strato può essere selezionata una
frazione di campionamento differente. Se la frazione di campionamento è
costante negli strati, il campione, detto "stratificato proporzionale",
ha la caratteristica di essere autoponderante.
Frequenza
Numero
di volte in cui è verificato un certo evento, o il numero di unità
della popolazione che cadono in una data categoria. Se la frequenza è
rapportata al numero di unità esaminate, si dice "frequenza relativa",
o "proporzione".
Frequenza
assoluta
Frequenza
del realizzarsi di una modalità di una variabile. Con riferimento
a più variabili simultaneamente considerate, è la frequenza
del realizzarsi congiunto di una combinazione di modalità delle
variabili considerate. L’insieme delle frequenze assolute di una variabile
si dice "distribuzione di frequenza (assoluta)". Le frequenze assolute
si distinguono da quelle "relative".
Frequenza cumulata Con riferimento alla distribuzione di frequenze della variabile X, è cumulata fino alla modalità x0 la somma delle frequenza fino a quella - e inclusa quella- della modalità x0 .
Frequenza
di categoria
Con
riferimento ad una o più variabili nominali, è la frequenza
di una categoria. Siccome in inglese la modalità di una variabile
nominale si dice cell, la frequenza di categoria è talvolta, impropriamente,
detta frequenza di cella.
Frequenza nell’ipotesi di indipendenza (v. Indipendenza)
Frequenza proporzionale (v. Frequenza relativa)
Frequenza
relativa
Con
riferimento ad una variabile, è il rapporto tra la frequenza "assoluta"
del realizzarsi di una modalità della variabile e la frequenza totale.
Con riferimento a più variabili simultaneamente considerate, è
la frequenza relativa del realizzarsi congiunto di una combinazione di
modalità delle variabili considerate. L’insieme delle frequenze
relative di una variabile si dice "distribuzione di frequenze (relative)".
Il totale delle frequenze relative è pari a 1. Spesso, la distribuzione
di frequenze relative è espressa come percentuale, ossia ciascuna
frequenza relativa è moltiplicata per 100 e, quindi, sull’insieme
delle modalità, dà per somma 100.
Frequenza percentuale (v. Frequenza relativa)
Fruibilità
del dato
Grado
di effettiva possibilità di far uso del dato da parte delle unità
per le quali è prodotto. La fruibilità si rapporta sia alla
diffusione nei tempi e nei modi opportuni per l’utilizzo, sia alla facilità
di comprensione del suo contenuto.
Funzione
dei costi
Nella
teoria del campionamento, è l’espressione matematica del costo di
esecuzione dell’indagine in funzione dei parametri che caratterizzano l’indagine.
Fanno generalmente parte di un funzione di costi, il costo dell’aggiunta
di uno strato, il costo della selezione di una unità primaria e
quello di una unità secondaria in più, etc. La funzione dei
costi si impiega anche per la determinazione di funzioni ottime nell’ambito
dei piani di rilevazione. Queste funzioni possono comprendere, oltre agli
elementi inerenti al campione, anche il costo dell’individuazione di un
rilevatore, o di un codificatore, o di un supervisore in più.
Funzione
di densità di probabilità
Espressione
alternativa per "funzione di frequenza" quando la distribuzione è
di tipo probabilistico.
Funzione
distributiva (di frequenze)
Espressione
che stabilisce la frequenza di una variabile quantitativa come funzione
del valore della variabile. Se non è diversamente specificato, la
frequenza totale è 1, e quindi ogni frequenza è intesa in
relazione al totale delle frequenze. Il concetto di funzione distributiva
è estendibile al caso "bivariato", ossia alla relazione tra le frequenze
e i valori congiuntamente assunti da due variabili. Il concetto è
analogamente estendibile al caso "multivariato".
Generalizzabilità
- Generalizzabile, dato statistico
Possibilità
di estendere una stima a una realtà fenomenica più ampia
di quella per la quale la stima è stata ottenuta.
Generalizzabilità
- Generalizzabile, indagine statistica
Termine
usato in senso traslato per indicare la possibilità di estendere
i risultati dell’indagine a una realtà fenomenica più ampia
di quella per la quale i risultati sono stati ottenuti. Piuttosto che di
generalizzabilità dell’indagine, conviene parlare di generalizzabilità
dei dati o delle stime.
Generalizzabilità
- Generalizzabile, strumento di rilevazione
Uno
strumento, una tecnica, una procedura di misura, sono generalizzabili se
possono essere adeguatamente utilizzati al di fuori del campo di applicazione
per il quale lo strumento è stato concepito.
Generazione
Insieme
di individui nati durante lo stesso anno civile.
Gradi
di libertà
Termine
introdotto da Fisher per denotare, in analogia con l’idea dei gradi di
libertà di un sistema dinamico, il numero di coordinate indipendenti
necessarie per determinarlo. In un insieme di osservazioni, il numero di
gradi di libertà è il numero di valori da assegnare arbitrariamente
nella specificazione del sistema. Per esempio, in una tabella di frequenze
di dimensioni (rxc) con marginali fissati, ci sono (r-1)(c-1) gradi di
libertà, perché, per ogni riga e ogni colonna, se si specificano
rispettivamente (c-1) e (r-1) valori, l’altro è determinato dal
totale marginale. In un’altra accezione, si usa l’espressione gradi di
libertà per denotare il numero di confronti indipendenti possibili
tra le unità che appartengono ad un campione.
Grandezza
Sinonimo
di variabile statistica quantitativa. Si distingue talvolta tra grandezze
intensive, o "intensità", e grandezze estensive, o "frequenze",
ossia tra quantità originate da misure o da enumerazioni. Per esempio,
è un’intensità il reddito posseduto dalle famiglie italiane,
è una frequenza il numero di famiglie che possiedono una seconda
casa.
Grappolo
Gruppo
di unità contigue appartenenti ad una popolazione statistica. Può
trattarsi delle persone che vivono sotto lo stesso tetto, dei membri della
stessa associazione, delle aree adiacenti su un dato territorio, o di una
serie di osservazioni consecutive in una serie ordinata. La selezione di
grappoli ha particolare rilevanza nel "campionamento su più stadi".
Gruppo
Insieme
di entità che possiedono una o più caratteristiche comuni.
Nell’analisi statistica, si fa riferimento all’analisi dei gruppi, ossia
alla ricerca di "gruppi omogenei" rispetto a certe caratteristiche definite.
Gruppo
omogeneo
Insieme
di entità contigue di una popolazione statistica, per esempio, un
gruppo di persone che vivono sotto lo stesso tetto, un blocco di osservazioni
ordinate nel tempo o nello spazio, un insieme di punti prossimi nello spazio.
L’icastico termine inglese cluster è spesso usato in alternativa
al termine italiano.
Identificabilità
- Identificabile, unità statistica
Una
unità statistica è identificabile se l’identificazione si
può realizzare in tempi, con costi e sforzo ragionevoli. L’unità
si considera non identificabile se l’identificazione implica l’impiego
di un tempo, costo e sforzo irragionevoli.
Ideogramma
Diagramma
che utilizza figure o contorni suggestivi per rappresentare popolazioni
mediante immagini la cui area, o il cui numero, è collegato in maniera
precisa al valore del carattere considerato in ciascuna delle popolazioni.
Imparzialità
- Imparziale, statistica
Imparziale
è la statistica prodotta in maniera oggettiva, scientifica, su basi
non distorte e al riparo da ogni pressione esercitata da gruppi politici
o da altri gruppi di interesse, in particolare per quanto attiene alla
scelta delle tecniche scientifiche, delle definizioni e delle metodologie
più adeguate al perseguimento degli obiettivi dei programmi statistici
degli Enti produttori di statistiche. Una volta che siano state tabulate
le statistiche, sono messe a disposizione di tutti gli utenti, al più
presto e in modo da rispettare il principio di imparzialità nella
diffusione.
Imparzialità
- Imparziale, statistico
Statistico
che si fa guidare nello svolgimento della propria attività da princìpi
scientifici. Nell’ambito delle Pubbliche Amministrazioni, gli addetti statistici
sono tenuti al segreto d’ufficio e al rispetto dei princìpi deontologici
che regolano il Sistema Statistico Nazionale.
Imparzialità
- Imparziale, sistema statistico (v. Germania, CEE 94/0026)
Sistema
statistico non condizionato da interferenze politiche, economiche o di
gruppi di pressione che non rappresentano la società civile (v.
anche Integrità del Sistema statistico). Le statistiche dovrebbero
essere prodotte ed elaborate in modo obiettivo, ossia scientifico, e diffuse
presso tutti gli utenti potenzialmente interessati.
Impresa
Ai fini
del Censimento dell’industria e dei servizi del 1991, è l’organizzazione
di una attività economica esercitata con carattere professionale
al fine della produzione di beni o per la prestazione di servizi destinabili
alla vendita. Le imprese possono essere unilocalizzate, ossia composte
da una sola unità locale, o plurilocalizzate, ossia costituite da
due o più unità locali.
Imputazione (v. Forzatura; Metodi di imposizione automatica)
Imputation (v. Metodi di imposizione automatica)
In blocco, campionamento (v. Campionamento senza reinserimento)
Inchiesta statistica (v. Indagine statistica)
Incoerenza tra dati (v. Coerenza)
Incompatibilità - Incompatibile, dato (v. Dato manifestamente errato)
Indagine
analitica
Indagine,
di solito per campione, il cui fine primario è il confronto fra
settori o sottogruppi della popolazione esaminata.
Indagine
campionaria
Indagine
svolta su un sottinsieme delle unità che compongono la popolazione.
Se l’insieme da rilevare è selezionato con l’intento di stimare
caratteristiche della popolazione, l’indagine parziale si dice campionaria.
Indagine descrittiva Indagine, di solito per campione, il cui fine primario
è la stima dei parametri basilari (medie, totali, rapporti etc.)
della popolazione esaminata o di sue specificate partizioni.
Indagine
di controllo
Indagine
svolta per effettuare il controllo statistico della qualità dei
dati. Le indagini di controllo possono essere svolte in concomitanza con
la rilevazione principale, come è per esempio il caso se si applica
la tecnica della compenetrazione dei campioni, ovvero successivamente allo
svolgimento della rilevazione principale, come è il caso per esempio
della reintervista.
Indagine
di opinione
Indagine
campionaria che mira a rilevare le opinioni dei membri di una popolazione
su determinati argomenti.
Indagine diretta Indagine che si basa sulla "rilevazione diretta" delle unità del campione o della popolazione.
Indagine
esaustiva
Esaustiva,
o totale, è l’indagine statistica svolta sulla totalità delle
unità che compongono la popolazione. Questo tipo di indagine si
contrappone a quella parziale.
Indagine esplorativa (v. Indagine pilota)
Indagine
indiretta
Indagine
che si basa sulla "rilevazione indiretta" delle unità del campione
o della popolazione.
Indagine
longitudinale
Indagine
svolta rilevando più volte nel tempo il fenomeno oggetto della ricerca.
L’indagine longitudinale può essere "retrospettiva", ossia svolta
rilevando ad una certa data informazioni su fenomeni del passato, o "prospettica",
ossia svolta seguendo nel tempo la popolazione o le popolazioni oggetto
di ricerca. Negli studi epidemiologici, tra le indagini retrospettive ha
particolare importanza l’indagine detta "caso-controllo", ossia svolta
su due subpopolazioni di casi, che possiedono una determinata caratteristica
(per esempio, una malattia), e di controlli, esenti da quella caratteristica.
Uno studio prospettico (in inglese follow-up) è condotto per seguire
nel tempo l’evoluzione del fenomeno. Spesso, per scomputare effetti spuri,
si confrontano le osservazioni su insiemi di esposti ad un determinato
fattore con quelle sui non esposti al fattore.
Indagine parziale (v. Indagine campionaria)
Indagine per campione (v. Indagine campionaria)
Indagine
pilota, preliminare
Indagine
svolta prima di quella principale con l’intento di assumere informazioni
che possono rendere più efficiente lo svolgimento dell’indagine
principale. Può essere utilizzata per sottoporre a verifica un questionario,
per avere un’idea del tempo necessario per lo svolgimento dell’intervista
presso certi sottoinsiemi di unità, per conoscere la variabilità
dei fenomeni che interessano la ricerca e determinare conseguentemente
la numerosità del campione sufficiente ad ottenere stime che abbiano
un’attendibilità prefissata. L’indagine pilota è condotta,
in genere, su piccola scala e su sottoinsiemi mirati della popolazione.
Indagine preliminare (v. Indagine pilota)
Indagine
principale
Quando
si svolge un’indagine per il controllo della qualità delle informazioni,
è principale l’indagine, normalmente basata su un campione di dimensioni
ben più ampie di quella di controllo, svolta per rilevare i dati
utili alla stima e alla verifica delle ipotesi di ricerca.
Indagine prospettica (v. Indagine longitudinale)
Indagine retrospettiva (v. Indagine longitudinale)
Indagine
ripetuta
Rilevazione
ripetuta di una popolazione a cadenze più o meno regolari nel tempo
con lo stesso strumento di misura (questionario, altro). Per realizzare
questo tipo di rilevazioni si può tenere fisso il campione o farlo
variare di volta in volta. Un tipico disegno di campionamento per rilevazioni
ripetute è il campionamento ruotato.
Indagine
secondaria
Indagine
svolta a seguito di un’indagine principale per controllare la qualità
dei dati in questa raccolti. Si veda "indagine di controllo".
Indagine
statistica
Indagine
che, se non è diversamente specificato da norme o concordato con
i rispondenti, ha esclusivamente finalità statistiche. Si distingue
in questo senso dalle indagini che hanno altre finalità conoscitive,
per esempio, le ispezioni di polizia, quelle aventi fini di accertamento
fiscale, doganale etc. Al posto di "indagine statistica" si usano talvolta
i termini "sondaggio" ("sondaggio demoscopico", se ha per oggetto la popolazione)
e anche "inchiesta statistica". Corrisponde al termine inglese survey.
Può essere eseguita su un campione o sulla totalità della
popolazione. Nell’indagine statistica si possono individuare varie fasi:
astrazione, raccolta dei dati e delle informazioni, memorizzazione ed elaborazione
statistica dei dati, analisi dei risultati delle elaborazioni, diffusione
dei risultati.
Indagine
successiva
Indagine
svolta sulla stessa popolazione per verificare la qualità dei dati
rilevati nell’indagine principale. Il caso più tipico di indagine
successiva è la reintervista. L’indagine successiva può,
naturalmente, essere svolta anche con una tecnica di rilevazione e su unità
di rilevazione diverse da quelle dell’indagine principale. Per esempio,
ad una indagine sullo stato di salute della popolazione svolta con la tecnica
del questionario può seguire una limitata indagine di controllo
su dati o con tecniche diagnostiche più affidabili delle dichiarazioni
dei soggetti intervistati. Oppure, per confrontare l’accuratezza delle
risposte sul reddito, sul risparmio e sul patrimonio fornite dalle famiglie
si possono rilevare a parte dati ufficiali sulla consistenza degli aggregati.
Indagine
suppletiva
Indagine
di supporto dell’indagine principale. L’indagine suppletiva si svolge generalmente
su campioni di minore dimensione di quello dell’indagine principale, con
l’obiettivo ottenere informazioni più ricche su temi appena abbozzati
nella rilevazione principale, oppure alternative a quelle già raccolte
con la prima rilevazione. Per esempio, l’ISTAT svolge rilevazioni per avere
informazioni di contorno rispetto a quelle ottenute nelle rilevazioni correnti,
nonché rilevazioni di verifica della qualità dei dati mediante
reintervista di campioni di unità rispondenti.
Indagine
trasversale
Indagine
statistica avente come riferimento temporale della rilevazione un determinato
istante. Con riferimento alle storie individuali, si dice trasversale perché
attraversa temporalmente le storie delle unità della popolazione.
E’ indagine trasversale il censimento della popolazione, come qualsiasi
indagine che si proponga di "fotografare" la realtà di una popolazione
statistica ad un determinato istante. Il termine inglese survey, quando
non è diversamente indicato, indica l’indagine trasversale.
Indicatore
statistico
Criterio
di misura di un fenomeno. In relazione al campo di applicazione, gli indicatori
possono essere "sociali", ossia inerenti a fenomeni sociali, come la salute
della popolazione e l’igiene pubblica, l’istruzione e la cultura, l’uso
del tempo libero, la criminalità e la litigiosità nelle comunità,
"economici", se rappresentano fenomeni a carattere economico, "ambientali",
se descrivono caratteristiche dell’ambiente, e in particolar modo l’effetto
dell’inquinamento e dell’uso sconsiderato delle risorse naturali, etc.
Un indicatore di un fenomeno diventa statistico quando le sue misure sono
caratterizzate statisticamente, ossia hanno una distribuzione valutabile
statisticamente. Un indicatore è un indice che acquisisce significato
all’interno di un quadro di riferimento. Per esempio, gli indicatori del
livello di vita di una comunità possono essere indicatori di disponibilità
di reddito procapite, di salute della popolazione etc. il cui valore è
valutabile in rapporto al quadro complessivo che definisce il livello della
vita, per cui alcuni indicatori il cui calcolo è oneroso possono
essere abbandonati a favore di altri di analoga preganza ma di più
facile accesso. Gli indicatori sociali, economici e ambientali sono stati
studiati in particolar modo dalle organizzazioni internazionali (Nazioni
Unite, OECD, Unione Europea etc.). L’U.N. Statistical Office adotta sistemi
di indicatori statistici denominati SNA-System of National Accounts per
l’integrazione delle statistiche sugli stock e i flussi economici, FSDS-Framework
for the integration of Social and Demographic Statistics per porre in relazione
statistiche del settore socio-demografico, FDES-Framework for the Development
of Environment Statistics per l’ambiente.
Indice
a base fissa
Numero
indice di cui è prefissato e mantenuto fisso il periodo di base.
Indici di questo tipo si giustappongono a quelli a base mobile.
Indice
a base mobile
Indice
di cui il periodo di base è rapportato ad una base che cambia nel
tempo. Gli indici a base mobile più tipici sono quelli "concatenati",
nei quali ogni indice della serie è rapportato all’indice che lo
precede.
Indice a catena (v. Indice concatenato, a catena)
Indice
aggregativo
Indice
costruito come unione dell’insieme di elementi di uguale natura, o collegati
allo stesso concetto, con l’obiettivo di stimare una grandezza non misurabile
direttamente. L’aggregazione può essere ottenuta per sommatoria
o per sintesi mediante coefficienti opportuni degli indici elementari.
Esempi di indice aggregativo sono il reddito nazionale, l’indice della
produzione industriale, l’indice di idoneità delle acque alla vita
dei pesci.
Indice composito (v. Indice aggregativo)
Indice
concatenato, a catena
In una
serie di numeri indici, è l’indice il cui valore è rapportato
a quello dell’indice che lo precede nella serie. Si distingue per questo
dagli indici a base fissa. Il confronto tra periodi non adiacenti è
ottenibile moltiplicando i valori compresi nell’intervallo tra i due periodi
considerati. Per esempio, se denotiamo con I12 l’indice del periodo 2 relativo
al periodo 1, e con I01 quello del periodo 1 relativo al periodo 0, l’indice
del periodo 2 rapportato al periodo 0 è dato dal prodotto di I01
per I12.
Indice
corretto
Indice
che viene aggiustato per eliminare l’influenza di cause sistematiche note,
estranee all’evoluzione generale del fenomeno nel tempo. Si correggono
normalmente gli indici con i quali si intende non solo caratterizzare numericamente
la situazione attuale rispetto ad un perido di riferimento, ma anche seguire
l’evoluzione del fenomeno nel tempo. Per esempio, l’indice mensile della
produzione industriale viene corretto per tener conto dell’influenza del
numero di giorni lavorativi nei mesi successivi.
Indice
dei prezzi
Numero
indice che mira a combinare numerose serie di dati sui prezzi in una serie
singola che rappresenta un livello medio dei prezzi. Tra gli indici dei
prezzi, hanno rilievo quelli dei prezzi all’ingrosso, quelli dei prezzi
al consumo, e, tra questi ultimi, quelli dei prezzi al consumo delle famiglie
di operai e impiegati sui quali si base l’indice ufficiale dell’inflazione
in Italia.
Indice
descrittivo
Indice
che descrive una relazione che riguarda i singoli valori di una variabile.
Gli indici descrittivi si giustappongono in questo senso agli indici globali,
o medi, che riguardano l’intero aggregato. Sono descrittivi gli indici
dei redditi di Pareto e di concentrazione di Gini, sono globali le medie,
gli scarti quadratici medi, etc.
Indice
elementare
L’indice
elementare It/0 di una grandezza semplice G all’epoca t rispetto all’epoca
base 0 (base o periodo di riferimento) è il quoziente dei valori
della grandezza G nelle epoche t e 0: [Image]. L’indice It/0 è spesso
presentato come percentuale.
Indice
relativo
Indice
rapportato ad una misura di centralità, o al valore massimo, o ad
altro valore ottenibile in certe ipotesi. Il valore relativizzato è
a-dimensionale, ossia è espresso in unità standard, e non
nell’unità di misura originale.
Indice sintetico (v. Indice aggregativo)
Indice
statistico
Coefficiente
adimensionale che caratterizza le variazioni nel tempo e/o nello spazio
di un grandezza direttamente misurabile o indirettamente. Gli indici rappresentativi
di una grandezza semplice si dicono "elementari", quelli rappresentativi
di una grandezza complessa si dicono "aggregati", o "compositi".
Indifferenza
statistica
Con
riferimento a due o più variabili, è termine colloquiale
per indicare indipendenza.
Indipendenza
- Indipendenti, eventi, variabili, unità
Nel
calcolo delle probabilità, due eventi sono indipendenti se la probabilità
del verificarsi di uno è la stessa, che si conosca o no quella dell’altro.
In statistica, due variabili X e Y si dicono indipendenti se la loro funzione
distributiva congiunta f(x,y) è legata a quelle singole, f(x) e
f(y), dalla relazione: f(x,y)=f(x) f(y). Si dice, pertanto, "frequenza
nell’ipotesi di indipendenza" statistica, o stocastica, tra variabili la
frequenza ottenibile per prodotto delle frequenze marginali delle variabili.
Il concetto
di indipendenza si applica anche alla relazione tra unità appartenenti
ad uno stesso gruppo, cioè, un’unità è indipendente
dalle altre rispetto ad una variabile se la modalità dell’unità
non è determinabile conoscendo le modalità delle altre unità
del gruppo.
Indipendenza
scientifica
Criterio
di produzione, analisi, immagazzinamento e diffusione di dati e informazioni
in accordo con standard professionali che discendono da princìpi
scientifici e dall’etica professionale. Il principio dell’indipendenza
scientifica e quello dell’imparzialità del sistema statistico sono
quindi correlati.
Individuo (v. Unità statistica)
Induzione
statistica
Insieme
delle operazioni e dei ragionamenti fondati sul calcolo delle probabilità
e sulla statistica matematica mediante i quali si passa dalla realtà
osservata, in genere basata su campioni, alla conoscenza delle leggi che
li reggono, al fine di fare previsioni o di prendere decisioni con un margine
d’errore determinato probabilisticamente.
Inferenza
statistica
In una
indagine o esperimento statistico, è il processo decisionale, basato
su una verifica delle ipotesi statistiche con la realtà osservata,
che porta ad accettare o rifiutare (Popper usa il termine falsificare)
un’ipotesi statistica fissata sul valore dei parametri o sulla forma di
una legge di distribuzione di una popolazione. Formulata in termini statistici,
un’ipotesi si presenta come un sistema di alternative: H0, detta ipotesi
nulla, è l’ipotesi di base, e H1, detta ipotesi alternativa, è
l’ipotesi che si considera se si rifiuta H0. Per accettare o rifiutare
l’ipotesi nulla si applica un test funzione delle osservazioni della realtà:
l’applicazione del test conduce ad accettare o rifiutare l’ipotesi con
probabilità di conclusione errata. Quando si verifichi che dati
provenienti da un certo contesto, e rilevati in accordo con un sistema
definitorio dato, sono conformi ad un’ipotesi formulata, non significa
che l’ipotesi è provata, bensì che ha superato una prova.
Si dice che la teoria da cui l’ipotesi discende è stata corroborata.
Informazione
Tutto
ciò che permette di ridurre l’incertezza rispetto a un obiettivo
di conoscenza (v. Accesso ai dati statistici; Diritto all’informazione).
Nell’indagine statistica, l’informazione è utilizzata in ogni fase,
dalla formulazione delle ipotesi di ricerca, per la quale si può
trarre dall’esperienza accumulata, alla rilevazione dei dati, per la quale
si dispone di conoscenze metodologiche e tecnologiche crescenti, alla stima
e alla verifica di ipotesi, per condurre le quali si dispone di conoscenza
metodologica e di informazioni ausiliarie sulla popolazione esaminata.
I termini dato e informazione sono spesso utilizzati in modo intercambiabile
nell’indagine statistica. Tuttavia, l’informazione si può concepire
come il contenuto del dato, ciò che con questo si intende rappresentare.
Informazione ancillare (v. Informazione ausiliaria)
Informazione
a priori
Informazioni
disponibili prima della rilevazione dei dati circa i parametri da stimare
(v. anche "informazione ausiliaria"). Possono derivare da precedenti rilevazioni
censuarie o campionarie della stessa o di analoghe popolazioni, come da
teorie sulla distribuzione dei parametri. Possono essere utilizzate sia
per la stratificazione della popolazione, sia per la determinazione ottima
delle probabilità di selezione delle unità, sia per la stima
dei parametri. Nell’inferenza bayesiana, il termine fa riferimento alla
conoscenza delle caratteristiche distributive del parametro; una informazione
a priori insufficiente o assente si dice "a priori vago", o "diffuso".
Informazione
ausiliaria
Ausiliarie,
o addizionali, o ancillari, o supplementari, o suppletive, sono le informazioni
che si aggiungono a quelle raccolte presso il campione a fini di controllo
della qualità dei dati, di stima e di verifica delle ipotesi statistiche.
Informazione
previa
Nella
predisposizione dei piani di rilevazione dei dati, è un’informazione
sulle unità della popolazione che viene utilizzata nella progettazione
del campione e del piano di rilevazione. Le informazioni previe sono impiegate,
di solito, a fini di stratificazione della popolazione, di determinazione
delle probabilità di selezione delle unità, o di altre operazioni
preliminari alla raccolta dei dati, ma si possono impiegare anche nel processo
di stima (v. Informazione supplementare).
Informazione
statistica
Informazione
che ha valore statistico. Il termine comprende sia i dati che le informazioni
di tipo qualitativo che i meta-dati. Quando il termine si giustappone a
dati, significa dunque informazioni qualitative.
Informazione suppletiva (v. Informazione ausiliaria)
Iniezione di errori casuali (v. Perturbazione casuale di dati)
Integrazione
delle fonti di produzione statistica
Proprietà
di un insieme di fonti di produzione statistica di formare un sistema.
L’integrazione di più fonti richiede l’esistenza di un disegno comune
che determini il campo di osservazione complessivo e permetta, quindi,
di stabilire un ruolo per ciascuna fonte e le esigenze non soddisfatte.
L’integrabilità delle fonti implica l’adozione di concetti, definizioni,
nomenclature e classificazioni comuni o comunque riconducibili.
Integrità
del Sistema statistico, di statistiche
Sinonimo
di imparzialità del Sistema, delle sue componenti, o del prodotto
dello stesso (CSO del Regno Unito). Vale anche con riferimento al singolo
statistico (CSO irlandese).
Interazione
In generale,
è un insieme di unità raggruppate insieme secondo due o più
fattori di classificazione tra loro non indipendenti. Negli esperimenti
statistici, l’interazione indica l’entità dell’effetto sulla variabile
di risposta al variare delle modalità di un fattore in dipendenza
delle modalità di uno o più altri. Si hanno interazioni del
primo ordine se riguardano l’effetto congiunto di due fattori sulla variabile
di risposta, di secondo ordine se i fattori sono tre, etc. Nell’analisi
dell’esito di esperimenti, le interazioni vanno ad aggiungersi ai cosiddetti
effetti principali, ossia agli effetti dei singoli fattori considerati
indipendentemente uno dall’altro.
Interconnnessione
dei sistemi informativi
Modalità
di realizzazione di più sistemi informativi che possono mutuamente
accedere agli archivi contenuti e usufruire delle medesime procedure software
per il reperimento delle informazioni ed eventualmente per la loro gestione.
L’interconnessione richiede l’impiego di criteri di gestione almeno in
parte comuni e, naturalmente, la sigla di codici comportamentali che garantiscano
i sistemi da turbative esogene indesiderate.
Interfaccia
con l’utenza
Qualsiasi
entità che si ponga come unità di trasformazione e passaggio
di informazioni e di dati da un sistema ad un altro. L’interfaccia con
l’utenza sono strumenti, linguaggi (nel linguaggio dell’informatica: hardware
e software) e procedure che permettono di acquisire informazioni provenienti
dai fruitori del sistema statistico.
Interpretazione
dei dati
In un’indagine
statistica, è la determinazione della relazione che il ricercatore
intravede tra i dati statisticamente elaborati e le ipotesi di ricerca
prefissate. Nel linguaggio statistico, questa fase è denominata
"verifica delle ipotesi". Le conclusioni che si traggono dall’interpretazione
dei risultati sono che le ipotesi teoriche sono respinte, o come si dice
anche confutate, ovvero sono accettate, e allora vanno a corroborare la
teoria da cui le ipotesi sono state tratte. Anche nelle indagini nelle
quali per pigrizia o per altro motivo le ipotesi teoriche non siano state
esplicitate, dato che per rilevare ed elaborare i dati è necessario
procedere con conoscenza di causa (si può qui citare il motto popperiano
"l’osservazione è già interpretazione"), le conclusioni sono
essenzialmente del tipo detto.
Intervallare,
variabile
Intervallare,
o "ad intervalli", o "su scala intervallo", è la variabile le cui
modalità sono valori che partono da un’origine arbitraria. Per esempio,
sono intervallari la temperatura misurata con il termometro, il tempo misurato
a partire dalla nascita del Profeta.
Intervallo
di campionamento
Nel
campionamento sistematico, intervallo, o passo, di campionamento è
il numero di unità che si contano tra due selezioni successive.
Intervallo
di confidenza
Intervallo
i cui estremi l1 e l2 sono statistiche funzione dei soli valori campionari
tali per cui la probabilità che il parametro estimando sia compreso
tra l1 e l2 è pari ad una probabilità a predefinita. Ciò
equivale a dire che l’asserire che il parametro è compreso nell’intervallo
di confidenza è vero, in media, in una proporzione a di volte.
Intervallo
di divulgazione dei dati
Intervallo
di tempo tra la data della rilevazione e quella della messa a disposizione
dei dati mediante divulgazione.
Intervallo fiduciario (v. Intervallo di confidenza)
Intervista
Metodo
di rilevazione dei dati consistente nella somministrazione del questionario
da intervistatori. L’intervista può essere svolta faccia a faccia,
ovvero per telefono. Sia per l’uno che per l’altro tipo di intervista si
può applicare la rilevazione "con carta e penna" o quella "assistita
dal computer": l’indagine assistita da computer con carta e penna è
detta CAPI - Computer Assisted Personal Interviewing, quella telefonica
è detta CATI - Computer Assisted Telephone Interviewing. Per simmetria,
la rilevazione con carta e penna è detta talvolta PAPI - Pen And
Pencil Interviewing.
Intrapresa
Attività
svolta da unità economiche o dalle pubbliche amministrazioni. E’
meglio utilizzare il termine "impresa".
Ipotesi
statistica
Ipotesi
sul valore dei parametri o sulla forma della distribuzione di una popolazione
su cui si conduce la ricerca, o, più in generale, un processo probabilistico
che si suppone generi le osservazioni.
Istituzione
Unità
che ha una contabilità completa e un’autonomia di decisione, la
cui funzione principale è quella di produrre beni e servizi non
destinabili alla vendita, finanziandosi prevalentemente mediante prelevamenti
obbligatori effettuati presso tutte le altre unità istituzionali
dell’economia, cioè famiglie e imprese (se trattasi di istituzioni
dell’amministrazione pubblica), o mediante versamenti volontari delle famiglie
e/o dei soggetti che si sono organizzati per la gestione di un interesse
comune (se trattasi di istituzione sociale privata).
Istogramma
Diagramma
a blocchi usato per rappresentare una distribuzione di frequenze. Si tratta
di una serie di rettangoli verticali, adiacenti tra loro, posti lungo un
asse di riferimento. Se la variabile è quantitativa, l’area di ciascun
rettangolo è proporzionale alla frequenza con cui si verifica la
classe rappresentata sull’asse di riferimento. Si trovano rappresentati
"istogrammi lineari", nei quali i rettangoli sono disposti lungo una retta,
e "istogrammi circolari", nei quali i rettangoli sono attaccati alla circonferenza
di un cerchio. Quando non è diversamente specificato, si intende
che l’istogramma è lineare.
Item
Termine
inglese che denota una modalità di una variabile qualitativa, altre
volte una variabile appartenente ad una batteria di variabili, omogenee
per scala di misura, e riferentisi ad uno stesso concetto. In uno scritto,
sono preferibili i termini italiani che il termine inglese sostituisce.
Limite
della qualità uscente media
Nel
controllo della qualità industriale, è la massima percentuale
di pezzi difettosi che, in media, possono essere trovati nella qualità
in uscita. Il concetto può essere adattato alla qualità del
prodotto di una indagine e diventa, allora, la massima percentuale di errore
globale di stima ammessa nella stima di un parametro. Si veda "protezione
della qualità media".
Limiti
probabilistici
Limiti
superiore ed inferiore di intervalli costruiti attorno all’estimando per
qualche affermazione di tipo probabilistico. Tra gli altri, i limiti fiduciari,
i limiti di confidenza, i limiti di carte di controllo sono limiti probabilistici.
Lineare, stimatore (v., Stimatore)
Linee
guida
Insieme
di indicazioni e di regole metodologiche per svolgere determinati compiti.
Con riferimento alla diffusione delle statistiche, si parla di linee guida
per la presentazione di dati e meta-dati. Le linee guida per la presentazione
conterrano tutte le informazioni per una corretta utilizzazione dei risultati
delle varie rilevazioni. In una pubblicazione a stampa, si dovranno precisare
il contenuto della pubblicazione (anno di riferimento, titolo, se i dati
sono provvisori, periodo di svolgimento della rilevazione dei dati), le
definizioni, le classificazioni, i criteri di aggregazione ed elaborazione
dei dati, le informazioni sull’attendibilità dei dati, e altre notizie
rilevanti (pubblicazioni affini, disponibilità dei dati, modelli
di rilevazione). V. anche "style book".
Linkage (v. Collegamento esatto)
Lista
(della popolazione)
Elenco
delle unità della popolazione con le corrispondenti etichette (di
norma, il numero d’ordine) che consentono di identificare univocamente
le unità. La lista ha, in genere, un riferimento fisico: per esempio,
un elenco di indirizzi, oppure un elenco di record individuali su un supporto
magnetico. Le liste ordinate di unità costituiscono una sequenza,
per cui si denominano "liste sequenziali". In una indagine statistica,
è necessario conoscere la lista delle unità che compongono
la popolazione per svolgere l’analisi della copertura e verificare la completezza
della rilevazione. Il conoscere la lista della popolazione è fondamentale
per formare un campione probabilistico della popolazione, anche se è
possibile trarre campioni da liste sequenziali senza conoscere l’etichetta
della popolazione. Per esempio, in un negozio, per individuare un campione
probabilistico prendendo una unità ogni 10 tra quelle che si presentano
alla cassa, non è necessario conoscere il nome dei clienti, basta
poterli sequenziare.
Livello
accettabile di attendibilità, di stime
Nel
controllo della qualità industriale, è la frazione di errore
globale di stima in rapporto al valore della stima stessa. Nella realizzazione
di un’indagine, il livello di attendibilità delle stime va fissato
nella fase di astrazione: in funzione di questo risultato atteso, si definisce
il piano di rilevazione dei dati e si assegnano le risorse necessarie alla
realizzazione dell’indagine.
Livello di campionamento (v. Campionamento su più stadi)
Livello
di qualità accettabile
Nel
controllo della qualità industriale, è la proporzione di
unità appartenenti ad un "lotto" che il consumatore considera accettabile.
Il complemento al numero totale di unità del lotto è la frazione
di unità difettose "tollerabili". Nell’ambito delle indagini statistiche,
si parla di "livello accettabile di attendibilità" delle stime.
Livello territoriale dei dati (v. Disaggregazione territoriale dei dati)
Macrodato (v. Dato aggregato)
Mancata intervista (v. Mancata rilevazione)
Mancata
rilevazione
In una
indagine sulla popolazione, è l’insuccesso nel tentativo di contatto
delle unità destinate a partecipare all’indagine (per trasferimento,
assenza ripetuta dal domicilio, morte), o, a contatto avvenuto, nella richiesta
di intervista o di compilazione del questionario (per rifiuto, incapacità
di collaborare all’indagine etc.). Il problema della mancata rilevazione
di unità si pone sia nelle indagini campionarie che in quelle esaustive.
Per distinguere le mancate rilevazioni dalle mancate risposte a singole
domande si usa talvolta, per le prime, il termine "mancate risposte totali".
I mancati contatti possono essere ignorate per qualsiasi finalità
inferenziale. Se, però, non vengono intervistate unità perché
sono assenti o si rifiutano di collaborare anche dopo ripetuti tentativi
di contatto, è cruciale che si recuperino informazioni su un campione
dei mancati rispondenti o, per lo meno, sulle loro caratteristiche ascrittive.
Con l’indagine suppletiva sui mancati rispondenti si ottengono misure correttive
dei dati; con le informazioni sulle caratteristiche ascrittive si mira
a valutare in quale misura è plausibile utilizzare i dati rilevati
per rappresentare anche i rispondenti. Vari studi hanno dimostrato che
chi non collabora per scelta o per presunta pigrizia non è assimilabile,
in media, a chi collabora e, quindi, in presenza di un’alta frequenza di
mancate collaborazioni, si pone il problema di inferire sul valore che
l’insieme di unità che i mancati rispondenti rappresentano. Le mancate
rilevazioni sono spesso cospicue nelle indagini postali, tanto da essere
esiziali per l’indagine.
Mancata
risposta, non risposta
Assenza
di risposta ad una domanda del questionario, in altre parti compilato.
Per distinguere le mancate risposte a singole domande dalle mancate rilevazioni
si usa talvolta, per le prime, il termine "mancate risposte parziali" e
per le seconde "mancate risposte totali". Il problema delle mancate risposte
può essere affrontato da diversi punti di vista. Una possibilità
è quella di determinare statisticamente le risposte ottenibili utilizzando
informazioni provenienti da fonti esterne all’indagine (registri, censimenti
etc.) o tramite un supplemento di indagine (v. Indagine successiva). Una
seconda via è quella della utilizzazione delle informazioni raccolte
per "donare" alle unità che non si sono espresse il valore più
probabile scegliendolo tra le unità che hanno espresso una risposta
valida (v. Metodi di imposizione automatica). Si può anche decidere
di escludere dall’analisi l’unità con risposta mancante, ma l’esclusione
va effettuata con la consapevolezza che l’analisi delle sole risposte validamente
espresse conduce a risultati normalmente distorti. Di norma, si deve, infatti,
presupporre che l’insieme dei mancati rispondenti non darebbe, in media,
le stesse risposte dei rispondenti.
Mancato
rispondente
Unità
della popolazione o del campione designata a rispondere che non fornisce
collaborazione, o all’intero questionario (v. Mancata rilevazione), o ad
una singola domanda (v. Mancata risposta). Talvolta, per distinguere i
mancati rispondenti del primo tipo da quelli del secondo li si denomina,
rispettivamente, "mancati rispondenti totali" e "mancati rispondenti parziali".
Mappa
Nel
campionamento di aree, è la base di campionamento. La superficie
oggetto di campionamento è suddivisa in particelle dai contorni
inequivocabili.
Master
sample
Termine
inglese che denota campioni di grandi dimensioni dai quali si selezionano,
al bisogno, campioni per indagini su temi anche molto diversi tra loro.
Il termine si può tradurre anche "campione madre", ma si trova più
frequentemente nella forma inglese.
Matching (v. Abbinamento di unità)
Memorizzazione dei dati (v. Registrazione dei dati)
Metadato
Informazione
che può in qualche modo far luce sul significato o sulla qualità
dei dati prodotti. Si tratta, quindi, non solo di dati espressamente elaborati
per consentire di valutare le stime e la verosimiglianza delle inferenza
tratte dai dati, ma anche di notizie che consentono di ripercorrere le
fasi nelle quali si è sviluppata l’indagine statistica. La disponibilità
di metadati sostanzia il requisito della trasparenza.
Metainformazione
Informazione
che può risultare utile a comprendere il significato di altre informazioni.
Nel campo delle statistiche ufficiali, alcune metainformazioni possono
accompagnare i metadati nella presentazione dei dati.
Metodo di correzione automatica (v. Metodo di imposizione automatico)
Metodo
di imposizione automatica
Metodo
di forzatura automatica di una modalità al posto di un dato mancante
o di uno manifestamente errato. I metodi di imposizione automatica si possono
classificare sulla base dei criteri ispiratori in "deterministici" e "stocastici".
I primi possono essere assimilati ad uno schema decisionale ad albero,
in cui le variabili e le loro relazioni sono analizzate secondo una gerarchia
specificata a priori: le variabili sono quindi corrette secondo un ordine
e valori predeterminati (se X non soddisfa una data relazione, allora imponi
X=x). Per esempio, se la persona è stata dimessa dal reparto ginecologico
e non indica il sesso, imponi Sesso=femmina. I metodi stocastici consistono
nel determinare la modalità da imporre all’unità con dato
non valido vuoi traendola da una distribuzione "genitrice" (metodo del
"donatore"), vuoi determinando con metodi di regressione o di classificazione
automatica un valore probabile. Se si applica la tecnica di estrarre casualmente
i valori correttivi da idonee distribuzioni, in genere, si fa ricorso alla
distribuzione di dati validi ottenuti nella stessa indagine, ma può
anche trattarsi di distribuzioni della stessa popolazione ottenute in modi
e tempi diversi. Tra le tecniche "da donatore", due rivestono particolare
importanza: il metodo detto "cold deck", che comporta la forzatura di un
valore traendolo da una distribuzione completa di valori (può trattarsi
della distribuzione dei dati validi della stessa indagine o di una distribuzione
parentale, come quella del censimento), e il metodo detto "hot deck", che
consiste nell’attribuzione all’unità con dato non valido del valore
posseduto dall’unità con dato valido che la precede. Se le unità
sono ordinate in un’ottica che riproduce una stratificazione (ossia, si
trovano vicine unità tra loro simili per la variabile in questione),
il metodo hot deck permette di superare il problema delle mancate risposte
senza generare a sua volta distorsioni.
Mezzo
di diffusione dei dati
Mezzo
fisico sul quale sono riportati i dati inerenti ad una determinata ricerca
o, nell’ambito delle statistiche ufficiali, ad una determinata area della
conoscenza.
Microcensimento (v. Censimento per campione)
Microdato
Insieme
di dati elementari rilevati su una unità statistica. Se, come spesso
avviene, tali dati sono registrati su supporto informatico, è invalso
l’uso di indicare il microdato con il termine inglese "record individuale",
o, più semplicemente, record. Va comunque precisato che questo termine
si riferisce alla forma della registrazione, più che al suo contenuto.
Minimo livello territoriale dei dati (v. Livello territoriale dei dati)
Misura di locazione (v. Tendenza centrale)
Misura standard (v. Standardizzazione statistica)
Misurazione
degli errori
Processo
che porta alla quantificazione dell’errore statistico presente nei dati
utilizzati per l’analisi statistica. Per determinare l’entità dell’errore
associato ad una stima, è necessario ricorrere ad un modello generatore
degli errori, dato che - salvo improbabili eccezioni - gli errori nei dati
elementari non sono identitificabili. Generalmente, si assume che l’errore
statistico sia generato dal processo di campionamento delle unità
e dai vari errori extra-campionari che si possono commettere nella rilevazione,
nella elaborazione e nella interpretazione dei dati. Gli errori di tipo
casuale determinano varianza nelle stime, quelli di tipo sistematico determinano
distorsione nelle stesse. Se, come spesso succede, la distorsione non è
stimata, gli errori casuali e quelli sistematici si assommano nell’errore
quadratico medio delle stime.
Modalità
Un possibile
modo di realizzarsi di una variabile statistica. Se le modalità
sono valori, la variabile si denomina quantitativa, se le modalità
sono espressioni qualitative, la variabile è detta qualitativa.
Le modalità qualitative possono essere ordinabili, e allora la variabile
si dice ordinale, o su scala ordinale, o non ordinabili, e allora la variabile
si dice nominale (significa che le modalità sono solo "nomi"), o
sconnessa.
Modalità
congiunta
Modalità
data dalla congiunzione delle modalità di due o più variabili.
Se, cioè, X e Y sono due variabili casuali, la modalità (xi,
yj) (i=1, .., r; j=1, ..., c) è la modalità congiunta della
variabile doppia (X, Y) di frequenza nij.
Modalità
di approccio del detentore delle informazioni
Criterio
di rilevazione dei dati. In linea di massima, la rilevazione è svolta
chiedendo al detentore delle informazioni di autocompilare il questionario
oppure di rispondere alle domande poste da rilevatori. Se la rilevazione
è basata sull’autocompilazione, il questionario può essere
consegnato brevi manu, oppure essere spedito per posta, oppure essere consegnato
al rispondente in un modo che ne garantisca l’impossibilità di identificazione.
Se la rilevazione è svolta tramite rilevatori, il detentore delle
informazioni può essere avvicinato presso la sua abitazione o in
un altro posto predeterminato nel quale è interpellato faccia a
faccia, oppure a distanza, per ora quasi esclusivamente per telefono. Oggi,
l’impiego del calcolatore e dei mezzi di comunicazione a distanza sta rivoluzionando
le tecniche di approccio dei detentori delle informazioni, anche se la
modalità presenza o assenza dell’intervistatore sarà comunque
decisiva nella classificazione a fini di analisi statistica dei dati raccolti.
Modalità
di risposta
In un
questionario, è un possibile esito di una domanda. Modalità
di effettuazione di un’indagine Modi in cui si progetta di realizzare,
ovvero viene realizzata, un’indagine. Le modalità progettuali sono
gli elementi del piano d’indagine. Le scelte tra modalità possono
riguardare ogni fase dell’indagine, dalla rilevazione, al trattamento statistico,
alla memorizzazione dei dati. Le modalità di reale svolgimento sono,
di norma, confrontate con quelle previste nel piano per dedurre i correttivi
da apportare al criterio di stima.
Modalità
di rilevazione dei dati
Le modalità
di rilevazione dei dati sono dirette e indirette. La rilevazione è
indiretta se le informazioni sono tratte da unità diverse da quelle
cui le informazioni si riferiscono, è diretta se sono i possessori
delle informazioni a fornirle. Tipicamente, è indiretta la rilevazione
svolta su record amministrativi, è diretta la rilevazione svolta
mediante questionari autocompilati o somministrati da intervistatori. Tra
le forme di rilevazione diretta sono di particolare interesse la rilevazione
postale, l’intervista faccia a faccia, l’intervista telefonica.
Modalità di una variabile (v. Modalità)
Modello
Espressione
formalizzata di una teoria o di una ipotesi causale che si immagina stia
all’origine dei dati. Il modo normale di esprimere un modello è
simbolico, ossia mediante un’espressione matematica, ma può essere
anche diagrammatico. Nella misura in cui un modello è adeguato a
rappresentare un fenomeno, esso consente di prevedere le conseguenze delle
variazioni dei fattori considerati. Il termine modello si usa talvolta
come sinonimo di questionario.
Mutabile (v. Variabile)
Mutabilità
Termine
usato talvolta per denotare la variabilità di una mutabile, ossia
di una variabile qualitativa.
Neutralità
Criterio
operativo di non-coinvolgimento "politico" di un Sistema statistico che
costituisce presupposto per la produzione di statistiche imparziali.
Nomenclatura (v. Classificazione tipo)
Nomogramma
Diagramma
nel quale sono evidenziate le scale delle due o tre variabili inserite
in una formula e sul quale i valori di ciascuna variabile giacciono su
una linea retta che interseca tutte le scale. I nomogrammi si usano per
rappresentare alcune funzioni economiche e sociali caratterizzate da una
variabile dipendente e da due o tre variabili predittive.
Non ammissibile, dato (v. Dato manifestamente errato)
Non lineare, stimatore (v. Stimatore)
Non risposta (v. Mancata risposta)
Non risposta parziale (v. Mancata risposta)
Non risposta totale (v. Mancata rilevazione)
Numero
indice
Quantità
che descrive con le sue variazioni i cambiamenti nel tempo o nello spazio
di una grandezza non misurabile direttamente. Esempi di numeri indici sono
i numeri indici dei prezzi, il numero indice della produzione industriale
etc. Nella costruzione di un numero indice si deve tener conto della copertura
del fenomeno rappresentato, del periodo di base, del sistema di ponderazione
e del metodo di mediazione delle osservazioni. Il termine può essere
applicato anche nella accezione generale di valori standardizzati riferiti
ad un periodo o ad un’area di base, anche se sarebbe preferibile, quando
può generare confusione, parlare di "indici relativi".
Numero
indice composito
Composito,
o aggregativo, è il numero indice costruito aggregando più
indici inerenti a beni di natura differente. Per esempio, per la costruzione
dei numeri indici dei prezzi, si aggregano i prezzi dei singoli beni di
riferimento in indici dei prezzi di categorie merceologiche(settori e branche)
gerarchicamente contenute in categorie più ampie, fino all’ottenimento
di un indice globale. Il termine ha significato per chi computa l’indice,
non lo ha per l’utilizzatore, per il quale il contenuto dell’indice è
affatto omogeneo.
Numero
indice ponderato
Numero
indice composito nel quale le componenti sono ponderate secondo un sistema
di pesi che riflettono la loro importanza relativa. Secondo alcuni, quasi
tutti gli indici compositi sono implicitamente ponderati: per esempio,
se un numero indice dei prezzi si forma mediando i prezzi per unità
di quantità, e l’unità di misura dei beni varia, ciò
costituisce implicitamente una ponderazione. E’ comunque preferibile denominare
ponderato un indice nel quale i pesi sono espliciti.
Numerosità
del campione
Numero
di unità incluse nel campione. In un campione su più stadi,
se non è diversamente specificato, il numero fa riferimento al campione
di unità finali. Si usa anche l’espressione "dimensione del campione".
Obbligo
di risposta
Obbligo
di fornire dati statistici e notizie per rilevazioni previste dal Programma
statistico nazionale, disciplinato dal D.Lgs 322/1989. Nei confronti delle
Pubbliche Amministrazioni, l’obbligo sussiste per tutte le rilevazioni
previste nel PSN. Per i soggetti privati, invece, l’obbligo sussiste soltanto
per le rilevazioni comprese nel PSN, individuate con apposito decreto del
Presidente della Repubblica. Non rientrano in tale obbligo i dati di carattere
personale relativi all’origine razziale, alle opinioni politiche e ideologiche,
alle convinzioni religiose, nonché quelli relativi allo stato di
salute, alla vita sessuale, alle condanne penali di ciascun cittadino e
ad ogni altra ipotesi prevista da leggi nazionali o da accordi internazionali
ratificati dall’Italia.
Obiettivi statistici (v. Finalità statistiche)
Obiettività
- Obiettivo, dato statistico
Dato
statistico per produrre il quale sono state seguiti adeguati criteri metodologici
e tecnici entro un preciso quadro di riferimento concettuale. In questo
senso, obiettività si contrappone a soggettività, ossia a
scelte arbitrarie non precisate. Con questo, non si intende dire che il
seguire regole metodologiche non implichi scelte soggettive, bensì
che la correttezza metodologica e tecnica e la trasparenza delle scelte
sono alla base della generalizzabilità del dato.
Obiettività
- Obiettivo, statistico, Sistema statistico
Un sistema
statistico, e, per analogia, uno statistico, sono obiettivi quando seguono
regole deontologiche che mirano alla imparzialità del suo prodotto
(v. "Imparzialità").
Oggetto
della rilevazione
Fenomeno,
o comparto fenomenico, sul quale si esegue la rilevazione. L’oggetto della
rilevazione può essere un fenomeno elementare, per esempio, le spese
sostenute per pasti fuori casa, oppure il più vasto insieme di fenomeni
omogenei, come l’inquinamento. L’espressione "oggetto di rilevazione" si
può associare anche alla popolazione sulla quale l’indagine è
svolta, ma in tal caso va precisato che ci si riferisce alla popolazione.
Omofilia
Concordanza
tra le distribuzioni marginali di due o più popolazioni. E’ termine
desueto.
Omogeneità
Due
campioni si dicono omogenei quando sono identici, a parte possibili fluttuazioni
di tipo casuale. Si parla anche di omogeneità tra popolazioni, nel
senso che sono uguali rispetto ad uno o più parametri; per esempio,
due popolazioni possono essere omogenee in relazione alle medie ed eterogenee
rispetto
alle varianze.
Ordine
casuale
Ordinamento
di un insieme di unità realizzato in modo tale da rendere equiprobabile
ogni possibile ordine. Per generare ordini casuali di unità sono
disponibili generatori di numeri casuali.
Organo
della rilevazione
Amministrazione
o Ente incaricato di svolgere la rilevazione dei dati in una indagine statistica.
Si dice intermedio l’organo che collabora con l’Amministrazione o l’Ente
nella raccolta dei dati elementari o che coordina le attività di
fornitura dei dati in una posizione intermedia tra le unità di rilevazione
e l’Amministrazione o Ente.
Oscillazione
Fluttuazione
più o meno regolare attorno alla media in una serie temporale o,
più generalmente, in una serie ordinata temporalmente o spazialmente.
In questo senso si distingue da un ciclo, che è strettamente periodico:
mentre una serie ciclica è oscillatoria, una serie oscillatoria
non è necessariamente ciclica.
Osservatore mobile, tecnica del (v. Tecnica dell’osservatore mobile)
Osservatori
indipendenti di un fenomeno, tecnica degli
Tecnica
di rilevazione di un fenomeno con strumenti diversi. In una indagine statistica,
la rilevazione può essere svolta con più rilevatori che svolgono
la propria attività in modi o con criteri indipendenti. Per ottenere
risposte indipendenti sullo stesso fenomeno, si possono anche porre in
momenti o luoghi separati le stesse domande ad almeno due persone appartenenti
alla stessa unità (in una famiglia: moglie, marito, figli maggiorenni;
in un comitato: al presidente, ai membri di maggioranza e a quelli di minoranza).
Le persone debbono essere informatori ugualmente attendibili del fenomeno
osservato.
La tecnica
si adotta a fini di valutazione della qualità dei dati rilevati,
o anche solo per eliminare al distorsione che può generare nelle
stime l’impiego di un solo rilevatore. Il confronto tra dati ottenuti da
due o più fonti indipendenti è una via alternativa alla reintervista
per stimare la variabilità delle possibili realizzazioni di uno
stesso "valore vero". Sono fonti indipendenti e confrontabili l’Anagrafe
comunale della popolazione, il censimento generale della popolazione e
la rilevazione trimestrale delle forze di lavoro, oppure l’archivio imprese
della CERVED e il censimento generale dell’industria e dei servizi.
Ottimalità
di un disegno
Nel
disegno degli esperimenti, nel disegno di rilevazione, o in altre situazioni
di ricerca nelle quali si adottano criteri di analisi selezionati, l’ottimalità
del disegno indica che la scelta effettuata è ottima in qualche
senso. Nel disegno di campionamento o di rilevazione, ottimo si intende
normalmente il disegno che produce stime a minima varianza per un costo
prefissato, o, parallelamente, quello a minimo costo che permette di ottenere
stime di data varianza.
Ottimalità,
di uno stimatore
Stimatore
che, tra quelli efficienti, produce stime al minimo costo. In questo senso,
l’ottimalità dello stimatore si confonde con l’ottimalità
del piano di rilevazione predisposto per la produzione delle stime.
Outlier (v. Valore abnorme)
Panel (v. Campione fisso)
PAPI - Pen And Pencil Interviewing Acronimo dell’intervista faccia a faccia "con carta e penna", distinta in questo senso dall’intervista assistita da computer, detta CAPI, Computer Assisted Personal Interviewing.
Parametro
Quantità
incognita che può assumere valori in un determinto intervallo. Negli
studi statistici, ricorre in espressioni inerenti a caratteristichedi una
distribuzione di frequenze ("parametri della popolazione") o in modelli
che descrivono ipotesi stocastiche (per esempio, parametri di regressione).
Parametro di locazione (v. Tendenza centrale)
Parametro
di scala
Parametro
della distribuzione di frequenze funzionalmente legata alla scala della
variabile. Nella distribuzione normale, è lo scarto quadratico medio.
Parzialità,
di Sistema statistico, di statistica
Sistema
permeabile ad influenze estranee alla imparzialità scientifica,
le
quali
mirano a servire parti estranee a quelle istituzionali. Si veda, a questo
proposito "Imparzialità".
Passo di campionamento (v. Intervallo di campionamento)
Passo di estrazione (v. Intervallo di campionamento)
Perequazione
Se la
variabile y è in qualche modo dipendente dalla variabile x, perequazione
è la ricerca della legge che esprime, a meno di variazioni aleatorie,
le variazioni di y in funzione delle variazioni di x. La perequazione può
essere "analitica", ossia basata sulla relazione funzionale (lineare, polinomiale,
esponenziale etc.) tra y e x, oppure "meccanica", ossia basata su qualche
funzione composita della relazione tra x e y, come per esempio si ha con
il "lisciamento" delle serie temporali tramite le cosiddette medie mobili
di 12 mesi per eliminare la stagionalità della serie.
Periodicità
della rilevazione
Intervallo
tra due rilevazioni di dati in una indagine non necessariamente continua
nel tempo. La periodicità mensile implica la rilevazione dei dati
ogni mese, quella annuale, ogni anno etc. Le rilevazioni periodiche possono
essere di tipo "corrente", ossia riferite a fenomeni osservati in una prospettiva
di continuità temporale, o di tipo discontinuo ma ricorrente, come
i censimenti.
Periodo
In senso
matematico, è l’intervallo di tempo a distanza del quale ricorrono
valori coincidenti della serie. Di periodo w è la serie per la quale
vale u(t+w)=u(t) per ogni t. In senso esteso, l’espressione è talvolta
usata per descrivere l’intervallo o l’intervallo medio tra punti caratteristici
di una serie, per esempio, tra due picchi.
Periodo
di base
Periodo
di tempo che viene calcolato come riferimento per un numero indice o per
un altro rapporto. Di solito, il periodo è un anno, ma può
trattarsi di periodo più breve, fino ad un giorno, o più
lungo, come un insieme di anni, secondo l’oggetto e gli obiettivi dell’analisi
e i dati disponibili.
Periodo di riferimento (v. Periodo di base)
Periodo
tipico
Periodo
di riferimento dei pesi usati per il calcolo di numeri indici ponderati.
Può coincidere con il periodo di base.
Persistenza
In meteorologia,
denota la regolarità del ricorrere di un determinato fenomeno. Nel
suo significato comune, il termine è applicabile per la rappresentazione
di qualsiasi fenomeno.
Pertinenza
- Pertinente, dato
Rispondenza
tra l’informazione prodotta e le necessità informative dell’ente.
La pertinenza è l’aspetto della qualità dei dati relativo
agli obiettivi dell’indagine. Il Consiglio dell’Unione Europea (Regolamento
COM(94) 78 def. del 10/3/1994) considera che le statistiche comunitarie
abbracciano diversi settori e sono prodotte in relazione a necessità
chiaramente definite, risultanti dagli obiettivi della Comunità,
mentre la raccolta dei dati è limitata a quanto necessario per conseguire
i risultati auspicati. Le autorità nazionali e quella comunitaria
devono seguire in modo permanente i nuovi sviluppi demografici, economici,
sociali e ambientali, proponendo le misure necessarie per analizzare i
settori importanti e abbandonando la produzione di informazioni diventate
senza interesse per gli obiettivi della Comunità.
Perturbazione
casuale di dati
Procedura
di contaminazione dei valori a rischio di violazione del segreto statistico
consistente nell’aggiungere ai valori rilevati o calcolati un numero intero
secondo una distribuzione casuale di probabilità. La media dei valori
casualmente "iniettati" è nulla. La tecnica si può applicare
anche all’intero insieme di dati, non solo a quelli a rischio.
Peso
Coefficiente
che esprime l’importanza di un’entità in rapporto all’insieme cui
appartiene. Nella teoria dei numeri indici, il peso-base è quello
inerente al tempo cui si vuole riferire l’insieme dei numeri della serie.
Nella teoria del campionamento, si usano pesi per riportare i dati di un
campione all’universo: questi pesi dipendono sia dalla probabilità
di inclusione delle unità, sia dalla frequenza di mancate risposte
constatate nella fase di rilevazione dei dati.
Piano
di campionamento
Piano,
o disegno, o schema, di campionamento è l’insieme delle decisioni
prese nel formare un campione. In alcuni casi, il metodo viene impiegato
per comprendere anche il metodo di stima. In genere, il piano campionario
comprende: (a) la struttura del campione (stratificazione, gerarchizzazione
dei livelli ai quali selezionare i campioni); (b) le regole seguite per
la selezione delle unità (con o senza reimmissione, sistematica,
con probabilità costanti o variabili); (c) la rotazione delle unità
nelle varie occasioni d’indagine; (d) l’eventuale compenetrazione dei sub-campioni
per la stima dell’effetto delle componenti impiegate nella formazione dei
dati (intervistatori, codificatori, supervisori); (e) la numerosità
del campione (per strato, ai vari stadi, nelle varie occasioni d’indagine)
e la conseguente frazione di campionamento.
Piano di campionamento complesso (v. Campionamento complesso)
Piano
di campionamento composito
Schema
di campionamento nel quale le varie parti del campione sono selezionate
con metodi differenti. Per esempio, un campione della popolazione residente
su un’area può essere formato selezionando un campione di aree in
ambiente cittadino e un campione sistematico da liste in ambiente rurale.
Si può considerare questo tipo di campionamento un caso particolare
del campionamento complesso. Il termine non è universalmente accettato.
Piano
di codifica
Corrispondenza
tra i codici delle modalità delle variabili e le risposte ottenute.
Il piano di codifica comprende anche il codice delle modalità di
"non risposta", il codice di "non pertinenza" della domanda per determinati
insieme di unità, l’eventuale ricodifica delle "modalità
complementari", come la modalità "Altro (specificare)" alla fine
di una lista di modalità qualitative, nonché la codifica
delle risposte ottenute "in chiaro", ossia nella forma libera, non precodificata.
In quest’ultimo caso, il piano di codifica può prevedere più
variabili di risposta da codificare in relazione ad una domanda complessa.
Piano di compatibilità (v. Regole di compatibilità)
Piano
di controllo
Elenco
dei controlli da eseguire sui dati che si intendono rilevare. Il controllo
può riguardare (a) la semplice verifica del campo di variazione
delle variabili, (b) il controllo della verosimiglianza dei codici registrati
sulla base di ipotesi distributive delle variabili, (c) il controllo di
compatibilità tra modalità di domande diverse, che comprende
come caso particolare il controllo della coerenza contabile di grandezze
correlabili, (d) il controllo della concordanza tra diversi osservatori
dello stesso fenomeno o tra fonti alternative dello stesso fenomeno, (e)
altri controlli statistici.
Piano
d’indagine
Espressione
che mira a descrivere l’intero processo di rilevazione, elaborazione ed
analisi in una indagine statistica. Sono parti fondamentali del piano d’indagine
il piano di rilevazione, i piani di controllo e revisione dei dati, i piani
per la stima dei parametri oggetto di ricerca.
Piano
di rilevazione
Piano,
o disegno, di rilevazione è l’insieme delle fasi elementari per
l’espletamento della rilevazione dei dati in un’indagine statistica. Il
piano di rilevazione comprende, dunque, sia il piano di campionamento (ovviamente,
se l’indagine è di tipo campionario), sia le scelte per la rilevazione
(diretta o indiretta, tra i metodi diretti, l’autosomministrazione di questionari
o la somministrazione mediante rilevatori), sia la predisposizione degli
strumenti (questionario, altro) e la formazione del personale (rilevatori,
codificatori, supervisori) da adibire alla rilevazione delle informazioni.
Piano
sperimentale
Piano
di ripartizione del campione tra le modalità della o delle variabili
di cui si vuole controllare l’effetto sulla cosiddetta "variabile di risposta"
sperimentale.
Picco,
di serie, di distribuzione
In una
serie ordinata, è un’osservazione se il suo valore è più
grande dei due valori adiacenti. Analogamente, nella rappresentazione di
una distribuzione ordinata di frequenze, un picco è una classe con
densità di frequenza superiore alle due classi adiacenti.
Pilota, indagine (v. Indagine pilota)
Pittogramma
Disegno
per la rappresentazione di quantità. Una delle applicazioni pittoriche
alla rappresentazione di frequenze o intensità di fenomeni consiste
nel disegnare una figura stilizzata di ampiezza proporzionale al fenomeno;
un’altra è quella di rappresentare una serie di figure stilizzate
in proporzione all’ampiezza del fenomeno, ma in questo senso il pittogramma
diventa un diagramma a barre.
Plausibilità
(di un dato)
Ragionevole
compatibilità del dato con altre informazioni, esterne al dato stesso,
delle quali è in possesso chi valuta il dato e alle quali accorda
fiducia. Si può considerare un aspetto della qualità dei
dati, anche se la plausibilità così intesa è soggettiva,
non misurabile, e, quindi, solo in parte concettualmente sovrapposta con
la "attendibilità" statisticamente valutata dei dati.
Poligono
delle frequenze
Diagramma
che rappresenta una distribuzione di frequenze. Le frequenze di ciascuna
classe sono rappresentate come un rettangolo la cui base è l’intervallo
della classe e l’altezza è la "densità", ottenuta rapportando
la frequenza all’ampiezza dell’intervallo della classe.
Politz-Simmons, tecnica (v. Tecnica di Politz-Simmons)
Ponderazione
Attribuzione
di un insieme di pesi ad un insieme di entità. A fini di stima,
si ponderano le unità d’analisi. Ordinariamente, le unità
si pesano con l’inverso della probabilità di estrazione. Nell’analisi
di relazione tra variabili, si possono ponderare le variabili secondo l’importanza
che hanno per l’obiettivo dell’analisi. Per esempio, le variabili selezionate
per rappresentare un concetto possono essere ponderate in ragione della
"saturazione" del concetto rappresentato.
Popolazione finita (v. Popolazione statistica)
Popolazione infinita (v. Popolazione statistica)
Popolazione
standard
Popolazione
usata come base per il calcolo di stime di più sub-popolazioni che
si vogliono confrontare. Il riferimento ad una stessa popolazione permette
di ignorare l’eventualmente diversa struttura delle sub-popolazioni confrontate.
Si usa questo metodo, tra l’altro, per calcolare tassi standard di fecondità
e mortalità.
Popolazione
statistica, universo
Ogni
insieme finito o infinito di unità statistiche. Il termine ha ormai
sostituito quello di "universo", usato in altri tempi per designare l’analogo
concetto e derivante dall’"universo del discorso" della logica. Un altro
termine praticamente sinonimo è "aggregato statistico". Un termine
desueto è "collettivo statistico". Una popolazione si dice "finita",
se è costituita da un numero finito di unità, "infinita"
altrimenti. In una indagine statistica si possono individuare diverse popolazioni:
(a) una popolazione obiettivo, o ideale, che è la popolazione sulla
quale si intende condurre l’indagine; (b) una raggiungibile con i mezzi
a disposizione, per esempio, in una indagine postale, è l’insieme
delle unità delle quali si possiedono gli indirizzi esatti; (c)
quella raggiunta, o rilevata, o osservata nell’indagine o nell’esperimento;
(d) quella di riferimento, ossia quella alla quale si riportano le stime
e si estendono le verifiche effettuate sulle ipotesi di ricerca saggiate
con l’indagine o l’esperimento. La popolazione di riferimento può
essere quella osservata, oppure quella ideale, eventualmente corretta per
tener conto della parte non rilevata.
Popolazione
tipo
Popolazione
reale o fittizia, ma di struttura stabile, i cui effettivi per età
e/o per altra variabile di classificazione servono come coefficienti di
ponderazione per il calcolo dei tassi standardizzati.
Precisione
Se riferito
ad uno stimatore (o alla stima), è espressione del grado di dispersione,
attorno al valore atteso, di una classe di misure (dette stime) ottenibili
da ipotetiche replicazioni, in identiche condizioni, della procedura di
campionamento. La misura della precisione è data dal reciproco dell’errore
medio di stima: tanto maggiore è l’errore medio, tanto minore è
la precisione. Se riferito a singole misure, il termine esprime l’entità
dell’approssimazione della misurazione stessa. Si dice precisa una misura
il cui grado di approssimazione non supera un prestabilito limite di tolleranza.
Il termine preciso si applica anche allo strumento di rilevazione.
Precisione
relativa
Misura
della precisione rapportata ad un valore di riferimento. Taluni usano l’espressione
come sinonimo di "efficienza relativa", ossia del rapporto tra varianze
di stima di due disegni campionari basati sulle stesse unità campionarie
e la stessa dimensione campionaria.
Predizione
In senso
esteso, è il processo di determinazione dell’ampiezza di una variabile
in un punto temporale futuro. Nell’ambito della statistica, il termine
si applica, tra l’altro, all’analisi di regressione per esprimere il valore
della variabile dipendente determinabile in funzione dell’equazione di
regressione, in corrispondenza di un determinato valore della o delle variabili
predittive.
Preliminare, indagine (v. Indagine pilota)
Pre-test
Test
svolto prima della rilevazione dei dati per verificare la forma migliore
di un quesito o di un aspetto del questionario. Il pre-test implica (a)
la somministrazione di forme alternative di quesiti o di questionari a
insiemi casualmente determinati della popolazione oggetto di rilevazione,
(b) la somministrazione della stessa forma a gruppi di popolazione caratterizzati
dall’essere il più possibile diversi tra loro per cultura, professione,
età o altre caratteristiche che possono essere correlate alla inesatta
percezione del significato del quesito. Per la formulazione definitiva
del questionario si conducono spesso più pre-test, in sequenza o
in parallelo.
Previsione
Termine usato nel senso più comprensivo per indicare l’attesa matematica
di una variabile casuale o l’accadimento probabilistico di un evento casuale.
Previsione e predizione sono spesso usati come sinonimi per indicare il
valore che una grandezza assumerà in un futuro precisato. Si giustappone
in questo senso a "stima", che determina il valore attuale della grandezza.
Il termine "errore di previsione" si usa talvolta per indicare anche l’errore
di interpolazione nell’analisi di regressione.
Principale, indagine, rilevazione (v. Indagine principale)
Privacy (v. Segreto statistico; Diritto alla privacy)
Probabilità
La probabilità
è un concetto fondamentale della statistica che può derivare
sia dal grado (soggettivo) di fiducia, sia come limite della frequenza
di una serie casuale infinita. Ambedue gli approcci sono problematici e
quale sia l’assiomatizzazione più opportuna della teoria della probabilità
dipende dalle propensioni personali. Fortunatamente, ambedue gli approcci
portano quasi alle stesse conclusioni pratiche.
Probabilità di selezione, di inclusione nel campione Valore positivo assegnato alle unità della popolazione per la selezione con procedure di campionamento probabilistico. La probabilità di selezione può essere costante o variabile, è variabile, in linea di massima, quando la probabilità è in qualche senso correlata con la variabile oggetto d’indagine. Tra le probabilità variabili di selezione, è particolarmente interessante l’assegnazione di probabilità proporzionali alla dimensione delle unità. In un campionamento su più stadi, la probabilità di selezione delle unità finali è data dal prodotto delle probabilità di selezione delle unità ai vari stadi.
Processo
di produzione delle statistiche
Insieme
delle attività necessarie alla preparazione, raccolta, immagazzinamento,
trattamento, compilazione, analisi e diffusione dell’informazione statistica
(Regolamento COM(94) 78 Def del 10/3/1994)
Professionalità
nella produzione dei dati
Competenza
metodologica e tecnica che debbono possedere gli Enti produttori di statistiche
nel rilevare, elaborare e diffondere i dati.
Profilo
degli errori
Descrizione
delle operazioni che, partendo dalla definizione dell’indagine, portano
alla pubblicazione dei risultati e, possibilmente, dell’impatto che le
singole operazioni hanno sull’errore globale di stima. Anche quando non
sia possibile quantificare l’effetto di ogni componente d’errore, un buon
profilo rende evidenti per lo meno la mappa degli errori possibili e la
loro incidenza qualitativa sulle stime. Si esprime anche con i termini
inglesi error profile. Il tipo di errori che possono essere commessi in
una indagine statistica sono: (a) nella fase di progettazione, errori nella
determinazione degli obiettivi dell’indagine, del campo di rilevazione,
delle unità di rilevazione e di analisi, nella formulazione del
questionario, nelle definizioni e classificazioni adottate, nelle norme
e nel coordinamento dei piani di lavoro; (b) nella fase di rilevazione,
errori dovuti a formazione e supervisione insufficiente della rete di rilevazione,
liste di campionamento carenti, procedure di selezione del campione non
appropriate, approccio ai rispondenti non ottimale, errori di rispondenti,
rilevatori, supervisori, codificatori); (c) nella fase di predisposizione
dei dati per l’elaborazione, errori degli addetti alla registrazione, di
revisione dei dati; (d) nella fase di elaborazione ed analisi dei dati,
errori nei programmi di calcolo automatico ed erronee interpretazioni dei
risultati delle elaborazioni.
Programma
statistico comunitario
Programma
che definisce gli orientamenti, i principali settori e gli obiettivi delle
attività previste per un periodo massimo di 5 anni e fissa il quadro
della produzione di tutte le statistiche comunitarie. Può essere
oggetto di aggiornamenti periodici (Regolamento COM(94) 78 def del 10/3/1994).
Programma
Statistico Nazionale (PSN)
Documento
predisposto dall’ISTAT per pianificare l’attività statistica di
interesse pubblico affidata al Sistema statistico nazionale. Il PSN ha
durata triennale e viene aggiornato annualmente secondo procedura che si
conclude con la emanazione di un decreto di approvazione del Presidente
del Consiglio dei Ministri, pubblicato sulla Gazzetta Ufficiale della Repubblica
unitamente al decreto del Presidente della Repubblica contenente l’elenco
delle rilevazioni per le quali sussiste, per i privati, l’obbligo di risposta.
I lavori previsti dal PSN sono classificati nelle tre categorie delle "rilevazioni"
di nuovi dati, "elaborazioni" di dati già disponibili, "studi progettuali".
Programmi di imposizione automatica Insieme delle procedure che hanno il compito di correggere le informazioni registrate su supporto informatico, prima della elaborazione finale dei dati. I programmi procedono attraverso due fasi: (i) rilevazione, sulla base delle regole fornite, dell’incoerenza sulla singola variabile o sulle variabili, ovvero determinazione della mancanza di dati per una data variabile; (ii) scelta del nuovo valore da assegnare. La determinazione dell’incompatibilità si configura come un "filtro" degli errori accumulatisi nelle precedenti fasi dell’indagine; è da notare che è possibile individuare e correggere solo la parte di essi che contravviene alle regole di compatibilità.
Proiezione
Il termine
è usato in due sensi interconnessi: (i) in relazione a una serie
storica, è un valore futuro calcolato in funzione di assunti sui
cambiamenti probabili, (ii) l’attesa probabilistica di una variabile, in
particolare nell’analisi di regressione, dove si "predicono" i valori della
variabile dipendente.
Prospettica, indagine (v. Indagine prospettica)
Protezione
della qualità media
Nel
controllo della qualità industriale, è una procedura che
mira a mantenere la proporzione di pezzi difettosi di un lotto di prodotti,
dopo ispezione ed eventuali rettifiche, sotto un limite prefissato. Il
limite teorico è detto "limite della qualità uscente media",
quello empirico è detto "livello della qualità uscente media".
Se si adatta il concetto alla conduzione di indagini statistiche, la protezione
della qualità media indica le procedure da seguire per mantenere
il livello d’errore di stima sotto un limite prefissato: si tratterà
delle tecniche di prevenzione e contenimento dell’errore statistico e di
controllo e revisione dei dati rilevati e trasferiti su supporto informatico.
Protezione
del segreto statistico
Procedura
ideata per impedire, o rendere estremamente difficoltoso, che si possa
risalire dal dato pubblicato all’unità cui si riferisce. Ciò
può essere attuato in vari modi: (a) non pubblicando il dato anche
quando è disponibile (v. Soppressione di frequenze esigue), (b)
aggregando i dati in classi (v. Aggregazione di dati), (c) iniettando errori
casuali (v. Perturbazione casuale di dati), (d) arrotondando a caso le
cifre (v. Arrotondamento casuale). Per esempio, nei volumi dell’Eurostat
che riportano informazioni su numero di imprese, personale occupato, spese
per lo stesso, cifra d’affari, valore aggiunto lordo, per voci NACE e per
classe di addetti delle imprese, numerose righe, corrispondenti ad altrettanti
Paesi, risultano completamente vuote, altre riportano solo il totale, altre
aggiungono a questo il dato per una o due caselle. Per determinare il rischio
di violazione del segreto statistico, è necessario stabilire delle
regole operative. Se i dati sono nella forma di tabella di frequenza, sono
a rischio i valori molto bassi, per esempio, 1, 2 o 3. Se si tratta di
una tabella di intensità, sono a rischio di violazione i dati riferito
ad un gruppo di aziende quando una di queste è responsabile per
più di una certa quota del totale complessivo. Talvolta, si distinguono
le azioni svolte preventivamente dall’autorità responsabile per
proteggere la segretezza del dato ("segreto statistico attivo") da quelle
esercitate per proteggere la segretezza solo in seguito a reazioni da chi
si sente offeso dalla possibilità di essere oggetto di riferimento
individuale ("segreto statistico passivo"). Questo secondo modo di procedere
si applica, in particolare, se il produttore di dati statistici non è
in grado di sapere quali informazioni analitiche, se pubblicate, possono
aprire la strada alla individuazione della fonte originaria del reperto,
oppure, per arrivare a saperlo, deve sostenere costi assai elevati sia
in termini economici che ritardando l’uscita della pubblicazione.
Prove
indipendenti
Le ripetizioni
di un evento si dicono indipendenti se la probabilità di accadimento
di un determinato risultato in una prova è indipendente dai risultati
delle altre. Nel campionamento di attributi, le prove indipendenti si dicono
anche "bernoulliane". Questa terminologia si usa anche per l’estrazione
di palline da un’urna reinserendo le palline dopo ciascuna estrazione ("campionamento
con reinserimento"), lancio di dadi e altri giochi associati alla teoria
delle probabilità.
Proxy interview (v. Rispondente proxy)
Proxy response (v. Risposta proxy)
Pseudo-casuale, selezione (v. Selezione di campioni)
PSN (v. Programma Statistico Nazionale)
Pubblicazione
dei risultati di un’indagine
Modo
di diffondere i risultati di un’indagine presso l’utenza potenziale. Il
rapporto o i rapporti conclusivi dell’indagine comprenderanno sia le stime
e conclusioni inferenziali dell’analisi dei dati, sia, eventualmente in
un’appendice del volume, una relazione sui metodi di rilevazione e di analisi
adottati e sui meta-dati utili al lettore per la valutazione autonoma dei
risultati dell’indagine. Le pubblicazioni ufficiali dovrebbero essere predisposte
secondo le indicazioni generali fissate dallo Style book prediposto dall’ISTAT
(1991).
Punteggio
Valore
numerico assegnato ad un’osservazione, talvolta su una variabile non osservabile
o che non può essere misurata, altre volte su un insieme di prove.
Quadro di riferimento dell’analisi statistica Il quadro di riferimento delle elaborazioni e delle successive interpretazioni dei dati comprende sia i princìpi teorici, sia l’adozione per la stima di informazioni ottenute in altri contesti di ricerca, sia l’individuazione e l’eventuale predisposizione di algoritmi di elaborazione, sia l’accertamento del livello di professionalità metodologica e tecnica degli addetti alla elaborazione e dei ricercatori coinvolti nell’analisi dei dati.
Qualità
del dato statistico
Attitudine
di un dato statistico a soddisfare le esigenze degli utilizzatori. Il concetto
così inteso è molto generale e fa riferimento a princìpi
che, nel gergo della micro-economia, si denominerebbero market-oriented,
ossia adattate all’accettazione del mercato. Taluni, con riferimento al
linguaggio della produzione industriale, denominano qualità dei
dati l’insieme delle proprietà che conferiscono ai dati la capacità
di soddisfare le proprietà garantite dal produttore, e tendono,
pertanto, ad esprimere la qualità del dato in relazione a proprietà
intrinseche.
Qualità
di un sistema informativo statistico
Capacità
di un sistema informativo statistico di soddisfare le esigenze che si pongono
con riferimento a realtà composite. Può, quindi, accadere
che su ogni singola indagine possa esprimersi un giudizio positivo e che,
allo stesso tempo, si debbano esprimere riserve sulla validità del
sistema informativo al quale le singole indagini vanno ricondotte. Evidentemente,
ciò si verifica perché sussistono delle carenze nel processo
di integrazione fra le varie indagini, sotto forma di ridondanze o di vuoti
da colmare. Inconvenienti di questa natura dipendono, generalmente, dall’assenza,
a monte del sistema, di un progetto e di una gestione eccessivamente settorializzata
delle indagini.
Quasi casuale, campionamento (v. Selezione di campioni)
Questionario
Insieme
strutturato di domande e di relative modalità di risposta registrato
su un supporto idoneo per la somministrazione. Il supporto tradizionale
è quello cartaceo, da tempo, invece, il questionario è registrato
su computer.
Quote, campionamento di (Campionamento non probabilistico)
Quoziente
In senso
esteso, è sinonimo di rapporto statistico. Negli studi demografici
ed epidemiologici, un quoziente è il rapporto tra il numero di eventi
osservati in un periodo e la popolazione all’inizio del periodo d’osservazione.
Lo si può assimilare alla probabilità del verificarsi dell’evento
nella popolazione durante il periodo d’osservazione. Se il fenomeno descritto
ha una connotazione negativa, lo si denomina anche "rischio". Per esempio,
il rischio di malattia in un periodo è dato dal rapporto tra i casi
di malattia insorti nel periodo sulla popolazione esente da malattia all’inizio
del periodo.
Raccolta dei dati (v. Rilevazione dei dati)
Raccordo
di indici
Il raccordo
tra indici risolve il problema posto dal cambiamento di base degli indici,
reso necessario quando evolvono le strutture economiche. Se le grandezze
che l’indice comprende sono le stesse, si può stimare l’indice alla
data t’ in rapporto alla base 0 come prodotto dell’indice tra t e t’ e
dell’indice tra 0 e t: [Image]. Siccome, però, la copertura del
nuovo indice è per ipotesi di base diversa dal vecchio, e gli indici
non godono della proprietà transitiva, la formula è solo
approssimativa.
Range (v. Campo di variazione)
Rango
Nella
teoria delle relazioni d’ordine, è la posizione di un’unità
statistica nella sequenza ordinata secondo un dato criterio.
Rapporto
Relazione
matematica tra due grandezze. Tra i particolari tipi di rapporto si annoverano:
il "rapporto di coesistenza", dato dal rapporto tra le intensità
di un fenomeno in due posti differenti o in due fenomeni inerenti allo
stesso luogo; il "rapporto di durata", che è una misura della durata
media; il "rapporto di composizione", dato dal rapporto tra l’intensità
o la frequenza di una modalità e quella del totale delle modalità;
il "rapporto di derivazione", che confronta l’intensità di un fenomeno
con uno che è prerequisito dello stesso, come per esempio, le nascite
rispetto alla popolazione totale; il "rapporto di ripetizione", che misura
quante volte un fenomeno ricorre nell’unità di tempo.
Rapporto
costi/benefici di statistiche (v. Economicità delle fonti
statistiche)
Rapporto
di coesistenza (v. Rapporto)
Rapporto
di composizione (v. Rapporto)
Rapporto
di derivazione (v. Rapporto)
Rapporto
di
durata (v. Rapporto)
Rapporto
statistico (v. Rapporto)
Reazione
(v. Risposta)
Record
(v. Microdato)
Registrazione,
memorizzazione dei dati
Operazione
mediante la quale i codici, corrispondenti alle risposte date a "domande
a risposta chiusa", o apposti con la codificazione delle risposte a "domande
a risposta aperta", vengono trasferiti su un supporto idoneo ad eseguire
tramite elaboratore le successive operazioni di revisione, correzione ed
elaborazione statistica.
Regola
di compatibilità
Relazione
tra due o più variabili espressa come incompatibilità tra
certe combinazioni di modalità. Le regole di compatibilità
si basano su: (a) definizione degli aggregati statistici; (b) disposizioni
formali per la compilazione del questionario (per esempio, la regola di
"salto" di domande non pertinenti per aggregati di popolazione sottoposti
a quesiti "filtro"); (c) il piano di codifica delle risposte; (d) informazioni
a priori sui fenomeni osservati in relazione agli aggregati oggetto di
rilevazione. Le regole si distinguono in: "esplicite", ossia esplicitate
da chi sta conducendo l’indagine, ed "implicite", ossia derivate da quelle
esplicite mediante operazioni logiche. Tra regole esplicite si possono
realizzare contraddizioni, per evitare le quali è necessario costruire
l’insieme minimo non ridondante e non contraddittorio di regole esplicite
e di tutte le regole implicite da queste generate.
Regole di correzione (v. Correzione degli errori)
Regressione
Termine,
per la prima volta usato da Galton, per indicare certe relazioni nella
teoria dell’ereditarietà. Attualmente, il termine indica il metodo
di determinazione della relazione tra una variabile y, detta dipendente,
e una o più variabili x, dette indipendenti, o predittive, o regressori.
La forma funzionale più frequente è quella polinomiale, e
più particolarmente, quella lineare: l’equazione di regressione
che esprime la relazione di y su x è [Image]o, per più di
una variabile predittiva, [Image]
Reintervista
Indagine
successiva a quella principale condotta, in genere, intervistando nuovamente
una parte delle unità che hanno collaborato all’indagine principale
(v. Indagine successiva) con l’obiettivo di misurare (singolarmente o in
media) la concordanza tra le risposte ottenibili in prove ripetute dalla
popolazione oggetto d’indagine. Sulla base della concordanza tra le risposte
si può stimare la variabilità extra-campionaria delle stime.
Gli obiettivi della reintervista sono, dunque, differenti sia da quelli
delle indagini svolte in occasioni successive con l’obiettivo di rilevare
dati inerenti ad una successione di punti temporali, sia dai tentativi
di ottenimento dell’intervista non ancora concessa, che si potrebbero concepire,
per esempio, dopo una indagine postale. E’ normale che la rilevazione di
controllo sia svolta su un campione di dimensioni minori e su un insieme
di
quesiti ridotto rispetto alla rilevazione principale. La reintervista può
essere svolta sia dallo stesso personale che ha svolto l’indagine principale,
e in tal caso conviene a fini di stima che gli intervistatori si scambino
le assegnazioni, sia da personale diverso, e allora conviene che questo
sia più specializzato nella rilevazione di quello che ha svolto
l’indagine principale. Se si assegna maggiore fiducia ai risultati della
reintervista, la differenza tra il valore medio della reintervista e quello
dell’indagine principale si considera una misura della distorsione della
media dell’indagine principale.
Rel-varianza
Termine
non consigliabile per "varianza relativa".
Replicazione,
di osservazione
Realizzazione
ripetuta di una indagine o di un esperimento statistico in modo da incrementare
la precisione e di ottenere una stima più accurata dell’errore di
stima (v. Varianza elementare di risposta). Le replicazioni delle osservazioni
sono distinte dalle ripetizioni, dal momento che le replicazioni mirano
a riprodurre le osservazioni sotto le stesse condizioni essenziali, mentre
le ripetizioni in senso stretto indicano indagini coordinate sullo stesso
fenomeno in tempi o luoghi diversi.
Residuo
Quantità
ottenuta per differenza da una grandezza di riferimento. Nell’ambito degli
studi statistici è spesso detto "errore". Rete di rilevatori, di
rilevazione Insieme dei rilevatori, degli eventuali coordinatori, dei ricercatori
centrali e delle attività che questi possono porre in essere. Una
rete di rilevazione è quella attivabile per lo svolgimento di un’indagine,
e quindi non è necessariamente fissa nel tempo. In genere, però,
quando si parla di reti, si intende l’insieme di persone attivabile ogni
qual volta sia necessario per lo svolgimento di rilevazioni statistiche.
Revisione
dei dati
Processo
di identificazione di errori o lacune rappresentati da incoerenze, omissioni,
valori fuori campo, nel record di ciascuna unità statistica partecipante
all’indagine. Se l’unità di rilevazione comprende più di
una unità statistica, è talvolta possibile individuare incompatibilità
anche tra i record che costituiscono l’unità di rilevazione. Un
esempio è l’impossibilità che, all’interno di una famiglia,
vi sia più di un "capofamiglia". Con accezione più ampia,
si considerano revisioni anche le operazioni di correzione delle incompatibilità
che si verificano tra informazioni presenti all’interno dei singoli record
o in record diversi tra quelli che costituiscono l’unità di rilevazione.
Sia le operazioni di individuazione degli errori che quelle di correzione
vengono di norma effettuate con programmi informatici su elaboratore elettronico
(v. Programmi di imposizione automatica). In inglese, l’insieme delle operazioni
di identificazione e di correzione degli errori è detto editing,
ed edit è la singola operazione di identificazione e correzione.
Ricerca
Insieme
di attività volte a raccogliere documenti, svolgere prove sperimentali,
scoprire o confermare leggi o teorie, chiarire fenomeni oggetto d’interesse.
Ricerca è termine spesso usato negli studi come sinonimo di indagine,
ma conviene distinguere tra la ricerca, le cui finalità sono affatto
generali, e l’indagine statistica, che si propone di rispondere a precisi
obiettivi nell’ambito di una ricerca. Una ricerca su un determinato tema,
per esempio lo studio della congruenza dei servizi erogati da una struttura
sanitaria, può essere svolta mediante più indagini, una sugli
utenti, una sul personale operativo che eroga il servizio, una o più
su testimoni privilegiati dentro e fuori la struttura per raccogliere informazioni
al contorno.
Richiamo
telefonico
Tentativo
di contatto telefonico di unità designate per la rilevazione che
non hanno ancora fornito collaborazione. Un caso particolare di richiamo
telefonico è effettuato al fine di sollecitare la collaborazione
di mancati rispondenti (v. "Sollecito")
Riconducibilità
- riconducibile, classificazione
Una
classificazione adottata è riconducibile ad un’altra avente un numero
di voci inferiore se e nella misura in cui le voci della classificazione
adottata, mediante opportuna aggregazione, sono conformi all’altra. Si
può dire, per esempio, che la stima di una grandezza della contabilità
nazionale è riconducibile ad un’altra stima ottenuta sotto presupposti
contabili parzialmente diversi. Si ammette che la riconducibilità
possa essere parziale, quando si ha conformità di una parte delle
voci riaggregate.
Riferimento
individuale
Unità
statistica cui si riferisce un dato. L’attenzione per la possibilità
di risalire all’unità statistica cui si riferiscono i dati si ha
quando le informazioni sono "sensibili", ossia riguardano temi sui quali
è necessaria la riservatezza, ed esiste il rischio di violazione
del segreto statistico.
Rilevanza
- Rilevanti, statistiche
Consonanza
delle statistiche prodotte per l’utenza con le esigenze della stessa. Siccome
il conciliare le esigenze, sempre crescenti e mutevoli, dei possibili utenti
con le risorse disponibili non è agevole, è importante che
il sistema statistico (a) tracci nel suo programma a medio termine un quadro
realistico dello stato e delle tendenze della produzione statistica adattato
alle esigenze percepite dell’utenza possibile; (b) crei al proprio interno
un "sensore delle esigenze della società" (Commissioni permanenti
di esperti, e simili) per cogliere ciò che di nuovo la società
che utilizza i dati esprime; (c) cancelli dal Programma statistico le statistiche
non più richieste in quanto culturalmente o tecnicamente obsolete.
Naturalmente, la cancellazione di una statistica dal programma di attività,
interrompendo una serie, deve essere decisa con il massimo della prudenza.
Con riferimento all’attività statistica di Eurostat, il CSO irlandese
suggerisce di avviare attività solo nelle aree per le quali i bisogni
informativi sono descritti nei Trattati, per la cui stesura va trovato
il consenso della Comunità intera, e che quindi diventano il luogo
nel quale
trovano
unità le culture presenti nei Paesi comunitari. Secondo alcuni,
la rilevanza è una qualità delle statistiche nel senso della
adeguatezza rispetto agli obiettivi dell’indagine. In questa accezione,
è più congruo il termine "pertinenza".
Rilevatore
Persona
designata per la rilevazione dei dati, sottoponendo direttamente alle unità
un questionario o rilevando indirettamente le informazioni da archivi amministrativi,
record di vario tipo, etc. Se la rilevazione avviene per intervista, il
rilevatore assume anche il nome di intervistatore. Il termine rilevatore
si può estendere a qualsiasi strumento idoneo per la rilevazione
dei dati; volendo, tuttavia, associare il termine solo a persone, si denominerà
"strumento di rilevazione" la metodica meccanica o automatica di rilevazione.
Rilevazione
Nell’ambito
del Programma statistico nazionale, è il processo finalizzato alla
produzione di informazioni statistiche da parte dell’ente titolare, consistente
nella raccolta di dati presso imprese, istituzioni e persone fisiche e
nel loro successivo trattamento. Per una più generale definizione
di rilevazione statistica dei dati, si veda la voce Rilevazione dei dati.
Rilevazione
campionaria
Rilevazione
basata su un campione della popolazione statistica. La rilevazione campionaria
qualifica un’indagine statistica come campionaria.
Rilevazione completa (v. Rilevazione totale)
Rilevazione
dei dati
Operazione
di accertamento della presenza del carattere o fenomeno (o del carattere
o dei fenomeni) che interessa l’unità statistica e della modalità
sotto cui, nella stessa, il carattere o fenomeno si presenta. Nell’ambito
dell’indagine statistica, è l’operazione di raccolta dei dati e
delle informazioni idonee alla stima dei parametri e alla verifica delle
ipotesi di ricerca.
Rilevazione
diretta
Rilevazione
statistica dei membri della popolazione che detengono le informazioni che
interessano l’indagine. Si giustappone alla rilevazione indiretta, ossia
basata su record amministrativi, su biglietti o altre registrazioni automatiche,
nonché sull’osservazione dei fenomeni senza la richiesta di informazioni.
Il termine "campionamento diretto" è talvolta utilizzato per indicare
lo stesso tipo di rilevazione. "Diretta" si dice anche l’indagine basata
sulla rilevazione diretta dei dati.
Rilevazione
incompleta
Rilevazione
basata su una parte selezionata delle unità della popolazione. In
questo senso è sinonimo di rilevazione campionaria. E’ incompleta
la rilevazione che, predisposta sia per essere svolta sulla totalità
o su un campione delle unità della popolazione, è stata realizzata
solo su una parte delle unità designate.
Rilevazione per campione (v. Rilevazione campionaria)
Rilevazione secondaria (v. Indagine secondaria)
Rilevazione statistica (v. Rilevazione dei dati)
Rilevazione
totale, esaustiva
Rilevazione
che riguarda la totalità delle unità della popolazione statistica.
Il termine rilevazione esaustiva si usa talvolta per indicare che, per
raggiungere la precisione attesa, è necessario includere tutte le
unità della popolazione.
Ripetizione,
di osservazione
Esecuzione
di una indagine statistica in tempi successivi, o in posti diversi, per
realizzare un programma coordinato. In questo senso si distingue da una
replicazione dell’osservazione.
Riproducibilità
Un esperimento
o un’indagine statistica sono riproducibili se, replicati sotto le stesse
condizioni essenziali, danno essenzialmente gli stessi risultati, e cioè,
se le variazioni sono attribuibili al caso. Associato ad uno strumento
di misura, il termine è talvolta preso a sinonimo di affidabilità.
Rischio
Generica
possibilità che si verifichi un fenomeno dall’impatto negativo.
Il termine è spesso usato in relazione all’analisi di sopravvivenza
di persone colpite da una malattia, o di componenti di sistemi fisici,
e all’analisi che sopraggiunga un determinato evento negativo, come la
malattia stessa.
Rischio
relativo
Rischio
dell’accadimento di un certo fenomeno per una categoria della popolazione
rapportato a quello dello stesso fenomeno per una categoria di riferimento.
Per esempio, per valutare il rischio di una malattia, supponiamo che si
tratti dell’enfisema polmonare, per gli esposti ad un determinato fattore,
supponiamo l’abitudine al fumo di sigaretta, si rapporta il rischio dei
fumatori a quello dei non fumatori. L’eccedenza di rischio è attribuibile
al fattore esaminato. Un fattore che dia rischi significativi è
detto "di rischio". Il rischio relativo è spesso stimato con il
rapporto crociato (in inglese: odds ratio), dato dal rapporto ad/bc delle
frequenze a, b, c, d di una tabella 2x2. Il rischio relativo è considerato
una misura di associazione tra le variabili in esame.
Riservatezza
- Riservato, dato
Condizione
di ciò che è affidato alla discrezione e al rispetto del
segreto (v. Diritto alla riservatezza). La condizione riguarda normalmente
il dato elementare, talvolta il microdato. E’ riservato il dato per il
quale esiste un prestabilito limite di diffusione e notorietà. A
livello comunitario (Regolamenti del Consiglio EURATOM-CEE 1588/90 e COM(94)
78 def. del 10/3/1994), si considerano riservati i dati per i quali è
possibile l’identificazione, diretta o indiretta, dell’unità statistica,
portando così a divulgazione di informazioni individuali, salvo
il caso che i dati statistici siano tratti da fonti pubblicamente disponibili.
Il concetto della riservatezza dei dati è parente di quello della
loro specializzazione", ossia del loro uso limitato, nel sistema statistico,
al solo scopo per cui sono stati creati. Quindi, per garantire la riservatezza,
i dati: (a) debbono essere usati esclusivamente a fini statistici, (b)
debbono essere protetti contro il rischio di violazione diretta o indiretta
del segreto statistico, sia durante la produzione, sia nella archiviazione,
sia nel trasferimento e diffusione all’esterno. La riservatezza confligge
con la necessità di diffusione e pubblicizzazione del dato, a cui
si può comunque pervenire manipolando adeguatamente (con arrotondamenti,
iniezione di errori casuali, aggregazione di modalità etc.) il dato
stesso, in modo che da esso non si possa risalire all’unità statistica
cui è associato. Il termine inglese per "riservatezza" è
confidentiality.
Rispondente
Soggetto
cui è chiesto di fornire i dati che ci si propone di raccogliere
con una rilevazione statistica. Non sempre coincide con l’unità
di rilevazione e ciò anche quando si tratta di indagini sulle famiglie
o sugli individui. L’individuazione con precisione del rispondente è
indispensabile in quei rari casi per i quali sono previste sanzioni a carico
di chi, pur obbligato da disposizioni di legge, si rifiuta di prestare
la propria collaborazione.
Rispondente
proxy
Neologismo
che definisce un rispondente diverso da quello designato per la rilevazione.
Siccome le persone che danno risposte in sostituzione sono prossime al
designato, per esempio sono famigliari in una rilevazione presso le famiglie,
o sono amministratori diversi dal designato in una indagine sulle imprese,
si dicono in inglese proxy respondents.
Risposta
Reazione
ad un determinato stimolo. Se lo stimolo è una domanda di un questionario,
la risposta ha il significato intuitivo di riporto di informazione, se
si tratta della reazione ad un farmaco, può essere la remissione
della malattia, oppure la misura di determinati elementi nel sangue o nelle
urine etc.
Risposta
proxy
Neologismo
che denota una risposta data da un rispondente diverso da quello designato
per la rilevazione (v. Rispondente proxy).
Robustezza
Con
riferimento ad una procedura statistica, è la relativa insensibilità
degli esiti a deviazioni dagli assunti su cui poggia. Il concetto si applica
sia ai metodi di analisi statistica, sia ai test di verifica di ipotesi.
La valutazione di robustezza si valuta spesso rispetto all’ipotesi di normalità
della distribuzione della popolazione.
Rotazione del campione (v. Campionamento ruotato)
Rumore
Termine
derivato dall’ingegneria delle comunicazioni, per denotare una serie di
disturbi casuali.
Scadenzario
di un’indagine
Successione
delle date entro le quali nell’indagine debbono essere eseguite determinate
operazioni. La data di diffusione dei risultati è quella conclusiva
dell’indagine ed è quindi la data rispetto alla quale si valuta
la tempestività dell’indagine. Se si precisano le scadenze intermedie
che permettono di diffondere i dati entro una certa data, è anche
possibile determinare le fasi che hanno determinato eventuali ritardi.
Scala
di misura, di variabile
Scala,
o livello, di misura di una variabile statistica è l’insieme delle
modalità impiegate per osservare una popolazione statistica. Le
regole di trasformazione della caratteristica di un’unità nella
modalità pertinente può cambiare in rilevazioni diverse.
Per esempio, l’età di un individuo si può rilevare in anni
compiuti, in classi quinquennali d’età, o altro. Se le modalità
sono quantità, la variabile si dice "su scala quantitativa", o semplicemente
"quantitativa", altrimenti la variabile è detta "qualitativa". Le
scale di misura sono altresì catalogabili secondo le operazioni
matematiche eseguibili con le modalità in: "nominali", se è
possibile solo stabilire se due modalità sono uguali o diverse,
"ordinali", se sono ammesse le relazioni di maggiore, uguale o minore,
"ad intervalli", o "intervallo", se è sensato solo calcolare la
differenza tra due modalità, e "a rapporti", o "rapporto", se è
plausibile anche il calcolo del rapporto tra i valori di due modalità.
Scambiabilità
- Scambiabili, variabili
In senso
lato, sono scambiabili due entità di cui, in un dato processo, è
possibile utilizzare una invece dell’altra. In senso stretto, le variabili
casuali X1, X2,.., Xn sono scambiabili se tutte le loro n! permutazioni
hanno la stessa distribuzione n-dimensionale. Un termine alternativo per
scambiabili è "simmetricamente dipendenti".
Scarto
quadratico medio
Radice
quadrata della varianza. Nella presentazione di risultati è spesso
preferito alla varianza perché è espresso nella stessa unità
di misura dei valori osservati, e quindi, tra l’altro, delle medie delle
osservazioni.
Scomposizione
di una serie temporale
Individuazione
delle componenti di una serie temporale mediante metodi statistici. Tipicamente,
la scomposizione avviene individuando: (a) un movimento di lungo periodo,
o trend, (b) una oscillazione di periodo e ampiezza più o meno regolari
lungo il trend, (c) una componente stagionale, (d) una componente accidentale,
o casuale. Non tutte le serie mostrano le tre componenti non accidentali,
ma, quando sono presenti, si assume che siano additive. Un approccio più
moderno, detto scomposizione di Wold (1938), o scomposizione predittiva,
tenta di scomporre la serie in elementi deterministici e stocastici. Schema
(v. Piano)
Segreto
d’ufficio
Divieto
posto a pubblici ufficiali e a persone incaricate di pubblico servizio
di trasmettere a chi non ne abbia diritto informazioni riguardanti provvedimenti
od operazioni amministrative, in corso o concluse, ovvero notizie di cui
sia venuto a conoscenza a causa delle sue funzioni. La violazione del segreto
d’ufficio è punibile (art. 28 della L. 241/1990 e art. 326 del C.P.).
L’obbligo del segreto statistico è esteso agli addetti degli Uffici
di statistica del SISTAN (art. 8, D.Lgs. 322/89).
Segreto
statistico
Esclusione
della possibilità di individuare l’unità statistica alla
quale si riferisce un dato reso pubblicamente disponibile. Il segreto statistico
svolge la duplice funzione di proteggere l’interesse pubblico al buon andamento
della produzione di statistiche ufficiali e quello dei soggetti interpellati
a non vedere divulgate informazioni riservate. Sotto il profilo normativo,
esso ha trovato una prima generale accoglienza nell’art. 19 del R.D.L.
27/5/1929, n. 1285, secondo il quale le notizie raccolte nel corso di indagini
statistiche, fatto salvo il caso di esplicita richiesta da parte dell’autorità
giudiziaria, non potevano essere rese note se non in forma anonima e collettiva,
in modo che non se ne potesse fare alcun riferimento individuale. L’art.
9 del D.Lgs. 322/1989 stabilisce che: (a) le informazioni statistiche non
possono essere comunicate ad alcun soggetto esterno, pubblico o privato,
né ad alcun ufficio dell’amministrazione, se non in forma aggregata
sulla base di dati individuali non nominativi; (b) l’impiego dei dati raccolti
nel corso di indagini è limitato ai soli fini statistici; (c) anche
i dati aggregati, in casi eccezionali, possono essere coperti dal segreto
statistico. Non rientrano tra i dati tutelati dal segreto gli estremi identificativi
di persone o beni e gli atti certificativi di rapporti presenti nei pubblici
registri. Le norme che tutelano il segreto statistico prevedono eccezioni
per categorie ristrette di soggetti. L’art. 19 del RDL 27/5/1929, n. 1285,
prevedeva esplicitamente, ad esempio, l’eccezione del segreto per l’Autorità
giudiziaria quando richieda le notizie con sentenza, decreto od ordinanza
emessa in corso di procedimento. La L. 18/12/1980, n. 864, di indizione
e finanziamento dei censimenti generali del 1981, all’art. 2 prevedeva
che l’ISTAT fornisse a regioni, province e comuni che ne avanzavano richiesta
i dati resi anonimi relativi alle singole unità di rilevazione da
utilizzare per elaborazioni di interesse locale. Il D.Lgs. 322/89 introduce
una deroga al segreto statistico per favorire l’esigenza della comunità
di disporre di eventuali analisi, dando facoltà al Presidente dell’ISTAT
di distribuire a chi ne faccia motivata richiesta collezioni campionarie
di dati individuali resi anonimi (v. Protezione del segreto statistico).
I Regolamenti del Consiglio EURATOM-CEE n. 1588/90 e COM(94) 78 def. del
10/3/1994 stabiliscono, inoltre, che i sistemi statistici nazionali non
sono vincolati dalle legislazioni interne allorché un atto di diritto
comunitario relativo ad una statistica comunitaria preveda la trasmissione
di dati individuali, i quali debbono, comunque, essere forniti in modo
tale da escludere l’identificazione diretta delle unità statistiche.
Talvolta, al posto di riservatezza, si usa il termine confidenzialità,
traducendo l’inglese confidentiality. Confidenziale, in lingua italiana,
è ciò che è fatto o detto in confidenza. Non bisogna
confondere il segreto statistico sui dati con il "segreto d’ufficio" o
con il "segreto professionale".
Selezione
casuale
Metodo
di formazione di campioni secondo il quale ogni possibile campione ha una
probabilità di selezione fissa e determinata. La selezione si intende
casuale se realizzata con una tecnica di generazione casuale di campioni,
come tavole di numeri casuali, generatori di numeri casuali mediante computer,
che garantiscono l’eliminazione della soggettività della selezione.
Selezione
di campioni
Operazione
di individuazione delle unità che costituiscono il campione. Se
le unità sono selezionate seguendo criteri di casualità,
il campione risultante si qualifica come "casuale", o "probabilistico";
se non si seguono criteri casuali, il campione si dice "non probabilistico".
Dal punto di vista procedurale, la casualità si ottiene (i) attribuendo
idealmente ad ogni unità della popolazione una probabilità
positiva di essere selezionata, (ii) utilizzando in modo appropriato le
tecniche per la selezione casuale di campioni. Le tecniche per selezionare
casualmente un campione sono: (a) le tecniche "casuali semplici", per realizzare
le quali si figurano gli identificatori delle unità dentro un’urna
dalla quale poi si estraggono, con reinserimento nell’urna dopo averne
preso nota - e allora si ha il "campionamento con reinserimento", o "bernoulliano",
- o senza reinserimento - e allora si ha il "campionamento senza reinserimento",
o "in blocco"; (b) le tecniche "sistematiche", che consistono nel mettere
in sequenza le unità e selezionarne una ogni tante. Le tecniche
sistematiche, si dicono anche "pseudo-casuali", o quasi casuali, quando
le unità sono disposte casualmente nella lista. Alle unità
possono essere assegnate probabilità costanti o variabili. Le tecniche
non casuali possono essere, si dice, "a scelta ragionata", o "a casaccio".
Nel primo caso le unità sono scelte in modo da somigliare nell’insieme,
per alcuni caratteri strutturali, alla popolazione a cui appartengono.
Nel secondo caso, le unità sono inserite nel campione con adesione
volontaria dei rispondenti. Mentre il primo tipo di campioni sono ammissibili
in certe condizioni di oggettiva difficoltà di applicazione del
campionamento casuale (per esempio, nelle indagini di mercato sono diffusi
i cosiddetti "campioni per quote"), i secondi sono decisamente da rigettare
nelle indagini statistiche.
Sensibilità
- Sensibile, di strumento di misura
Capacità
di uno strumento di misura di reagire agli stimoli per la cui rilevazione
è predisposto. Se il carattere rilevato è un attributo, la
sensibilità è misurata dalla frazione di unità che
possiedono l’attributo e sono classificate correttamente, in rapporto alle
unità che possiedono l’attributo. I casi che, possedendo l’attributo,
sono classificati erroneamente, si dicono falsi negativi.
Senza reinserimento, campionamento (v. Campionamento senza reinserimento)
Seriazione (v. Serie e seriazione)
Serie cronologica (v. Serie temporale)
Serie
e seriazione
In senso
esteso, una serie è una successione di numeri che fanno riferimento
ad una variabile statistica. In senso stretto, una serie è una successione
di numeri che fanno riferimento ad una variabile qualitativa; in questo
senso si contrappone a seriazione, che è invece una successione
che fa riferimento ad una variabile quantitativa. Questa accezione è
però peculiare della cultura statistica italiana. Serie di variabili
qualitative si dicono ordinate o non ordinate secondo che presentino o
no un ordine naturale nella successione. Una serie ordinata si dice "rettilinea"
se presenta valori estremi all’inizio e alla fine, e "ciclica" se presenta
oscillazioni. Una serie qualitativa non ordinabile si dice anche "sconnessa".
Serie in senso stretto possono essere classificate anche rispetto al contenuto
in serie temporali, o storiche, serie territoriali, o spaziali.
Serie storica (v. Serie temporale)
Serie
temporale, storica
Insieme
di osservazioni ordinate rispetto alla caratteristica quantitativa di un
fenomeno individuale o collettivo osservato in punti temporali successivi.
I punti temporali sono spesso presi ad intervalli costanti. I valori della
serie si valutano in relazione al tempo.
Settore
di interesse (di rilevazione)
Con
riferimento alla rilevazione di dati statistici, è l’ambito sostantivo
nel quale si svolge la rilevazione dei fenomeni. Una generale classificazione
nell’ambito delle statistiche ufficiali evidenzia alcune aree fondamentali:
demografica, economica, sociale in senso esteso, ambientale, e metodologico-statistica.
All’interno di ciascuna area si possono individuare settori variabili nel
tempo e in Istituti di statistica diversi: i settori elencati nel Programma
statistico nazionale riproducono la struttura interna dell’ISTAT.
Simmetria
- Simmetrica, distribuzione
Distribuzione
di frequenze (o di probabilità) nella quale le modalità ad
uguale distanza dal centro della distribuzione hanno uguale frequenza (o
densità). Il centro di una distribuzione simmetrica si dice asse
di simmetria. In una distribuzione simmetrica la mediana e la media coincidono.
SISTAN (v. Sistema Statistico Nazionale)
Sistema
informativo
Insieme
coordinato delle definizioni, delle classificazioni, delle procedure, degli
strumenti, delle rilevazioni e degli indicatori mediante il quale si riesce
a produrre e offrire informazioni in modi e tempi utili ai fruitori del
sistema stesso. Le funzioni tipiche di un sistema informativo sono: (a)
l’acquisizione di dati, (b) l’archiviazione di dati, (c) l’elaborazione
dei dati, (d) la comunicazione e la diffusione del risultato delle elaborazioni.
Sistema
informativo statistico
Sistema
informativo in cui l’utilizzo delle informazioni mira a finalità
prevalentemente statistiche-conoscitive. Si caratterizza per il trattamento
di dati aggregati ("macrodati") e per la particolare attenzione dedicata
ai "metadati" e alle "meta-informazioni".
Sistema
Statistico Nazionale
Insieme
di enti ed organismi pubblici di informazione statistica, avente il fine
di rilevare, elaborare, analizzare, diffondere ed archiviare dati statistici.
Fanno parte del Sistema, denotato anche con l’acronimo SISTAN: (a) l’Istituto
Nazionale di Statistica (ISTAT), (b) gli Uffici di statistica centrali
e periferici delle amministrazioni dello Stato e delle aziende autonome,
(c) gli Uffici di statistica delle regioni, delle province autonome, delle
province, di comuni singoli o associati, delle unità sanitarie locali,
delle camere di commercio, industria, artigianato e agricoltura, (d) di
altre ammnistrazioni ed enti pubblici che svolgano attività importanti
per l’informazione statistica nazionale.
Sistematico
Aggettivo
frequentemente usato in contrapposizione a casuale, o stocastico. Quindi,
una variabile y composta da una costante c e da una componente x di media
zero si dice che ha una componente sistematica c e una componente stocastica
x. Analogamente, un errore si dice sistematico se ha media non nulla, e
un disegno di campionamento si dice sistematico se non è casuale.
La contrapposizione casuale-sistematico non è però sempre
applicabile: tra l’altro, un evento casuale può avere esiti sistematici,
si può ottenere un campione casuale (si dice quasi-casuale per distinguerlo)
anche da strati determinati in modo sistematico.
Sistematico, campionamento (v. Campionamento sistematico)
Soggettività dello statistico (v. Oggettività dello statistico)
Sollecito,
di mancati rispondenti
Richiesta
di collaborazione rivolta ai mancati rispondenti ad una indagine diretta.
Nelle rilevazioni postali è comune sollecitare almeno due volte
la collaborazione dei mancati rispondenti: ogni volta si dovrà richiedere
la collaborazione con una lettera a diverso contenuto inviando anche una
nuova copia del questionario. Si può considerare una forma di sollecito
anche il richiamo telefonico dei mancati rispondenti. Per poter realizzare
i solleciti, conviene predisporre la rilevazione in modo da poter controllare
chi non ha risposto: in una indagine postale, ciò si può
realizzare mantenendo l’anonimato del questionario, facendo compilare e
restituire separatamente dal questionario una cartolina identificativa
della persona che ha collaborato.
Soppressione
di frequenze esigue
Procedura
di oscuramento di frequenze di una tabella a rischio di violazione del
segreto statistico. La soppressione riguarda sia le frequenze sensibili,
sia quelle complementari, onde evitare che, per differenza, si possano
ricavare i valori sensibili oscurati.
Sostituzione
In una
indagine statistica, è la selezione di una nuova unità per
"sostituire" una che non collabora alla rilevazione al fine di ottenere
la numerosità campionaria attesa. Il ricorso alle sostituzioni può
generare distorsioni nelle stime e, se ammesso, va condotto sulla base
di regole strettamente controllate.
Sottocampionamento
Sottocampionamento,
o sub-campionamento, è il processo di selezione di un campione da
un campione precedentemente formato. Si applica abitualmente al campionamento
su più stadi, dove si formano campioni dentro ciascuna unità
di livello superiore selezionta, al campionamento in più fasi, dove
si formano campioni di dimensioni inferiori da campioni più ampi
selezionati nelle prime fasi, alla compenetrazione di campioni, dove si
usa formare più campioni da quello selezionato. Non è necessario
che il sotto-campionamento segua le stesse regole del campionamento precedente.
Sottocampione (v. Sottocampionamento)
Sottoclasse
Dominio
di studio formato da sottopopolazioni che non sono state considerate nella
stratificazione. Per esempio, sottoclassi possono essere la ripartizione
per sesso e per età della popolazione anche se queste variabili
non costituiscono strati espliciti.
Sottostima
Distorsione
verso il basso di una stima.
Sovrastima
Distorsione
verso l’alto di una stima.
Specializzazione,
di statistiche
Con
riferimento al prodotto statistico di indagini ed esperimenti, indica che
l’uso possibile è ristretto agli obiettivi per i quali è
prodotto. Questa caratteristica dei dati implica la necessità che
nei programmi di attività si specifichino, oltre ai prodotti, i
destinatari e le vie per la messa a disposizione dei dati stessi.
Specificità - Specifico, di strumento di misura
Capacità di uno strumento di misura di discriminare le unità che possiedono un dato attributo da quelle che non lo possiedono. Si misura con la frazione di unità che, possedendo l’attributo, sono classificate correttamente, in rapporto alle unità nelle quali l’attributo è assente. I casi che, pur non possedendo l’attributo, sono classificati come portatori dello stesso, si dicono "falsi positivi".
Stadio di campionamento (v. Campionamento su più stadi)
Stagionalità di una serie (v. Variazione stagionale)
Standardizzazione
statistica
Data
una variabile x di media µ e varianza s 2, si dice standardizzazione
in senso statistico la trasformazione della variabile in z=(x-µ )/s
2. La variabile così trasformata, detta "misura standard", ha media
0 e varianza 1.
Statistica (v. Stima)
Statistica
campionaria
Grandezza
statistica funzione delle osservazioni di un campione (media, campo di
variazione, varianza ...) la cui distribuzione è determinata dall’insieme
dei campioni che si potrebbero formare dalla popolazione utilizzando un
dato schema di campionamento (dimensione campionaria, struttura del campione).
Statistica
descrittiva
Metodo
di analisi di dati statistici con finalità di descrizione di fenomeni,
in contrapposizione con la statistica teorica, o inferenziale, che comporta
processi di inferenza in probabilità per l’interpretazione dei risultati
dell’analisi. La distinzione si può considerare utile in pratica,
ma non del tutto logica (v. anche "Statistiche descrittive")
Statistica inferenziale (v. Statistica descrittiva)
Statistica
ufficiale
Informazione
statistica diffusa dal Sistema statistico nazionale, previa la convalida
per qualità. Anche statistiche prodotte all’esterno del Sistema
ma vagliate per la qualità da un’autorità del Sistema possono,
dunque, essere considerate ufficiali. Le statistiche ufficiali di interesse
pubblico sono quelle ottenute dalle rilevazioni ed elaborazioni previste
nel PSN.
Statistica, variabile (v. Variabile)
Statistiche analitiche (v. Statistiche descrittive)
Statistiche
comunitarie
Informazioni
quantitative, aggregate e rappresentative tratte dalla raccolta e dall’elaborazione
sistematica di dati la cui produzione è prevista nel programma statistico
comunitario pluriennale e messe in opera conformemente alle procedure di
decisione definite nel Regolamento (CEE) del Consiglio 94/0026 del 10/3/1994
Statistiche
definitive
Statistiche
considerate definitive dopo revisione. La revisione è necessaria
quando sono state diffuse statistiche provvisorie per motivi di tempestività
della messa a disposizione per l’utenza.
Statistiche
descrittive
Dati
statistici di sintesi di osservazioni ottenuti con l’intento di descrivere
un determinato fenomeno. In questo senso, si giustappongono a statistiche
analitiche, che mirano invece a studiare le relazioni tra fenomeni. Se
si considera che la rappresentazione di una relazione altro non è
che una descrizione, la distinzione non è interamente logica.
Statistiche
di movimento
Descrizioni
numeriche delle continue modifiche della popolazione statistica in un determinato
periodo in relazione ad un fenomeno. Per esempio, le statistiche di movimento
demografico sono le rappresentazioni delle nascite, dei morti, delle migrazioni
etc. della popolazione in un periodo.
Statistiche
di stato
Statistiche
di stato, o di stock, di un determinato fenomeno sono le descrizioni numeriche
della popolazione statistica ad una determinata data.
Statistiche di stock (v. Statistiche di stato)
Statistiche
provvisorie
Statistiche
diffuse senza verifica di qualità definitiva per rispondere ad esigenze
di tempestività della conoscenza. Nella maggior parte dei casi,
la provvisorietà si accetta per disporre della minima conoscenza
utile per interventi pubblici.
Stereogramma
Classe
generale di diagrammi che mirano a rappresentare una figura tri-dimensionale
sul piano. Il nome è dato, in particolare, alla forma a tre dimensioni
dell’istogramma, con il quale si rappresenta una distribuzione bivariata
di frequenze.
Stima
In senso
stretto, è il particolare valore ottenuto dall’applicazione di uno
stimatore in una indagine o in un esperimento statistico. Il termine è
comunemente usato per indicare, in senso più ampio, anche l’insieme
delle regole attraverso le quali è stato ottenuto quel particolare
valore, ovverossia lo stimatore stesso. Si denomina stima anche l’operazione
di inferenza, partendo dai dati campionari, del valore dell’estimando nella
popolazione. La stima può riguardare un parametro, e in tal caso
si parla di "stima puntuale", o un intervallo, e allora si parla di "stima
intervallare".
Stima basato su rapporto (v. Stimatore basato su rapporto)
Stima basato su quoziente (v. Stimatore basato su quoziente)
Stima
intervallare
Stima
di un parametro della popolazione mediante specificazione di un intervallo,
limitato inferiormente e superiormente, entro il quale si pensa che giaccia
il vero valore del parametro. La stima dell’intervallo, usualmente detto
intervallo di confidenza, si presume che contenga il vero valore con una
certa frequenza nell’ottica del campionamento ripetuto, o con una certa
probabilità se si specifica un’ottica probabilistica.
Stima
puntuale
Stima
del valore di un parametro della popolazione. Si giustappone a stima intervallare,
nella quale si specifica un intervallo di valori. Considerato che la stima
puntuale è contornata da una regione di valori, la distinzione tra
i due metodi di stima tende a svanire sul piano interpretativo.
Stimatore
Regola
o metodo ideato per stimare un parametro della popolazione statistica.
E’, di solito, espresso come una funzione dei valori campionari, ed è,
quindi, una variabile statistica la cui distribuzione è di grande
importanza nell’accertamento dell’attendibilità della stima che
dallo stimatore deriva. Tra gli stimatori adottati nell’ambito delle statistiche
ufficiali, prevalgono quelli detti lineari, ossia quelli basati su una
combinazione lineare delle osservazioni campionarie. Sono stimatori lineari,
la media campionaria, la proporzione campionaria, il totale campionario.
Gli altri stimatori, detti non lineari, sono basati su trasformazioni non
lineari delle osservazioni campionarie. Tra questi stimatori sono particolarmente
interessanti lo stimatore basato sul quoziente tra due variabili casuali
e lo stimatore basato sulla regressione tra due o più variabili
casuali.
Stimatore
basato su rapporto
Stimatore
(non lineare) basato sul rapporto tra la variabile oggetto d’indagine e
una variabile ausiliaria di media nota. Ciò implica che sia il numeratore
che il denominatore siano soggetti ad errore campionario. Nella teoria
del campionamento, se tutte le unità del campione possiedono due
variabili x e y, la media di y può essere stimata moltiplicando
il rapporto y/x per la media [Image]di x. Stimatore basato su regressione
Stimatore (non lineare) basato sulla regressione tra la variabile oggetto
d’indagine e una variabile ausiliaria, di media nota, correlata linearmente
con questa. Nella teoria del campionamento, se tutte le unità del
campione possiedono due variabili x e y, e si conosce il coefficiente di
regressione tra y e x, by/x, l’equazione di regressione [Image]si assume
come stimatore della media di y nella popolazione. Questo stimatore è
più preciso di quello basato sulla sola media campionaria di y se
x e y sono correlate.
Stimatore
corretto
Stimatore
che, per qualsiasi dimensione campionaria, ha un valore atteso uguale al
parametro che si intende stimare. Se lo stimatore non è corretto
si dice che è "distorto", ossia che lo scarto tra il valore atteso
dello stimatore e il paramtero stimato è diverso da zero.
Stimatore distorto (v. Stimatore corretto)
Stimatore di tipo quoziente (v. Stimatore basato su rapporto)
Stimatore di tipo rapporto (v. Stimatore basato su rapporto)
Stimatore di tipo regressione (v. Stimatore basato su regressione)
Stimatore
efficiente
Efficiente,
o massimamente efficiente, è lo stimatore corretto la cui varianza
campionaria è inferiore o tutt’al più uguale a quella di
ogni altro stimatore dello stesso parametro (v. Efficienza). Se lo stimatore
non è corretto, l’espressione si dovrebbe riferire all’errore quadratico
medio, che ingloba anche la distorsione. Se lo stimatore è asintoticamente
corretto, l’errore quadratico medio e la varianza coincidono asintoticamente,
e lo stimatore è detto asintoticamente efficiente.
Stocastica, tecnica di correzione di errori (v. Correzione di errori)
Stocastica, variabile (v. Variabile)
Stock, statistiche di (v. Statistiche di stato)
Strategia
Nella
teoria del campionamento statistico, è inerente sia alla procedura
di rilevazione che a quella di stima; nella teoria dei giochi, indica il
ventaglio delle possibilità di cui può fruire un individuo,
secondo le regole del gioco e, possibilmente, anche le contro-azioni dei
suoi avversari. Una strategia nella quale è possibile una sola azione
è detta "pura".
Stratificazione
Suddivisione
della popolazione in sotto-popolazioni, dette strati. Di solito, la stratificazione
si attua per trarre un campione dagli strati. La stratificazioni può
basarsi su variabili territoriali o sulla base di altre caratteristiche
della popolazione. Per esempio, le popolazioni umane si stratificano spesso
per regione di residenza, sesso, età, grado di istruzione etc. La
stratificazione può essere realizzata con un numero qualsiasi di
variabili; se le variabili sono due o più si usa talvolta il termine
"stratificazione multipla". Tra i tipi particolari di stratificazione si
individuano: (a) la stratificazione "implicita", che si attua ordinando
le unità della popolazione secondo una variabile di stratificazione
almeno ordinale e selezionando le unità con un criterio sistematico;
(b) la stratificazione "profonda", o "stratificazione dopo la selezione",
che si attua selezionando campioni interi composti in modo da controllare
più fattori di stratificazione di quelli possibili con la stratificazione
di tipo convenzionale.
Strato
Qualsiasi
partizione della popolazione. Nel campionamento, gli strati sono insiemi
di unità utilizzati per la stima dei parametri della popolazione.
Gli strati stessi possono essere insiemi per i quali si producono stime;
in tal caso, si denominano "domini di studio".
Strumento
di rilevazione
L’espressione
ha molteplici significati: (a) questionario, o altro formulario, sul quale
siano elencate le domande e le eventuali risposte ammesse, (b) altri strumenti
ausiliari per la raccolta dei dati, tra i quali è particolarmente
importante il manuale per gli addetti alla raccolta delle informazioni,
(c) l’entità stessa che svolge la rilevazione dei dati quando il
metodo di rilevazione è meccanico o automatico.
Struttura
del campione
Specificazione
completa del disegno di campionamento. Riguarda il numero di stadi, l’eventuale
stratificazione, il criterio di selezione delle unità, il tasso
di sovrapposizione nelle eventuali occasioni successive di rilevazione
etc.
Studio
progettuale
Nell’ambito
del Programma Statistico Nazionale, è l’attività di analisi
e di ricerca finalizzata, in generale, all’impianto, alla ristrutturazione
o al miglioramento di un processo di produzione statistica.
Style
book
Nome
dato ad un manuale-guida prediposto dall’ISTAT (1991), ora giunto alla
seconda edizione, per una corretta applicazione delle norme che regolano
la preparazione di una pubblicazione ufficiale. Tali indirizzi sono completati
dalle direttive per l’illustrazione dei contenuti e la qualità dei
dati statistici relativi a un generico Annuario (contenuto informativo,
definizioni, classificazioni, piano di rilevazione, stimatori, altre metodologie,
margini d’errore, modelli di rilevazione adottati). (v. anche "Linee guida").
Sub-campionamento
(v. Sottocampionamento)
Sub-campione
(v. Sottocampionamento)
Supporti
per la diffusione delle statistiche ufficiali Strumenti con cui i dati
vengono portati a conoscenza dell’utenza. I supporti più comuni
sono: (a) di tipo tradizionale, su supporto cartaceo (pubblicazioni a stampa,
comunicati stampa, microfilm e microfiches, etc.); (b) di tipo informatico
(archivi e data base su nastro, floppy disk, compact disk, CD-ROM), o telematico
(accesso diretto alle banche dati).
Su scala intervallo, variabile (v. Intervallare, variabile)
Sussidiarietà
del Servizio statistico comunitario
Le statistiche
comunitarie sono, per la maggior parte, prodotte dai servizi statistici
degli Stati membri. I servizi comunitari sono sussidiari di quelli nazionali
se e nella misura in cui gli obiettivi dell’azione prevista non possono
essere sufficientemente realizzati dagli Stati membri e possono dunque,
a motivo della scala o degli effetti dell’azione in questione, essere realizzati
meglio a livello comunitario. L’azione della Comunità non deve andare
al di là di quanto necessario per il raggiungimento degli obiettivi
del Trattato istitutivo (Trattato che istituisce la Comunità Europea,
G.U.C.E. C191 del 29/7/1992; Regolamento CEE 94/0026 del Consiglio).
Tabella
complessa
Tabella
che presenta la classificazione di un insieme di dati rispetto a più
di due variabili. Per esempio, una popolazione può essere tabulata
nella stessa tabella rispetto a età, stato civile e sesso, incrociati
in modo opportuno. Sta allo statistico trovare il modo più opportuno
di presentare i risultati della classificazione sulle tre dimensioni; per
esempio, con riferimento alle tre variabili dianzi citate, si possono porre
l’incrocio di stato civile e sesso nel senso delle righe e l’età
nel senso delle colonne.
Tabella
di contingenza
Con
riferimento a due variabili qualitative, è la tabella a due entrate
(righe, colonne) nella quale sono classificabili le osservazioni di un
aggregato statistico. Nella tabella, l’elemento nij, all’incrocio della
riga i e della colonna j, è il numero di unità statistiche
che possiedono congiuntamente la modalità i-esima della variabile
posta nel senso delle righe e la caratteristica j-esima di quella posta
nel senso delle colonne.
Tabella
di frequenze
Tabella
nella quale i singoli valori rappresentano la frequenza, assoluta o relativa,
del verificarsi congiunto delle modalità incrociate nella tabella.
Se si pongono in relazione due variabili X e Y, il valore nij all’incrocio
della riga i e della colonna j, è il numero di volte in cui, nel
campione esaminato, le unità possiedono la modalità xi di
X e la modalità yj di Y. Se le variabili X e Y sono dicotomiche,
la tabella è detta "tetracorica".
Tabella
di intensità
Tabella
nella quale i singoli valori rappresentano il totale aggregato di una variabile
statistica posseduto dalle unità caratterizzate dalla combinazione
di modalità delle variabili incrociate per costruire la tabella.
Se si pongono in relazione due variabili X e Y, il valore zij all’incrocio
della riga i e della colonna j, è il totale del carattere Z posseduto,
nel campione esaminato, dalle unità caratterizzate congiuntamente
dalla modalità xi di X e dalla modalità yj di Y.
Tabella tetracorica (v. Tabella di frequenze)
Tasso
demografico
Rapporto
tra il numero di eventi osservati (nascite, morti, decessi etc.) e la popolazione
media del periodo d’osservazione. Si dice "istantaneo" il limite cui tende
un tasso riferito all’unità di tempo, al tenderea zero del periodo
d’osservazione.
Tasso
di rifiuto
Nel
campionamento di popolazioni umane o di stabilimenti, è la proporzione
di unità che, essendo state contattate, rifiutano di fornire l’informazione
desiderata. Per calcolare la proporzione di rifiuti, si rapporta il numero
di rifiuti al numero di contatti.
Tasso di risposta (v. Frequenza di risposta)
Tasso istantaneo (v. Tasso statistico)
Tasso
specifico
Tasso
calcolato con riferimento a un particolare sottogruppo della popolazione,
invece che all’intera popolazione. Per esempio, i tassi di
mortalità
possono essere specifici per età, e cioè, calcolati per ciascuna
classe di età identificata della popolazione.
Tasso
standardizzato
Tasso
inerente ad un determinato fenomeno (natalità, nuzialità,
mortalità etc.) risultante dalla mediazione di tassi specifici calcolati
per singole modalità di una variabile della quale si vogliono rimuovere
gli effetti con pesi dati da popolazioni-tipo. Per esempio, siano wi il
tasso specifico di mortalità della classe di età i-esima
(i=1, .., k) e pi la frequenza della popolazione tipo per la stessa classe
di età. Il tasso standardizzato per età è dato da
[Image]. Il confronto dei tassi standardizzati di diverse categorie di
popolazione indica quali sarebbero i differenziali di rischio di morte
delle popolazioni se queste avessere la stessa struttura per età.
Tasso
statistico
Valore
caratteristico delle variazioni relative di una grandezza Y in funzione
delle variazioni di un’altra grandezza X da cui Y dipende o alla quale
essa corrisponde per il confronto desiderato. Per esempio, sono tassi i
rapporti tra il numero di leucociti per quantità di volume di sangue,
il capitale circolante per l’entità dei debiti a breve termine,
la densità di abitanti per chilometro quadrato. I tassi statistici
sono caratterizzati da una distribuzione statistica dei valori. In inglese
corrisponde al termine rate. Un tasso è continuo, o istantaneo,
se Y è una funzione continua di X e il rapporto è il limite
al tendere a zero dei valori di X. Cioè, per ogni coppia di valori
(X,Y), il tasso istantaneo T è dato da [Image], dove [Image]denota
il valore incrementale di Y.
Tavola (v. Tabella di frequenze)
Tecnica
degli osservatori indipendenti (V. Osservatori indipendenti del
fenomeno)
Tecnica
dell’osservatore mobile
Tecnica
di rilevazione di dati su popolazioni mobili che consiste nell’osservazione
della popolazione con il rilevatore in movimento. Per esempio, se si vuole
stimare la popolazione in determinate ore lungo una via, il rilevatore
può muoversi lungo la via per raggiungere lo scopo. Per rendere
valida la tecnica, si può attuare la compenetrazione del campione,
ossia far effettuare indipendentemente la stessa attività a due
o più rilevatori (v. Osservatori indipendenti del fenomeno) e confrontare
le due o più stime.
Tecnica
di Politz-Simmons
Tecnica
adottata nelle indagini campionarie per eliminare, in certe condizioni,
la distorsione nella stima di parametri basata su osservazioni raccolte
presso le famiglie o le imprese applicando la tecnica del richiamo dei
mancati rispondenti. La stima è corretta con la "probabilità
di rispondere", stimata in base alla frequenza della presenza del rispondente
nelle date o negli orari nei quali viene svolta la rilevazione.
Tempestività
- Tempestiva, statistica Aspetto della qualità dei dati relativo
al lasso di tempo che intercorre
tra
la loro rilevazione e la loro disponibilità. Una statistica può
essere considerata tempestiva se, in rapporto a determinati obiettivi,
è diffusa in tempi congrui al loro raggiungimento. Per valutare
quantitativamente la tempestività si può sia stabilire nel
programma di attività la data di pubblicazione delle statistiche,
sia far valutare i tempi della messa a disposizione da un insieme di utenti
di riferimento.
Tempo
di riferimento
Istante
o periodo al quale fa riferimento un’informazione rilevata o una stima
statistica. Il tempo di riferimento è tipicamente un istante per
la rilevazione di caratteristiche rilevabili trasversalmente nel tempo,
per esempio, lo stato civile ad una data di riferimento. I dati di flusso
sono rilevati con riferimento ad un periodo di tempo.
Tendenza (v. Trend)
Tendenza
centrale, centralità
Modo
di indicare la tendenza delle frequenze di una distribuzione a disporsi
attorno al centro della distribuzione stessa. Le più comuni misure
di tendenza centrale sono le cosiddette "misure di locazione", che comprendono
le medie, la mediana e la moda. La rappresentatività della misura
di centralità rispetto all’intera distribuzione è valutabile
in funzione della variabilità: quanto più variabile è
la distribuzione, tanto meno rappresentativa è la misura di centralità.
Tipico, anno (v. Anno tipico)
Tipico, carattere (v. Carattere tipico)
Tipico, periodo (v. Periodo tipico)
Tipo di rilevazione (v. Canale di rilevazione; Rilevazione dei dati)
Trasformazione
di variabile
Trasformazione
di una variabile statistica in un’altra, di solito mediante una equazione
matematica. Normalmente, la trasformazione è eseguita per ricondurre
una distribuzione data ad una funzione distributiva di forma e proprietà
note. Una tipica trasformazione è la "standardizzazione" della variabile.
Trasparenza
- Trasparente, dato statistico
Con
riferimento ai risultati di un’indagine statistica, o ai passaggi operativi
di una singola procedura, è la disponibilità delle informazioni
necessarie per esprimere un giudizio sulla qualità dei dati. Il
Consiglio dell’Unione europea (Regolamento COM(94) 78 def. del 10/3/1994)
aggiunge che i responsabili della fornitura di dati statistici hanno il
diritto di essere informati sulla base giuridica, le finalità per
le quali i dati sono richiesti e le misure di protezione applicate. La
trasparenza è, quindi, espressione di un particolare atteggiamento
del soggetto che, avendo effettuato l’indagine, consente ad altri di valutare
in modo approfondito la ragion d’essere dell’indagine e il proprio operato.
Il Sistema statistico deve quindi rendere le informazioni disponibili al
più ampio circolo di possibili utenti, differenziando l’informazione
secondo il tipo di utenti (per esempio, l’informazione di tipo economico
alle imprese può essere più dettagliata di quella destinata
alle famiglie), seguendo standard di accuratezza e aggiornamento prefissati,
facendo conoscere le norme e i princìpi etici che hanno governato
la propria attività, ed intervenendo ufficialmente in presenza di
interpretazioni erronee o devianti dei dati diffusi. Le informazioni che
permettono di giudicare la qualità dei dati sono relative agli strumenti
e alle metodiche (definizioni, classificazioni, questionari, piano di campionamento
e relativi errori, piano di rilevazione e relativi errori, fonti e metodo
di calcolo delle stime, indicatori della qualità etc.) cui si è
fatto ricorso, nonché ai dati ed alle informazioni che rappresentano
le carenze e gli errori che possono condizionare la credibilità
dei risultati ottenuti. Le scelte operate devono essere descritte con la
giusta dose di precisione che le rende comprensibili all’utenza per la
quale sono prodotte.
Trend
Nell’analisi
delle serie temporali, si dice trend, o "trend secolare", o "tendenza",
un
movimento in una serie temporale che si ipotizza essere, assieme alle oscillazioni
e alle componenti casuali, all’origine della variabilità dei valori
osservati. Caratterizzano il concetto di trend il "lisciamento" su periodi
lunghi rispetto all’unità di tempo della serie. La lunghezza del
periodo è arbitraria e connaturata ai fenomeni, per esempio, un
trend secolare è significativo per i fenomeni meteorologici, ma
può essere un movimento oscillatorio in relazione alle ere geologiche.
Nella prassi statistica, un trend è rappresentato da una funzione
matematica, spesso un polinomio funzione del tempo o una funzione logistica,
o da una procedura di gradazione, come le medie mobili.
Troncamento
- Troncata, distribuzione, campione
Distribuzione
ottenuta da un’altra distribuzione tagliando le "code" a destra e/o a sinistra
di un dato valore. Un campione si dice tronco quando è ottenuto
ignorando i valori esterni ad un dato valore, a destra o a sinistra della
media. In questo senso, un campione troncato si distingue da uno "censurato":
quest’ultima espressione sta ad indicare la cessazione del proceso di rilevazione.
Si può dire che la "censura" è il troncamento dell’osservazione
sequenziata nel tempo, il "troncamento" è il taglio rispetto ai
valori della variabile.
Ufficialità del dato (v. Statistiche ufficiali)
Unità
amministrativa
Unità
statistica corrispondente ad un’ente delle Pubbliche Amministrazioni. Sono
di questo tipo le unità amministrative che hanno un riferimento
territoriale preciso, come le regioni, le province, i comuni, le USL, e
quelle non territoriali, come gli ospedali, le scuole superiori e l’università
etc.
Unità
campionaria
Unità
che compone un campione. Conviene distinguere questa denominazione da quella
di "unità di campionamento", con la quale si intende una delle unità
che compongono un aggregato che deve essere sottoposto a campionamento.
In un campionamento su più stadi, le unità campionarie si
dicono "primarie" se compongono l’insieme di unità di primo stadio,
"secondarie" se compongono il campione selezionato al secondo stadio, "finali"
se compongono l’insieme delle unità dell’ultimo stadio.
Unità
complessa
Unità
che derivano dalla combinazione di due o più unità elementari.
Per esempio, il reddito nazionale annuo pro-capite, il numero di stanze
delle abitazioni occupate per residente, sono variabili relative ad unità
complesse.
Unità
designata
In una
indagine diretta, è l’unità campionaria sulla quale si intende
svolgere la rilevazione dei dati. Per esempio, in una indagine sulle famiglie,
l’unità designata a rispondere per conto della famiglia può
essere il capofamiglia o un adulto responsabile, quella designata a rispondere
per i membri può essere il singolo membro o un familiare. Per i
minori, è certamente un adulto responsabile. Talvolta, l’unità
designata non rispondente viene surrogata da un’unità collaborativa.
Ricorrendo al termine inglese, taluni denominano proxy questo rispondente.
Unità
di analisi
Unità
appartenente all’insieme che viene analizzato a fini di analisi statistica.
Se i dati sono forniti sotto forma di tabelle, si denomina unità
di tabulazione. Può non coincidere con l’unità di rilevazione.
Unità
di classificazione
Unità
di cui si identifica la modalità di una data variabile. Se le variabili
di classificazione sono due o più, dell’unità di classificazione
si identificano le modalità di ogni singola variabile.
Unità
di campionamento
Unità
che compone un aggregato da sottoporre a campionamento. Le unità
di campionamento sono individuali e indivisibili nel momento in cui si
effettua la selezione campionaria. Le unità da estrarre possono
essere definite su basi naturali (persone, famiglie di fatto, animali etc.),
giuridiche (famiglie anagrafiche, imprese etc.), amministrative (comuni,
ospedali etc.), territoriale (aree in cui è ripartibile un territorio)
o su qualsiasi altra base. Nel campionamento su più stadi, le unità
di campionamento sono diverse ad ogni stadio: sono più grandi al
livello superiore e gradatamente più piccole mano a mano che si
scende di livello. Si distingue questa denominazione da quella di "unità
campionaria", con la quale si intende una delle unità che compongono
un campione.
Unità
d’informazione
Unità
che, in una indagine o in un esperimento statistico, fornisce le informazioni.
Può non coincidere con l’unità per la quale si rilevano le
informazioni ("unità di rilevazione") o con quella alla base delle
analisi dei dati ("unità di analisi"). Nel censimento dell’agricoltura,
l’azienda agricola è una delle unità di rilevazione; si possono
analizzare i dati sia per azienda che per appezzamento e l’unità
di informazione è il conduttore dell’azienda.
Unità
di rilevazione
Unità
empirica su cui si basa la rilevazione. Non coincide necessariamente né
con l’unità che fornisce le informazioni ("unità d’informazione"),
né con l’unità statistica cui, in ultima analisi, si è
interessati, ogni volta che essa ne raggruppa più d’una ("unità
di analisi", "unità di tabulazione"). Nel censimento della popolazione,
la famiglia di censimento è una delle unità di rilevazione;
se la famiglia è composta di un solo membro, l’unità di rilevazione
coincide con l’unità statistica di analisi, altrimenti si hanno
tante unità di analisi quanti sono i membri della famiglia, in corrispondenza
di una sola unità di informazione (il capofamiglia).
Unità
di tabulazione
Unità
di cui, in una tabella, si presenta la classificazione secondo un assortimento
di modalità di caratteri. Il nucleo familiare, in un censimento
demografico, non è l’unità statistica (il censito), né
una di quelle di rilevazione, ma una derivazione da una di queste (la famiglia
di censimento) attraverso il carattere "relazione col capofamiglia", e
costituisce oggetto di classificazione e pubblicazione in tavole specifiche.
Unità
elementare
La più
piccola unità che fornisce informazioni. Le unità elementari,
opportunamente aggregate, permettono di stimare i parametri della popolazione
oggetto di studio. Le unità elementari devono essere precisate rispetto
al rispondere alle domande ("unità d’informazione") e rispetto alle
elaborazioni effettuabili ("unità di analisi").
Unità
finale (di campionamento)
Nel
campionamento su più stadi, è un’unità selezionata
all’ultimo stadio. Non necessariamente queste unità coincidono con
le unità di rilevazione. Per esempio, nella rilevazione trimestrale
sulle forze di lavoro, sono unità finali di campionamento le famiglie,
ma sono unità di rilevazione i membri delle famiglie stesse. Una
volta individuata una famiglia campione, infatti, tutti i membri della
stessa vengono inclusi nel campione.
Unità
primaria
Nel
campionamento su più stadi, è un’unità selezionata
al primo stadio. Per esempio, in un campionamento areale per una indagine
sulle famiglie, sono primarie le unità territoriali selezionate
al primo stadio (può trattarsi di comuni, di isolati cittadini,
etc.). Il termine è talvolta usato per denotare unità statistiche
di record di base che non derivano da alcun calcolo, per esempio, persone,
tonnellate etc..
Unità
secondaria
Nel
campionamento su più stadi, è un’unità selezionata
al secondo stadio. Se gli stadi di campionamento sono due, le unità
secondarie si dicono anche finali, e possono o no coincidere con le unità
di rilevazione.
Unità
sovrapposte, campionamento di
Unità
della popolazione dalla quale si traggono campioni che possono non essere
mutuamente esclusivi. Se, per qualsiasi motivo (mappe, unione di liste
diverse etc.), le unità sono del tutto o in parte sovrapposte, il
campionamento può essere comunque svolto, ma vanno applicate metodiche
di stima particolari per ottenere stime corrette.
Unità
sperimentale
Unità
sulla quale si effettua un esperimento statistico.
Unità
statistica
Unità
elementare della popolazione statistica. Può trattarsi di una persona
fisica (il censito, il dimesso da un istituto di cura), di una persona
giuridica (l’impresa), di un’istituzione (un istituto scolastico), di un
evento (un matrimonio, una nevicata) etc. Si possono individuare vari tipi
di unità statistiche: in relazione alla completezza della rilevazione,
si hanno unità campionarie e unità della popolazione, in
relazione alla fase dell’indagine, si hanno unità di campionamento,
unità di rilevazione, unità d’informazione, unità
di analisi, unità di tabulazione etc..
Universo statistico (v. Popolazione statistica)
Validazione (v. Convalida)
Validità - Valido, strumento, dato statistico Riferito ad uno strumento di misurazione, ad una tecnica o ad una procedura di rilevazione e di analisi, etc., esprime la rispondenza agli scopi per i quali lo strumento è predisposto. Il termine mantiene gli stessi significati anche se riferito al dato statistico, poiché validità del dato significa, sostanzialmente, rispondenza dello stesso agli obiettivi della ricerca per la quale è stato creato e a criteri statistici di attendibiltà e trasparenza. Si veda anche "convalida".
Valore
abnorme, anomalo, outlier
Valore
estremo di un distribuzione che si caratterizza per essere a-normale. E’
talvolta indicato con il termine inglese outlier. Può trattarsi
di un dato estremo effettivo oppure di un errore di registrazione. L’individuazione
dei valori anomali è spesso preliminare alle elaborazioni statistiche
a fini di analisi.
Valore
atteso
Risultato
dell’applicazione dell’operazione matematica "media" ad una statistica
dipendente da dati campionari e avente una distribuzione statistica. Il
valore atteso non è necessariamente il più frequente, può
addirittura non avere riscontro empirico. Si pensi, ad esempio, ad una
variabile che può assumere solo i valori 0 e 1, il cui valore atteso
è P, frequenza di possesso dell’attributo, che è un valore
compreso tra 0 e 1. Il valore atteso di un dato elementare è la
media dei valori osservabili se si realizzassero prove ripetute nelle stesse
condizioni osservazionali presso la stessa unità statistica: in
assenza di errore sistematico, il valore atteso coinciderà con il
valore vero dell’unità.
Valore
medio
Classe
generale di funzioni della distribuzione di una variabile dati dalla attesa
matematica della funzione estesa all’intero campo di variazione della variabile.
Il valore medio si esprime comunemente con il simbolo E (expectation).
Valore osservato (v. Valore rilevato)
Valore
predittivo, di strumento di misura
Rapporto,
spesso presentato in forma percentuale, di unità che effettivamente
possiedono un attributo e il numero di unità che lo strumento di
misura ha evidenziato come possessori dell’attributo. Il valore predittivo
di test si dice "positivo" se riguarda la ricerca di unità che possiedono
un attributo, "negativo" se riguarda quelle che non lo possiedono. Per
esempio, di un test diagnostico clinico si dice che ha valore predittivo
positivo pari a 95% se il 95% dei soggetti che sono risultati positivi
al test sono effettivamente malati; si dice che ha valore predittivo negativo
100% se tutti coloro che sono risultati negativi al test sono sani.
Valore
rilevato, osservato
Modalità
del carattere in esame accertata con la rilevazione su un’unità
statistica.
Valore
vero
Nel
microdato, è la modalità del carattere in esame posseduta
dall’unità statistica. Nel macrodato, può essere inteso come
una misura esattamente corrispondente a ciò che nella realtà
esiste. Il valore vero si considera per definire gli scarti teorici dal
vero delle singole osservazioni o delle stime da queste dedotte. Quando
si tratti di caratteri qualitativi, il valore vero può essere delineato
con minore ambiguità di quello di caratteri quantitativi. Per esempio,
è poco ambiguo il sesso, ma non lo stato civile (bisognerebbe precisare
"anagrafico", dato che esistono le unioni consensuali), né l’attività
economica prevalente (a meno che non si definisca il criterio per stabilire
la prevalenza). Per caratteri nominali, lo scostamento del dato osservato
dal vero è valutabile solo in termini dicotomici identità/diversità.
Per caratteri ordinali, si può valutare lo scostamento in termini
di distanza tra i ranghi vero e rilevato. Se il carattere è quantitativo,
il valore vero è un valore ideale: la lunghezza di una barretta
d’acciaio è continuamente variabile in funzione della temperatura,
il rapporto dei sessi nella popolazione presente varia con continuità
nel tempo. Quindi, si può parlare di valore vero solo con riferimento
ad un determinato istante. Per chi nega che esista un valore vero, esso
può essere concepito come un dato astratto, opportunamente definito
per definire un grado di importanza degli scarti.
Valori
estremi
Valori
più grandi o più piccoli di una distribuzione. In senso più
generale, l’espressione significa i valori prossimi alla coda di una distribuzione.
Variabile
(statistica)
Qualsiasi
quantità che varia, ossia che può assumere più valori.
Si contrappone in questo senso a costante. Una variabile statistica è
una variabile con una specificata distribuzione di frequenza o di probabilità
che esprime quanto spesso i valori ammessi appaiono nella situazione descritta.
Si denomina per questo anche "variabile casuale".
Variabile aleatoria (v. Variabile)
Variabile casuale (v. Variabile)
Variabile
chiave
Variabile
pubblica presente in un archivio per il quale si sospetta che esista il
rischio di violazione del segreto statistico. Affinché il rischio
di violazione sia reale, è necessario che la stessa variabile sia
contenuta in archivi esterni attraverso i quali si può risalire
alle unità statistiche che compongono l’archivio pubblico.
Variabile
pubblica
Variabile
contenuta in un registro accessibile al pubblico. Può trattarsi
delle informazioni anagrafiche sulle persone o sulle famiglie, delle informazioni
registrate sul registro delle imprese della CERVED etc. Queste variabili
sono considerate per valutare il rischio di violazione del segreto statistico
su dati ufficiali. Fra le variabili pubbliche è importante distinguere
quelle territoriali: comune, provincia, regione di residenza etc.
Variabile riservata (v. Variabile sensibile)
Variabile
sensibile
Variabile
attinente alla sfera strettamente personale del rispondente. Per queste
variabili non esiste l’obbligo di risposta. Tra le materie per le quali
non vale l’obbligo di risposta, il D.Lgs. 322/1989, all’art. 7, include
l’origine razziale, le opinioni politiche e ideologiche, le convinzioni
religiose, lo stato di salute, la vita sessuale, le condanne penali subite,
ed ogni altra ipotesi prevista da leggi nazionali o accordi internazionali
ratificati dall’Italia.
Variabile stocastica (v. Variabile)
Variabilità
Grado
di dispersione delle osservazioni. Si misura di solito con la media degli
scarti dei valori osservati attorno a una misura di centralità (scarto
quadratico medio e varianza attorno alla media, scarto medio assoluto attorno
alla mediana), oppure con una statistica ordinata (scarto o deviazione
interquartile, campo di variazione), o anche tra le osservazioni stesse
(differenza media di Gini).
Varianza campionaria Varianza basata sulla rilevazione campionaria, data dalla media del quadrato degli scarti delle osservazioni campionarie dalla media campionaria. La varianza campionaria è una stima distorta della varianza della popolazione. Per stimare correttamente la varianza della popolazione, si dovrà dividere la somma del quadrato degli scarti per n-1, dove n è la dimensione campionaria.
Varianza
correlata di risposta
Varianza
di uno stimatore affetta da errori (variabili) di risposta tra loro linearmente
dipendenti. Le varianze correlate di risposta si identificano con le fonti
di errore: (a) la "varianza del rilevatore", originata dal condizionamento
esercitato dai rilevatori sulle risposte ottenute nel’indagine, (b) la
"varianza del codificatore", originata dall’analogo effetto dei codificatori
nel tradurre in codici le risposte rilevate "in chiaro", ossia in forma
di discorso, (c) la "varianza del supervisore", funzione del condizionamento
esercitato dai supervisori, o dalle persone preposte all’addestramento,
sugli addetti alla rilevazione, (d) un "effetto scuola", che si può
concepire come l’effetto del condizionamento globalmente esercitato da
chi svolge l’indagine sulla struttura di rilevazione. Se si amplia il concetto
all’analisi dei dati, si possono individuare altri effetti sulle stime
di revisori dei dati, di analisti etc. L’effetto di un operatore addetto
alla formazione dei dati si dice correlato perché, facendo variare
nello stesso senso gli errori di rilevazione di tutte le unità con
cui è entrato in contatto, diretto o indiretto, genera una "correlazione
degli errori" delle dette unità. Il concetto, che ha rilevanza apparentemente
solo teorica, è di considerevole importanza nella progettazione
di indagini, dato che, ad elevati errori di questo tipo, deve corrispondere
un contenimento nel "carico di lavoro" per addetto.
Varianza
del codificatore
Misura
della variabilità indotta sulle stime dall’azione dei codificatori.
Ha proprietà statistiche e si calcola in modo analogo alla varianza
del codificatore. Per le variabili per cui rilevatore e codificatore coincidono,
ossia per una domanda a risposte chiuse, la varianza dovuta all’azione
del codificatore si considera un tutt’uno con quella del rilevatore. L’effetto
del codificatore si manifesta sulle stime anche se il codificatore è
unico. Per misurare la varianza del codificatore si ricorre alla compenetrazione
delle assegnazioni dei codificatori o al confronto tra codici di osservazioni
ottenuti indipendentemente da più codificatori.
Varianza dell’intervistatore (v. Varianza del rilevatore)
Varianza
del rilevatore
Misura
della variabilità indotta sulle stime dall’azione dei rilevatori
nella fase di raccolta dei dati. Si calcola in base agli scarti quadratici
tra il valor medio delle osservazioni ottenute dai singoli rilevatori e
la media globale: quanto più i singoli valori medi sono distanti
dalla media globale, tanto più si considera elevato l’errore dei
rilevatori. Varianza del rilevatore è, dunque, utilizzata come sinonimo
di "varianza dei rilevatori". E’ una varianza correlata degli errori di
risposta. Se, infatti, si denota con [Image]la varianza elementare di risposta,
con [Image]il coefficiente di correlazione intra-intervistatore e con n
il numero medio di unità osservate da ognuno degli intervistatori
impiegati per la raccolta dei dati ("carico di lavoro"), la varianza tra
errori di risposta imputabili agli intervistatori si può anche scrivere
[Image], da cui si evince che la varianza dovuta ai rilevatori cresce sia
a causa della scarsa qualità del lavoro degli intervistatori, sia
a causa del carico medio di lavoro. Per misurare la varianza del rilevatore,
si può applicare la tecnica della compenetrazione delle assegnazioni
dei rilevatori.
Varianza
del rispondente
Misura
della variabilità indotta sulle stime dall’operato erratico dei
rispondenti. E’ originata soprattutto da errori di memoria, da approssimazioni
e da confusione accidentale nel riportare i dati. Si calcola in funzione
degli scarti tra i valori ottenibili in prove ripetute presso lo stesso
rispondente e il suo valore vero: quanto più è erratica la
risposta data, tanto più sarà elevata la varianza. In un
certo senso, questa ipotesi implica l’esistenza di una distribuzione di
valori possibili attorno al valor vero di ogni soggetto, tali valori essendo
determinazioni casuali del valor vero stesso in condizioni osservazionali
casualmente differenti. Per misurare la varianza del rispondente è
necessario disporre di almeno due misure dello stesso valore. Le tecniche
cui si ricorre sono: la "reintervista" delle persone che hanno collaborato
all’indagine principale e la "rilevazione indipendente di più osservatori
dello stesso fenomeno".
Varianza
di campionamento delle stime
Varianza
di una qualsiasi statistica del campione calcolata sull’universo dei campioni
associato ad un determinato piano di campionamento. La radice quadrata
della varianza di campionamento delle stime di denomina "errore di campionamento".
Varianza di rilevazione (v. Varianza di risposta)
Varianza
di risposta
Parte
di varianza di stima dovuta ad errori di rilevazione in una indagine statistica.
Compongono la varianza di risposta le varianze dei rispondenti, dei rilevatori,
degli eventuali supervisori. La varianza dei rispondenti è di tipo
incorrelato, quelle dei rilevatori e dei supervisori sono di tipo correlato.
La varianza di risposta costituisce la parte più cospicua della
varianza extracampionaria, tanto che le componenti della variabilità
di risposta, assieme a quella degli eventuali codificatori di domande in
chiaro, sono quelle normalmente considerate nella specificazione della
variabilità di natura extracampionaria.
Varianza
di stima
Varianza
di uno stimatore attorno al proprio valore atteso. E’ sinonimo di "varianza
globale di stima". E’ data dalla somma delle varianze dovute alle singole
componenti di variabilità, quella campionaria, quella extracampionaria
e la covarianza tra le due componenti. In senso più ampio, l’espressione
si intende anche come la varianza degli errori che si commettono nelle
ripetizioni di una situazione sperimentale, dove gli errori sono di origine
campionaria o di altra fonte.
Varianza
elementare di risposta
Elementare,
o semplice, o incorrelata, è la varianza di una stima affetta da
errori (variabili) di risposta tra loro indipendenti. Dato un insieme di
N unità statistiche, la varianza elementare di risposta è
il valore medio degli scarti quadratici dell’errore di risposta atteso
per le singole unità. Ciò implica che un’osservazione è
idealmente ripetibile sotto identiche condizioni essenziali, o, equivalentemente,
che un dato elementare ha una precisa, anche se ignota, distribuzione di
probabilità
dalla
quale, di volta in volta, si trae per un’indagine specifica. Siccome, in
una indagine, non è possibile ripetere l’osservazione del campione
dato se non svolgendo l’osservazione sotto condizioni che hanno almeno
un termine di riferimento diverso, il concetto di ripetibilità va
inteso in senso lato.
Varianza
extracampionaria
Parte
di varianza di stima indotta dalla presenza nei dati di errori extracampionari
variabili. Comprende la varianza di risposta o di rilevazione, la varianza
dovuta a codifiche di risposte a domande a risposta aperta, la varianza
per errori commessi nella fase di memorizzazione dei dati e nella successiva
revisione, ed altro ancora inerente al processo di formazione dei dati.
Si tratta di una varianza che accompagna ogni stima, anche quelle basate
su rilevazioni esaustive.
Varianza globale di stima (v. Varianza di stima)
Varianza incorrelata di risposta (v. Varianza elementare di risposta)
Varianza
relativa
Quadrato
del "coefficiente di variazione".
Varianza
residua
Parte
di varianza di un insieme di dati che rimane dopo la rimozione di qualche
effetto sistematico. Misura la parte di variabilità non spiegata
da modelli interpretativi della variabilità della grandezza in esame.
Varianza semplice di risposta (v. Varianza elementare di risposta)
Variazione ciclica, di una serie (v. Ciclo)
Variazione di lunga durata, trend, di una serie (v. Trend)
Variazione sistematica (v. Sistematico)
Variazione
stagionale
In una
serie temporale, è una oscillazione che si ipotizza essere effetto
delle stagioni dell’anno, come le variazioni stagionali della piovosità.
Talvolta l’espressione è utilizzata nel senso più ampio di
oscillazioni generate da influenze esterne, come i comportamenti d’acquisto
delle famiglie. Tutte le variazioni a carattere nettamente periodico sono
di tipo analogo, e il periodo può essere la settimana (variazioni
giornaliere), il giorno (variazioni orarie) etc.
Variogramma
Rappresentazione
grafica simile al correlogramma che mostra la funzione delle variazioni
seriali in ordinata.
Video-CASI
Sistema
di somministrazione di questionari da autocompilare assistito da computer
(CASI - Computer Assisted Self-administered Interviewing) con domande somministrate
mediante un sistema video.
Violazione
del segreto statistico (v. Segreto statistico)