Analisi descrittiva in R

R mette a disposizione una vasta gamma di funzioni per ottenere un analisi descrittiva dei dati. L’analisi descrittiva dei dati è una tecnica statistica utilizzata per descrivere e riassumere i dati raccolti in un determinato set di osservazioni. L’obiettivo dell’analisi descrittiva dei dati è di fornire un’immagine chiara e concisa dei dati, evidenziando le loro caratteristiche principali, come la distribuzione dei dati, la loro media, varianza, deviazione standard e eventuali relazioni tra le variabili. In questo modo, l’analisi descrittiva dei dati fornisce una base solida per ulteriori analisi statistiche e per comprendere il comportamento dei dati in modo più approfondito.

Una di queste funzioni è sapply()

# ottenere la media del dataframe mydata
# escludendo i valori mancanti
sapply(mydata, mean, na.rm=TRUE)

Le funzioni che si possono usare con sapply(), per un analisi descrittiva, sono:
mean (media)
sd (deviazione standard)
var (variabilità )
min (minimo)
max (massimo)
median (mediana)
range (campo di variazione)
quantile (quantile)

Vediamo altre funzioni che permettono un analisi descrittiva completa:

Per avere media, mediana 25th e 75th quartile, minimo e massimo

summary(mydata)

Per i numeri di Tukey (minimo, hinge inferiore, mediana, hinge superiore, massimo)
fivenum(x)

Vediamo altri package per l’ analisi descrittiva in R

Hmisc package

library(Hmisc)
describe(mtcars$carb)
mtcars$carb
n missing distinct Info Mean Gmd
32 0 6 0.929 2.812 1.718

Value 1 2 3 4 6 8
Frequency 7 10 3 10 1 1
Proportion 0.219 0.312 0.094 0.312 0.031 0.031

pastecs package

library(pastecs)
stat.desc(mtcars$carb)
nbr.val nbr.null nbr.na min max range sum median
32.0000000 0.0000000 0.0000000 1.0000000 8.0000000 7.0000000 90.0000000 2.0000000
mean SE.mean CI.mean.0.95 var std.dev coef.var
2.8125000 0.2855297 0.5823417 2.6088710 1.6152000 0.5742933

psych package

library(psych)
describe(mtcars$carb)
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 32 2.81 1.62 2 2.65 1.48 1 8 7 1.05 1.26 0.29

Statistiche riassuntive per gruppo

Un modo semplice per generare statistiche riassuntive raggruppando le variabili è disponibile nel package psych.

library(psych)
describe.by(mydata, group,...)

Il package doBy fornisce alcune funzioni di SAS PROC SUMMARY.

Ecco come utilizzarla

library(doBy)
summaryBy(mpg + wt ~ cyl + vs, data = mtcars,
FUN = function(x) { c(m = mean(x), s = sd(x))})

Guarda tutti i tutorial di Statistica oppure torna su R tutorial.

Immagine di Freepik

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Iscriviti alla nostra newsletter

Tieniti aggiornato sulle ultime novità riguardo la XAI e il Deep Learning.