Analisi descrittiva in R

R mette a disposizione una vasta gamma di funzioni per ottenere un analisi descrittiva dei dati. L’analisi descrittiva dei dati è una tecnica statistica utilizzata per descrivere e riassumere i dati raccolti in un determinato set di osservazioni. L’obiettivo dell’analisi descrittiva dei dati è di fornire un’immagine chiara e concisa dei dati, evidenziando le loro caratteristiche principali, come la distribuzione dei dati, la loro media, varianza, deviazione standard e eventuali relazioni tra le variabili. In questo modo, l’analisi descrittiva dei dati fornisce una base solida per ulteriori analisi statistiche e per comprendere il comportamento dei dati in modo più approfondito.

Una di queste funzioni è sapply()

# ottenere la media del dataframe mydata # escludendo i valori mancanti sapply(mydata, mean, na.rm=TRUE)

Le funzioni che si possono usare con sapply(), per un analisi descrittiva, sono:
mean (media)
sd (deviazione standard)
var (variabilità )
min (minimo)
max (massimo)
median (mediana)
range (campo di variazione)
quantile (quantile)

Vediamo altre funzioni che permettono un analisi descrittiva completa:

Per avere media, mediana 25th e 75th quartile, minimo e massimo

summary(mydata)

Per i numeri di Tukey (minimo, hinge inferiore, mediana, hinge superiore, massimo)
fivenum(x)

Vediamo altri package per l’ analisi descrittiva in R

Hmisc package

library(Hmisc) describe(mtcars$carb) mtcars$carb n missing distinct Info Mean Gmd 32 0 6 0.929 2.812 1.718 Value 1 2 3 4 6 8 Frequency 7 10 3 10 1 1 Proportion 0.219 0.312 0.094 0.312 0.031 0.031

pastecs package

library(pastecs) stat.desc(mtcars$carb) nbr.val nbr.null nbr.na min max range sum median 32.0000000 0.0000000 0.0000000 1.0000000 8.0000000 7.0000000 90.0000000 2.0000000 mean SE.mean CI.mean.0.95 var std.dev coef.var 2.8125000 0.2855297 0.5823417 2.6088710 1.6152000 0.5742933

psych package

library(psych) describe(mtcars$carb) vars n mean sd median trimmed mad min max range skew kurtosis se X1 1 32 2.81 1.62 2 2.65 1.48 1 8 7 1.05 1.26 0.29

Statistiche riassuntive per gruppo

Un modo semplice per generare statistiche riassuntive raggruppando le variabili è disponibile nel package psych.

library(psych) describe.by(mydata, group,...)

Il package doBy fornisce alcune funzioni di SAS PROC SUMMARY.

Ecco come utilizzarla

library(doBy) summaryBy(mpg + wt ~ cyl + vs, data = mtcars, FUN = function(x) { c(m = mean(x), s = sd(x))})

Guarda tutti i tutorial di Statistica oppure torna su R tutorial.

Immagine di Freepik

Analisi descrittiva in R

Statistiche riassuntive per gruppo

Lascia una rispostaCancella risposta

Unire Data Frame in Python: Semplici metodi per combinare dati

Intelligenza Artificiale e sostenibilità: Impatti e opportunità

Ottimizzare le prestazioni del Deep Learning

Statistiche riassuntive per gruppo

Lascia una rispostaCancella risposta

Di tendenza

Unire Data Frame in Python: Semplici metodi per combinare dati

Intelligenza Artificiale e sostenibilità: Impatti e opportunità

Ottimizzare le prestazioni del Deep Learning