R mette a disposizione una vasta gamma di funzioni per ottenere un analisi descrittiva dei dati.
Una di queste funzioni è sapply()
# ottenere la media del dataframe mydata # escludendo i valori mancanti sapply(mydata, mean, na.rm=TRUE)
Le funzioni che si possono usare con sapply(), per un analisi descrittiva, sono:
mean (media)
sd (deviazione standard)
var (variabilità )
min (minimo)
max (massimo)
median (mediana)
range (campo di variazione)
quantile (quantile)
Vediamo altre funzioni che permettono un analisi descrittiva completa:
Per avere media, mediana 25th e 75th quartile, minimo e massimo
Per i numeri di Tukey (minimo, hinge inferiore, mediana, hinge superiore, massimo)
fivenum(x)
Vediamo altri package per l’ analisi descrittiva in R
Hmiscpackage
library(Hmisc) describe(mtcars$carb) mtcars$carb n missing distinct Info Mean Gmd 32 0 6 0.929 2.812 1.718 Value 1 2 3 4 6 8 Frequency 7 10 3 10 1 1 Proportion 0.219 0.312 0.094 0.312 0.031 0.031
pastecspackage
library(pastecs) stat.desc(mtcars$carb) nbr.val nbr.null nbr.na min max range sum median 32.0000000 0.0000000 0.0000000 1.0000000 8.0000000 7.0000000 90.0000000 2.0000000 mean SE.mean CI.mean.0.95 var std.dev coef.var 2.8125000 0.2855297 0.5823417 2.6088710 1.6152000 0.5742933
psychpackage
library(psych) describe(mtcars$carb) vars n mean sd median trimmed mad min max range skew kurtosis se X1 1 32 2.81 1.62 2 2.65 1.48 1 8 7 1.05 1.26 0.29
Statistiche riassuntive per gruppo
Un modo semplice per generare statistiche riassuntive raggruppando le variabili è disponibile nel package psych.
library(psych) describe.by(mydata, group,...)
Il package doBy fornisce alcune funzioni di SAS PROC SUMMARY.
Ecco come utilizzarla
library(doBy) summaryBy(mpg + wt ~ cyl + vs, data = mtcars, FUN = function(x) { c(m = mean(x), s = sd(x))})
Guarda tutti i tutorial di Statistica oppure torna su R tutorial.
Commenti recenti