Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Come preparare i dati nel Machine Learning, in questo articolo analizzeremo tecniche e metodi per convertire i dati grezzi in una forma adatta alla modellizzazione. In linea di principio è un’operazione semplice (anche se spesso vengono sottovalutate tecniche e algoritmi molto utili allo scopo) ma molto importante. I requisiti necessari per la preparazione dei dati sono le basi di programmazione in Python o R. Per Python le librerie più comuni usate sono numpy usata per la manipolazione dei dati e scikit-learn per la modellizzazione dei dati. In R molte funzioni sono eseguibili già di base, alcuni package utili con diverse funzionalità sono Tidyverse o factoextra.
Le fasi necessarie su come preparare i dati nel Machine Learning (che tutti i professionisti dovrebbero conoscere) si articolano in diverse operazioni, ad esempio su come preparare i dati in modo da evitare
inconsistenza e quindi valutazioni errate dei modelli, oppure come identificare e gestire i problemi legati a dati anomali o valori mancanti. Importante anche identificare e rimuovere
variabili di input irrilevanti e ridondanti con i metodi di selezione delle variabili, come scalare le variabili di input o come codificare le variabili categoriche in variabili numeriche,
identificare il miglior metodo di selezione per i tuoi dati. Le operazioni di livello più avanzato ma che possono migliorare molto lo sviluppo del tuo modello di Machine Learning sono la trasformazione
delle distribuzioni di probabilità per le variabili di input, o metodi su come lavorare con dataset con variabili di diverse tipologie e infine su come ridurre le dimensioni delle variabili di input attraverso i metodi di proiezione
Possiamo riassumere queste operazioni di preparazione dei dati per il machine learning in
DATA CLEANING: Pulizia dei dati, come ordinarli, identificare le anomalie e gestire i valori mancanti con tecniche statistiche e di modellizzazione
SELEZIONE DELLE VARIABILI: Analizzeremo quelle tecniche statistiche e di modellizzazione per la selezione delle variabili
TRASFORMAZIONE DEI DATI: Trasformare le variabili e distribuzioni di probabilità delle variabili
TRASFORMAZIONE AVANZATA DEI DATI: Scoprire come gestire alcuni aspetti delle trasformazioni come la gestione di più tipologie di variabili
RIDUZIONE DELLE DIMENSIONALITA’: Come ridurre le dimensionalità del vostro dataset proiettando i dati in spazi di dimensionalità inferiore.
Troverai all’interno del nostro blog diverse guide nella sezione dei tutorial in R o in Python