Unire Data Frame in Python: Semplici metodi per combinare dati

Introduzione

Unire data frame in Python è una pratica fondamentale per consolidare e integrare le informazioni contenute in diverse origini dati. L’analisi dei dati spesso richiede la combinazione di più set di dati per ottenere una visione completa e significativa delle informazioni. In Python, i data frame sono strutture dati molto utili per gestire e manipolare i dati tabulari. Quando ci troviamo di fronte a più data frame, è essenziale sapere come unirli in modo efficace per ottenere risultati accurati e coerenti.

Questo articolo si concentra su due importanti metodi per unire data frame in Python: unione per colonne e unione per righe. La sezione “Unire due data frame in Python per colonne” illustra come combinare i dati in base alle colonne comuni tra i data frame, mentre la sezione “Unire due data frame in Python per righe” descrive come unire i dati in base alle righe corrispondenti tra i data frame.

Attraverso esempi di codice dettagliati e spiegazioni chiare, impareremo come utilizzare i potenti strumenti offerti dalla libreria pandas di Python per effettuare queste operazioni di unione.

Esploreremo come utilizzare i metodi appropriati per combinare dati da diverse origini, consentendoci di ottenere una prospettiva completa sui nostri dati e svolgere analisi più approfondite. Sia che tu sia un principiante che si avvicina all’elaborazione dei dati con Python o un professionista esperto che desidera approfondire le proprie competenze, questo articolo ti guiderà attraverso i fondamenti dell’unione dei data frame e ti fornirà gli strumenti necessari per ottenere risultati di qualità.

Unire due data frame per colonne

Quando si lavora con data frame in Python, spesso ci troviamo nella situazione in cui dobbiamo unire due o più data frame in base alle colonne comuni. Questo processo ci consente di combinare le informazioni da diverse fonti in un unico data frame, ampliando così la nostra comprensione dei dati. Vediamo ora come effettuare questa operazione utilizzando il modulo pandas.

Esempio di codice:

import pandas as pd

# Creazione dei data frame di esempio
df1 = pd.DataFrame({'ID': [1, 2, 3],
                    'Nome': ['Alessandro', 'Irene', 'Alice'],
                    'Età': [25, 30, 35]})

df2 = pd.DataFrame({'ID': [1, 2, 4],
                    'Professione': ['Data Scientist', 'Programmatore', 'Analista']})

# Unione dei data frame in base alla colonna 'ID'
merged_df = pd.merge(df1, df2, on='ID')

# Visualizzazione del data frame combinato
print(merged_df)
#   ID        Nome  Età     Professione
#0   1  Alessandro   25  Data Scientist
#1   2       Irene   30   Programmatore

In questo esempio, abbiamo due data frame: df1 e df2. Il primo data frame contiene informazioni su ID, nome e età delle persone, mentre il secondo data frame contiene informazioni su ID e professione. Vogliamo unire questi due data frame in base alla colonna ‘ID’ per ottenere un unico data frame che includa tutte le colonne.

Utilizziamo il metodo merge() di pandas per effettuare l’unione. Passiamo i data frame df1 e df2 come argomenti e specifichiamo la colonna ‘ID’ come chiave di unione utilizzando il parametro on=’ID’.

Il risultato dell’unione viene assegnato al data frame merged_df. Possiamo visualizzare il data frame combinato utilizzando la funzione print().

L’unione dei data frame per colonne ci permette di combinare le informazioni in base a una colonna comune, creando così un nuovo data frame che include tutte le colonne dei data frame originali. Questo metodo è estremamente utile quando dobbiamo integrare dati da diverse fonti per ottenere un’analisi completa dei nostri dati.

Unire due data frame per righe

In alcuni casi, potrebbe essere necessario unire due data frame in Python in base alle righe corrispondenti, piuttosto che alle colonne comuni. Questo tipo di unione ci consente di combinare i dati in modo orizzontale, espandendo le informazioni per ogni riga. Vediamo come eseguire questa operazione utilizzando il modulo pandas.

Esempio di codice:

import pandas as pd

# Creazione dei data frame di esempio
df1 = pd.DataFrame({'ID': [1, 2, 3],
                    'Nome': ['Alessandro', 'Irene', 'Luciano']})

df2 = pd.DataFrame({'ID': [4, 5, 6],
                    'Nome': ['Paolo', 'Eva', 'Lorenzo']})

# Unione dei data frame utilizzando concat con axis=0
merged_df = pd.concat([df1, df2], axis=0, ignore_index=True)

# Visualizzazione del data frame combinato
print(merged_df)

#   ID        Nome
#0   1  Alessandro
#1   2       Irene
#2   3     Luciano
#3   4       Paolo
#4   5         Eva
#5   6     Lorenzo

Nell’esempio sopra, abbiamo due data frame: ‘df1’ e ‘df2’. Entrambi i data frame hanno le stesse colonne ‘ID’ e ‘Nome’, ma contengono valori diversi per queste colonne.

Successivamente, viene utilizzato il metodo concat() di pandas per unire i data frame df1 e df2 in un unico data frame combinato chiamato merged_df. L’argomento [df1, df2] specifica i data frame da unire, mentre axis=0 indica che l’unione deve essere effettuata per righe. L’opzione ignore_index=True garantisce che gli indici delle righe nel data frame combinato siano ri-generati senza sovrapposizioni o duplicati.

Infine, il risultato dell’unione viene stampato utilizzando la funzione print(), mostrando il data frame combinato che contiene tutte le righe e le colonne dai data frame originali df1 e df2.

In sostanza, il codice combina verticalmente i due data frame per righe, creando un nuovo data frame merged_df che contiene tutte le righe da entrambi i data frame di esempio.

Se ti è interessato l’articolo su python segui il nostro blog per altri interessanti argomenti alla sezione Tutorial di Python.

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Iscriviti alla nostra newsletter

Tieniti aggiornato sulle ultime novità riguardo la XAI e il Deep Learning.