EDA introd.: leggere i grafici e guidare l'analisi con librerie open source
About this event
Un workshop hands-on di 3 ore per chi si avvicina all'Exploratory Data Analysis e vuole imparare a leggere i grafici e a guidare l'analisi s
L'idea di base è: le librerie open source fanno il lavoro pesante di calcolo e visualizzazione; chi analizza dati impara a interpretare i grafici, a sceglierli in base a cosa rappresentano, e a impostare la sequenza dell'analisi. La prima ora e' una lezione frontale interattiva con tre poll che generano i dati che poi vengono analizzati nelle due ore di notebook. Si vede in pratica come si pulisce del testo libero e come si visualizza una distribuzione, una correlazione, una matrice di missing values. Se resta tempo, una sezione bonus applica gli stessi strumenti a tre dataset reali di scikit-learn: Iris, Wine, Diabetes.
Obiettivi del workshop:
- Riconoscere quando un grafico aiuta a capire i dati e quando li complica.
- Pulire risposte testuali eterogenee, distinguendo varianti morfologiche, da sinonimi semantici.
- Generare un'EDA completa su un DataFrame con librerie open source.
- Valutare lo stato di mantenimento di una libreria open source prima di adottarla in un progetto.
- Inquadrare l'EDA come ciclo iterativo, non come step lineare.
Prerequisiti del workshop:
Se non si vuole installare nulla in locale:
Laptop con accesso a Colab
Se si vuole usare il proprio locale:
Laptop con Python 3.12 o successivo, e Jupyter (lab o notebook): se usate un IDE, installate Jupyter da lì
Cosa potremmo installare sui notebook:
bash
pip install --upgrade dabl fg-data-profiling pygwalker smltk
Materiale fornito al workshop
- Slide
- Notebook visionati
- Repository di riferimento: bilardi/smltk
Source: eventbrite