Formazione

In ogni contesto una corretta decisione deve prendere in considerazione tutti gli elementi ed i dati rilevanti a disposizione. Con la diffusione capillare dei social network e degli smartphone e con la crescita esponenziale del traffico dati su internet, un'enorme mole di informazioni viene automaticamente generata in conseguenza di tante attività quotidiane ed ignorarla porterebbe a prendere decisioni non ottimali in taluni contesti. L’enorme avanzamento nelle tecniche computazionali applicate alla gestione ed analisi di questi 'big data' ha portato alla nascita di una nuova disciplina quantitativa: la Data Science. Al contempo, però, la necessità di analizzare automaticamente grandi quantità di dati rende indispensabile la formulazione di modelli che possano descrivere il processo di interesse per l'analisi, così da rendere possibile l'interpretazione di trend e correlazioni rilevati, distinguendo in particolare tra le correlazioni casuali che rischiano di invalidare le conclusioni dell'analisi e le correlazioni effettivamente esistenti. In questo corso, verranno presentate le principali tecniche utilizzate per analizzare automaticamente grandi moli di dati, con particolare attenzione per gli algoritmi di classificazione e di machine learning che possono aiutare ad estrarre informazioni dai dati. Inoltre verranno richiamate le basi del ragionamento probabilistico inferenziale che giocano un ruolo di primo piano nella valutazione dei risultati dell'analisi automatica e nella validazione dei parametri di un modello. A supporto del corso verrà introdotto il linguaggio R, uno degli strumenti più potenti e flessibili per le applicazioni di Data Science, divenuto ormai uno standard de facto in questo ambito: la presenza di numerose funzioni specifiche per operazioni di analisi statistica dei dati, assieme alla natura open source e all’esistenza di una vasta community di sviluppatori che contribuiscono allo sviluppo di numerose componenti addizionali, fanno di R un ottimo strumento per sviluppare applicazioni di Data Science. Infine verranno presentate alcune delle componenti più diffuse per la gestione di grandi moli di dati, con particolare attenzione per i programmi dell’ecosistema di Hadoop ed il modello di programmazione MapReduce. Il corso sarà accompagnato da numerosi esercitazioni in cui le principali funzioni del linguaggio di programmazione R saranno utilizzate per analizzare alcuni dataset pubblici provenienti dalla letteratura o da basi dati Open Data e per scaricare informazioni direttamente da pagine web, per integrarle nella formulazione di modelli predittivi.

Contenuti del corso

  1. Introduzione alla Data Science
    Cosa eè la Data Science; quale valore si nasconde nei dati; potenziali rischi nell’applicazione acritica degli strumenti della Data Science.
  2. Il ragionamento probabilistico bayesiano
    Richiami sui concetti di probabilità ed incertezza; problemi nel valutare in modo consistente e coerente le probabilità; l’approccio bayesiano ed il processo inferenziale; costruzione di un modello probabilistico e sua importanza nelle applicazioni reali; valutazione del modello.
  3. Il linguaggio di programmazione R e la Data Science
    Breve introduzione all’ambiente di programmazione R e alle sue funzioni di base; visualizzare i dati in maniera efficace; gli algoritmi di regressione, classificazione e machine learning in R; usare R per analizzare big data.
  4. Raccogliere ed organizzare dati social e dati non strutturati
    Algoritmi per automatizzare la ricerca di dati; tecniche e API per estrarre dati di interesse dalla rete; come organizzare i dati non strutturati per facilitare la loro analisi.
  5. Tecniche di Data Mining & Machine Learning
    Ricerca di pattern e informazioni nei dati; tecniche di clustering (clustering partitivo e clustering gerarchico) e utilizzo di diverse metriche di similarità; algoritmi di machine learning: algoritmi di classificazione automatizzati, random forest, reti neurali, reti bayesiane, kNN.

È preferibile prevedere anche senza certezza alcuna,
che non prevedere affatto
Henri Poincare

Questo sito web utilizza i cookie per capire come viene utilizzato il sito e per permettere l'accesso all'area riservata. I cookie non permettono di identificare l'utente. I cookie sono salvati sul tuo browser e sono utlizzati per personalizzare la tua esperienza sul nostro sito web. Continuando la navigazione sul nostro sito senza modificare le impostazioni, accetti il nostro utilizzo dei cookie. Comunque potrai modificare le tue impostazioni dei cookie in qualsiasi momento.