Offerta Didattica

 

INFORMATICA

MATHEMATICS FOR DATA ANALYSIS

Classe di corso: L-31 - Scienze e tecnologie informatiche
AA: 2020/2021
Sedi: MESSINA
SSDTAFtipologiafrequenzamoduli
MAT/07BaseLiberaLiberaNo
CFUCFU LEZCFU LABCFU ESEOREORE LEZORE LABORE ESE
64024824024
Legenda
CFU: n. crediti dell’insegnamento
CFU LEZ: n. cfu di lezione in aula
CFU LAB: n. cfu di laboratorio
CFU ESE: n. cfu di esercitazione
FREQUENZA:Libera/Obbligatoria
MODULI:SI - L'insegnamento prevede la suddivisione in moduli, NO - non sono previsti moduli
ORE: n. ore programmate
ORE LEZ: n. ore programmate di lezione in aula
ORE LAB: n. ore programmate di laboratorio
ORE ESE: n. ore programmate di esercitazione
SSD:sigla del settore scientifico disciplinare dell’insegnamento
TAF:sigla della tipologia di attività formativa
TIPOLOGIA:LEZ - lezioni frontali, ESE - esercitazioni, LAB - laboratorio

Obiettivi Formativi

Conoscenza di tecniche e metodologie matematiche per l’estrazione di informazione da dati massivi (analisi delle componenti principali, analisi fattoriale, procedure di fitting e interpolazione) e per il processo di apprendimento dai dati.

Learning Goals

Knowledge of mathematical techniques and methodologies for information extraction from large data sets (principal component analysis, factorial analysis, fitting and interpolation procedures) and learning from data process.

Metodi didattici

Lezioni frontali ed esercitazioni guidate

Teaching Methods

Frontal lessons and guided exercitations

Prerequisiti

Algebra lineare, calcolo differenziale di funzioni reali di variabile reale, numeri complessi.

Prerequisites

Linear algebra, differential calculus of real functions, complex numbers.

Verifiche dell'apprendimento

Prova scritta ed esame orale sugli argomenti del corso.

Assessment

Written test and oral exam on the course topics.

Programma del Corso

Elemeti di teoria della probabilità: spazi di probabilità, assiomi della probabilità, probabilità condizionata e indipendenza, densità di probabilità, valori attesi, varianza, teorema di Bayes, inferenza bayesiana, campionamento. Elementi di algebra lineare: vettori e matrici, operazioni, norme, indipendenza lineare, rango di una matrice, inversa di una matrice, determinante, ortogonalità. Distanze e primi vicini: metriche, distanza euclidea, distanza di Mahalanobis, distanza angolare, divergenza di Kullback-Liebler, distanze tra insiemi e stringhe, distanza di Jaccard, distanza di modifica tra stringhe, k-gramma, similarità. Fitting: metodo dei minimi quadrati, regressione lineare con più variabili esplicative. regressione polinomiale, fitting di dati con un modello, validazione, metodo gradiente. Analisi delle componenti principali: dati matriciali, proiezioni, decomposizione ai valori singolari di matrici, autovalori e autovettori, scaling multidimensionale, analisi disciminante lineare, Clustering: diagrammi di Voronoi, triangolazione di Delaunay, algoritmo di Gonzalez, algoritmo di Lloyds, soft clustering, clustering gerarchico, outliers. Grafi: definizione e proprietà, catene di Markov, catene di Markov ergodiche, algoritmo Metropolis, pagerank, clustering spettrale su grafi. Big data: inttroduzione, tecniche di campionamento e approssimazione, modello di streaming, elementi frequenti.

Course Syllabus

Elements of Probability theory: probability spaces, axioms of probability, conditional probability and independence, probability density, expected values, variance, Bayes' theorem, Bayesian inference, sampling. Elements of Linear algebra: vectors and matrices, operations, norms, linear independence, rank of a matrix, inverse of a matrix, determinant, orthogonality. Distances and nearest neighbors: metrics, Euclidean distance, Mahalanobis distance, angular distance, Kullback-Liebler divergence, distances between sets and strings, Jaccard distance, modification distance between strings, k-grams, similarity. Fitting: least square method, simple linear regression, linear regression with multiple explanatory variables. polynomial regression, fitting data with a model, validation, gradient method. Principal component analysis: matrix data, projections, decomposition to singular values ​​of matrices, eigenvalues ​​and eigenvectors, multidimensional scaling, linear discriminating analysis, Clustering: Voronoi diagrams, Delaunay triangulation, Gonzalez algorithm, Lloyds algorithm, soft clustering, hierarchical clustering, outliers. Graphs: definition and properties, Markov chains, ergodic Markov chains, Metropolis algorithm, pagerank, spectral clustering on graphs. Big data: introduction, sampling and sketching techniques, the streaming model, frequent items.

Testi di riferimento: 1) Jeff M. Phillips. Mathematical foundations for data analysis, 2019. Disponibile online all'url http://www.cs.utah.edu/~jeffp/M4D/M4D.html 2) Gilbert Strang. Linear algebra and learning from data. Wellesey-Cambridge Press, 2019.

Elenco delle unità didattiche costituenti l'insegnamento

Docente: FRANCESCO OLIVERI

Orario di Ricevimento - FRANCESCO OLIVERI

GiornoOra inizioOra fineLuogo
Martedì 09:00 11:00Ufficio al I piano dell'Incubare d'impresa
Giovedì 09:00 11:00Ufficio al I piano dell'Incubare d'impresa
Note:
  • Segui Unime su:
  • istagram32x32.jpg
  • facebook
  • youtube
  • twitter
  • UnimeMobile
  • tutti