21/10/2019

From Business problems to Data Science questions

Ogni progetto di business che coinvolge una componente di analisi dati è univoco, data la sua peculiare combinazione di obiettivi, vincoli, persone che fanno parte. E’ però possibile catalogare, anche se con qualche sovrapposizione, le particolari domande alle quali l’analisi dati può rispondere. Per queste domande, esistono metodi standard con i quali ottenere risposte.

La traduzione del problema di business ai task di analisi dati fa parte del primo compito Business understanding che lo standard CRISP-DM si consiglia di affrontare per risolvere un problema di analisi dati (Figura 1).

Figura 1: Standard di processo CRISP-DM per la risoluzione di problemi di analisi dati.
Figura 1: Standard di processo CRISP-DM per la risoluzione di problemi di analisi dati.

Una classificazione dei task risolvibili con l’analisi dati è stata proposta in [1]:

  1. Classificazione e stima della probabilità di appartenere ad una classe (Classification and class probability estimation)

  2. Regressione (Regression)

  3. Modellazione causale (Causal modeling)

  4. Associazione per similarità (Symilarity matching)

  5. Predizione di connessioni (Link prediction)

  6. Riduzione dimensionale dei dati (Data reduction)

  7. Raggruppamento (Clustering)

  8. Raggruppamento per co-occorrenza (Co-occurrence grouping)

  9. Profilazione (Profiling)

Per ogni task sopra-elencato, esistono strumenti e metodologie standard per la loro risoluzione. Un passaggio molto importante per risolvere un problema di business è quindi quello di:

  1. Decomporre il problema in oggetto in più sotto-problemi

  2. Tradurre ogni sotto-problema di business in un task analisi dati, associando ogni sotto-problema a metodologie note per la sua risoluzione

Esempi di problemi di business con relativa associazione a task di analisi dati sono:

  • Sistema di rilevamento e-mail spam CLASSIFICAZIONE

  • Trovare la relazione tra prezzi delle case e dimensione delle case REGRESSIONE

  • Segmentazione del mercato CLUSTERING

  • Market-basket analysis CO-OCCURRENCE GROUPING

  • Ricerca di documenti simili ad una query SIMILARITY MATCHING

  • Analisi delle reti sociali LINK PREDICTION

  • Riduzione dimensionalità dati ai fini di rappresentazione visuale DATA REDUCTION

Riferimenti

[1] Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.".