Formare un team di Data Science di successo: regole e modelli da considerare

Il Machine Learning sta diventando sempre più alla portata anche delle medie e piccole imprese. I principali landing vendors come Google, Amazon, Microsoft e IBM, forniscono soluzioni API e piattaforme per un primo approccio di base al Machine Learning senza la necessità di disporre di infrastrutture private ed un’approfondita conoscenza di Data Science. Durante i primi step questo approccio risulta essere il più indicato. Grazie alla possibilità di veder aumentare le proprie capacità, un team può essere ridisegnato per incrementare la velocità e l’efficacia operativa ed estendere così l’attività di analisi.

In che modo è possibile agire per implementare questo tipo di approccio incrementale?

In questo articolo approfondiremo tutto ciò che riguarda la struttura e la complessità che caratterizzano i Team di Data Science.

Iniziare ad intraprendere un percorso di Data Science ed Analisi Predittive richiede una comprensione chiara di come l’iniziativa verrà introdotta, perseguita ed approfondita in termini di struttura e composizione del team. Consideriamo 3 principali composizioni del team a seconda della fase del processo di adozione del Machine Learning in cui ci troviamo.

 

IT-CENTRIC
Molto spesso assumere data scientist non rientra tra le opzioni perseguibili, è quindi necessario sfruttare il personale di cui già si dispone in-house. Il ruolo principale di analisi e leadership è quello del “Business Translator”, solitamente indicato come Chief Analytics Officer (CAO) o Chief Data Officer (CDO). Quest’ultimo termine risulta ormai ridondante in quanto gran parte delle attività di elaborazione dei dati oggi vengono svolte dale Analitiche Predittive. Ciò che riguarda la preparazione dei dati, la fase di training, la creazione dell’interfaccia utente, l’implementazione del modello all’interno di un’infrastruttura IT aziendale, può essere in gran parte gestito dal dipartimento IT.

Struttura IT-CENTRIC: pros

– Sfruttare i nuovi investimenti attraverso le risorse IT già presenti in azienda
– L’infrastruttura informatica è fornita e gestita tramite servizi esterni
– Il personale specializzato inhouse può essere formato per incrementare il potenziale delle Analitiche Predittive
– Riduzione della gestione crossilo in quanto tutte le operazioni sono svolte all’interno del reparto IT
– Riduzione time-to-market per le attività di apprendimento della macchina semplici e che richiedono uno o pochi modelli

Struttura IT-CENTRIC: cons

– I metodi di Machine Learning e le procedure di pulizia dei dati forniti dai servizi esterni esistenti sono limitati
– L’attività di allenamento dei modelli, test e predizione deve essere pagata. Ciò comporta l’incertezza dell’eventuale costo per predizione in quanto il numero di iterazioni necessarie non può essere stimato in anticipo.

 

STRUTTURA INTEGRATA
Con la struttura integrata, il team di Data Science si concentra sulla preparazione del set di dati e sulla formazione dei modelli, mentre gli specialisti IT si occupano dell’interfaccia e dell’infrastruttura supportando i modelli implementati. Tale combinazione risulta essere l’opzione più praticabile per operazioni di Machine Learning costanti e scalabili. A differenza dell’approccio IT-centric, il metodo integrato richiede la presenza nel team di un Data Scientist esperto e di una fase di reclutamento elaborata. Ciò al fine di garantire una maggiore e migliore flessbilità operativa in termini di tecniche disponibili. Sarà quindi possibile sfruttare strumenti e librerie di Machine Learning più approfonditi, come Tensor Flow o Theano, servizi progettati per ricercatori ed esperti nel campo del Data Science. Questa compagine permette di affrontare problemi aziendali altamente specifici e scegliere tra soluzioni di Machine Learning as-aservice e custom-built.

Struttura INTEGRATA: pros

– Sfruttare le risorse IT esistenti
– Data Scientist focalizzati sull’innovazione
– Totale utilizzo del potenziale delle applicazioni as-a-service e customizzate di Machine Learning
– Iniziare con uno o due Data Scientist, poi istruire ed assumere altri esperti
– Utilizzo di combinazioni di modelli personalizzate al fine di ottenere previsioni migliori o più ampie

Struttura INTEGRATA: cons

– È richiesta l’infrastruttura informatica in caso di utilizzo del Machine Learning personalizzato
– La gestione cross-sito richiede uno sforzo ed un impegno considerevoli
– Investimenti significativi per l’acquisizione di nuovi talenti nel campo del Data Science
– Sfida relativa all’assunzione ed al mantenimento nel team dei talenti in campo Data Science

 

DIPARTIMENTO DI DATA SCIENCE SPECIALIZZATO
Per ridurre gli sforzi di gestione e creare un framework di Machine Learning onnicomprensivo, è possibile affidare l’intero flusso di lavoro ad un dipartimento di Data Science indipendente. Questo approccio comporta, di conseguenza, costi più elevati. Tutte le operazioni, dalla pulizia dei dati e la formazione dei modelli, alla costruzione di interfacce front-end, sono realizzate da un team di Data Science dedicato. Ciò non significa necessariamente che tutti i membri del team debbano avere un background di Data Science, ma dovrebbero comunque predisporre o acquisire competenze nell’infrastruttura tecnologica e nella gestione dei servizi. Un team specializzato aiuta ad affrontare le diverse complesse attività di Data Science che includono la ricerca, l’uso di più modelli di Machine Learning adattati ai vari aspetti del modello decisionale e l’utilizzo di più servizi supportati dal Machine Learning. Nel caso delle grandi organizzazioni, i team specializzati possono integrare diverse unità aziendali ed operare, da un punto di vista analitico, nei loro specifici campi di interesse. La maggior parte delle aziende guidate da Intelligenza Artificiale operano con team specializzati. Ovviamente, essendo questi disegnati su misura e cablati per compiti specifici, sono tutti molto diversi. La struttura del team di Airbnb Data Science è una delle più interessanti.

Ecco di seguito i principi fondamentali che applicano:
Sperimentare. Trovare il modo di utilizzare ed inserire i dati in nuovi progetti seguendo un processo Learn– Plan – Test – Measure stabilito.
Democratizzare i dati. Allargare il team di Data Science all’intera azienda, inclusi i clienti.
Misurare l’impatto. Valutare quale ruolo svolge il tuo team di Data Science all’interno del processo decisionale e riconoscere i meriti.

Struttura DIPARTIMENTO SPECIALIZZATO: pros

– Gestione centralizzata e aumento delle capacità di risoluzione dei problemi
– Totale utilizzo del potenziale delle applicazioni as-a-service e customizzate di Machine Learning
– Risoluzione di problemi complessi di predizione che richiedono una ricerca approfondita o la costruzione di modelli segmentati (che operano automaticamente attraverso i differenti segmenti ed unità aziendali).
– Impostare un ambiente di Data Science completo per la promozione dell’innovazione – Maggior potenziale di scalabilità

Struttura DIPARTIMENTO SPECIALIZZATO: cons

– Riuscire a costituire e mantenere un’infrastruttura informatica complessa
– Richiesta di significativi investimenti per l’acquisizione di nuovi talenti nel campo del Data Science
– Sfida relativa all’assunzione ed al mantenimento nel team dei talenti

Altri Articoli:

Inserisci i tuoi dati qui sotto per continuare a leggere il contenuto: