650 (seicentocinquanta)

Il blog di KNIME

650 è il numero di articoli pubblicati, dal 2014 ad oggi, al link www.knime.com/blog, che corrisponde alla pagina del blog di KNIME, dove si parla di data science, machine learning, deep learning, IA generativa.

Gli autori sono persone di KNIME ma non solo. Sono presenti tantissimi articoli, ma non avevo idea di quanti fossero e come avrei potuto fare per averne una lista (la ricerca sul blog può essere fatta per argomento, autore o parola chiave, ma non esiste un elenco degli articoli o, almeno, io non l’ho trovato).

Armato di curiosità e di KNIME Analytics Platform, dopo avere ho scoperto che al link www.knime.com/blog/rss.xml si può scaricare una pagina in formato xml, in cui sono presenti tutte le informazioni del caso, ho deciso di fare qualche elaborazione per soddisfare la mia curiosità e, in questo articolo, vi racconterò quello che ho scoperto.

Il workflow che ho sviluppato è questo sotto, pubblicato nel mio spazio pubblico su https://hub.knime.com/falaimo a questo link .

L’indagine si è svolta rispetto a tre domande:

  • in quali anni, dal 2014 ad oggi, sono stati pubblicati più articoli?
  • chi è l’autore che, nel tempo, ha pubblicato più articoli?
  • è possibile associare a dei clusters gli autori sulla base del periodo di pubblicazione e del numero di articoli?

Nel seguito troverete le risposte a tutti e tre i quesiti.

In quali anni, dal 2014 ad oggi, sono stati pubblicati più articoli?

Ad oggi l’anno più produttivo è stato il 2022, ma dato che il 2024 non è ancora finito non è detto questo dato rimanga imbattuto.

Chi è l’autore che, nel tempo, ha pubblicato più articoli?

Nella top 10 degli autori si trovano Rosaria Silipo, cintura nera assoluta, seguita da articoli senza firma o firmati da KNIME Team e poi Paolo Tamagnini e Maarit Widmann.

Dalla Pivot che permette di ricavare queste info, si apprende anche che il totale di autori che ha contribuito finora è di ben 179!

È possibile associare a dei clusters gli autori sulla base del periodo di pubblicazione e del numero di articoli?

Questa è la domanda che ha richiesto più lavoro. L’idea è stata quella di associare ad ogni autore una terna di valori corrispondenti a:

  • anno di pubblicazione dell’articolo o degli articoli
  • mese di pubblicazione
  • numero di articoli nell’anno/mese di pubblicazione

ciò allo scopo di collocare nello stesso spazio delle caratteristiche le osservazioni simili. Per capire meglio questa affermazione, se due autori pubblicano, intorno allo stesso periodo, un numero di articoli confrontabile, allora la loro distanza sarà minima. C’è da dire che poiché lo stesso autore può avere ritmi di pubblicazione diversi, nel corso degli anni, questo può appartenere a più cluster. Questa elaborazione è stato eseguita utilizzando una tecnica di unsupervised learning denominata DBSCAN.

Si parte effettuando da un raggruppamento su autore, anno, mese di pubblicazione, per poi contare, una sola volta, i titoli pubblicati (nota: un autore può collaborare con un altri sullo stesso titolo). Questo costituisce la lista delle osservazioni che viene passata a DBSCAN.

Il risultato di questa elaborazione è costituito da cinque cluster che a breve andrò a descrivere.

Cominciamo col riportare l’elenco dei clusters e il numero di osservazioni associate (una osservazione contiene anno/mese di pubblicazione, autore, numero di articoli pubblicati nello stesso anno/mese). Il cluster Noise è costituito dalle osservazioni i che, nello spazio delle caratteristiche, hanno una posizione singolare (possiamo dire che sono degli outlier):

ClusterElementi
Noise6
Cluster_015
Cluster_13
Cluster_284
Cluster_3624
Clusters e numero di autori associati

Cluster_0:

Il Cluster_0 raggruppa 15 osservazioni che hanno in comune gli autori che hanno pubblicato 3 articoli in almeno un mese nel periodo 2014-2024; il componente Cluster, presente nel workflow, dà la possibilità, selezionato il cluster da visualizzare, di avere l’elenco col nome degli autori (in questo caso si tratta di 9 autori):

Cluster_1:

Questo cluster è particolare perché individua due autori che hanno pubblicato, nello stesso mese, lo stesso numero di articoli; in particolare Rosaria Silipo ha pubblicato 3 articoli nel gennaio 2023 e nel 2024, mentre Stefan Helfrich, 3 anche lui, ma solo nel gennaio 2024:

Cluster_2:

questo cluster include 84 osservazioni che si riferiscono ad autori (sono 26) che hanno pubblicato, nel periodo 2014-2024, due articoli in almeno un mese:

Cluster_3:

questo è il cluster più rappresentativo (raggruppa 624 osservazioni) perché include tutti gli autori (cioè 179) con 1 articolo pubblicato in almeno un mese:

Noise:

il cluster Noise include le osservazioni che rappresentano gli autori con una produzione di articoli singolare. Si tratta, infatti, di 6 osservazioni in cui il numero di articoli, in almeno un mese, va da 4 a 5 e in un caso la singolarità è che un autore ha pubblicato 3 articoli nel mese di novembre del 2016 e questa osservazione è distante, nel tempo, da altre analoghe!

Conclusioni

Il Blog di KNIME è una miniera di risorse, non avrei mai pensato di poterci scrivere un articolo, come ho fatto. Spero, un giorno, di pubblicarci un articolo anche io: magari questo dove ne parlo??