folksonomy – Andreas Formiconi

È quello che ho appena detto in pochi minuti di chiacchiere, qui ad una conferenza presso la IUL: in realtà io ho una traccia in mente, o meglio, una manciata di argomenti che vorrei tangere in qualche modo, ma non la dico, non la rivelo in un “programma” dichiarato a priori. Uso gli argomenti come delle pedine da giocare, ma non le metto in fila. Le tengo lì, pronte sul tavolo. Poi cerco di far sì che la blogoclasse si muova, più possibile autonomamente. Quando giunge il momento, calo la pedina che mi sembra appropriata. Nei momenti di stanca, mi può capitare di decidere da me quale sia la prossima pedina da giocare, ma di solito è la blogoclasse stessa che me mi dà il pretesto per calarla. Talvolta, può addirittura succedere che siano gli studenti a giocare le pedine che stanno sul mio tavolo! Questi sono i momenti migliori. Ieri ne avete giocate due.

Mvcarelli ieri ha segnalato un video molto famoso, di Michael Wesh, che complementa benissimo i nostri discorsi sul codice. Sono diversi anni che io lo utilizzo, dal 2007 a questa parte. Metto volentieri il link al post di Mvcarelli, invece di udare uno dei miei vecchi link. Nel video si parla anche della codifica XML. La riprenderemo successivamente.

L’altra pedina è stata giocata da Claude a proposito del catalogare e come catalogare. In pratica ha introdotto il tagging. Prendo quindi la pedina che chiamo tagging e la piazzo qui, per ora.

Tre marmellate su uno scaffale: more, prugne e mirtilli. Se non avessi messo delle etichette sui barattoli sarebbe un pasticcio, dovrei andare per tentativi perché sono tutte e tre più o meno blu scuro.

Buona idea quella di mettere le etichette. Continuo a fare marmellate.

Trenta marmellate di cinque tipi su più scaffali, messe tutte alla rinfusa. Dov’è finita quella di rosa canina? Ho fretta … mi arrabbio …

Faccio ordine: raggruppo tutte quelle di more su uno scaffale, poi quella di prugne su un altro e così via. Perfetto, ora non ho più problemi.

continua a leggere …

Buona idea quella di mettere le etichette. Continuo a fare marmellate.

Trenta marmellate di cinque tipi su più scaffali, messe tutte alla rinfusa. Dov’è finita quella di rosa canina? Ho fretta … mi arrabbio …

Faccio ordine: raggruppo tutte quelle di more su uno scaffale, poi quella di prugne su un altro e così via. Perfetto, ora non ho più problemi.

Non solo, mi rendo conto di avere realizzato un concetto importante: assegnando uno scaffale ad ogni tipo di marmellata ho fatto una classificazione dove ogni scaffale rappresenta una categoria.

Se mi lancerò nel business della marmellata ed avrò centinaia o migliaia di barattoli, magari di venti tipi diversi, sarà sempre un gioco da ragazzi andare a trovare a colpo sicuro la marmellata di arance amare, basterà scegliere lo scaffale etichettato “arance amare”.

Ecco cosa ho fatto: ho generalizzato l’impiego delle etichette associandole alla categoria anziché ai singoli barattoli e appiccicandole ad un luogo fisico, scaffale, cassetto o quello che volete.

Un’innovazione che mi consentirà di gestire una situazione che sarebbe altrimenti andata fuori controllo. Una cosa assolutamente positiva. Anzi, con questo sistema, potrei mettermi a produrre miele e classificare mieli di tanti tipi diversi e magari anche altri prodotti senza avere problemi per reperire quello che mi servirà. Basterà istituire categorie di categorie, per esempio una scaffalatura “marmellate”, una “mieli” e così via. Non c’è limite a questo procedimento di generalizzazione. Posso pensare a delle categorie di categorie di categorie, tipo una stanza “prodotti alimentari” che contiene tutte le scaffalature con mieli, marmellate eccetera, poi una stanza “abbigliamento” e via dicendo.

È proprio così che funzionano le classificazioni e, riflettendoci bene, mi rendo conto che il mondo è pieno di classificazioni. Si potrebbe dire che le classificazioni, in un certo senso, costituiscono lo scheletro della conoscenza. Esempi come la tavola periodica degli elementi, la tassonomia degli esseri viventi, la classificazione Dewey per le biblioteche sono ben noti e molto importanti e, a ben vedere, siamo ormai così abituati a questo modo di descrivere il mondo che non ci facciamo nemmeno più caso. Appena si presenta la necessità di gestire una certa quantità e varietà di oggetti, di qualsiasi tipo essi siano, procediamo senz’altro ad istituire categorie partendo da una categoria generale iniziale, madre di tutte le altre che via via si annidano le une nelle altre per arrivare a descrivere tutti gli oggetti possibili che possono essere inclusi in quella certa categoria madre, libri, marmellate, articoli di un magazzino, pratiche nello studio di un commercialista, piante, animali, letteratura scientifica, file in un file system e via dicendo.

Anche gli ideatori di un famoso motore di ricerca in Internet, Yahoo!, affrontarono nel 1995 il problema della ricerca come un problema di classificazione. L’idea era quella di offrire una lista di tutto quello che c’era nel web. Affinché la lista fosse consultabile fu necessario organizzarla in una struttura gerarchica generata a partire da un piccolo numero di categorie principali. Una cosa del tutto logica dopo quello che abbiamo appena detto. Yahoo! mantiene ancora questa lista e la potete trovare all’indirizzo http://dir.yahoo.com/.

Di prim’acchito non sembra complicato fare una classificazione del genere. Si tratta in fin dei conti di compilare una lista di tutti i siti web esistenti e di piazzare ciascuno di essi nella sua categoria. In realtà la cosa non si è rivelata così semplice. In primo luogo c’è un problema di dimensione: il numero di siti presenti in Internet si valuta sull’ordine dei miliardi. Tuttavia finché la questione è di mera quantità tutto si riduce ad una faccenda economica: se il business lo giustifica si tratta semplicemente di pagare uno staff adeguato. In realtà c’è anche un altro problema che è invece puramente di natura qualitativa e quindi non è detto che possa esser ridotto ad una questione economica.

Finché l’ambito è relativamente ristretto, le categorie sono facilmente ed univocamente identificabili, gli oggetti da classificare sono stabili, altrettanto facilmente identificabili e senza sfumature, allora non è difficile fare una classificazione di tali oggetti. Con il nostro esempio delle marmellate non ci sarebbero problemi. Ma fra miliardi di siti web di ogni tipo immaginabile e le marmellate fatte in casa c’è una differenza non trascurabile!

Classificare un oggetto in una categoria, all’aperto per così dire, dove l’oggetto può essere una qualsiasi cosa al mondo, può rivelarsi un compito molto difficile. Così difficile che per designare colui che svolge tale compito si è fatto ricorso ad un vocabolo che normalmente alberga nel mondo della filosofia: si dice infatti che chi svolge questo tipo di lavoro, per esempio per sviluppare e mantenere la “directory di Yahoo!” fa l’ontologo.

L’ontologia studia la proprietà dell’essere delle cose e le relazione che le cose, nella loro essenza, possono avere fra loro. Come probabilmente iniziate ad immaginare, la faccenda si fa pesante, infatti l’ontologo non ha vita facile. Molto meglio disquisire di questioni ontologiche davanti al camino bevendo un buon vino che trovarsi sul campo a fare l’ontologo!

Andiamo a vedere un po’ la directory di Yahoo! in proposito.

Queste sono le 14 categorie generali che includono tutte le altre. Possiamo scendere in ognuna di queste fino a trovare quella che ci interessa. Facciamo un esempio scegliendo “Science” e limitiamoci ad estrarre un piccolo frammento della lista che viene fuori.

Qui a destra riporto un frammento della lista. Il numero fra parentesi a fianco di ogni sottocategoria rappresenta il numero di link che ciascuna di esse può offrire qualora esse vengano selezionate. Tuttavia si vede come alcune siano invece seguite dal carattere @ invece che da un numero. Ebbene, queste sono sottocategorie che non fanno parte della categoria madre in questione secondo la classificazione Yahoo! e che tuttavia gli ontologi di Yahoo! non se la sono sentita di non menzionare. Per esempio, la medicina non è inclusa direttamente nella categoria “Scienze” ma non si può disconoscere che essa abbia dei nessi sonstanziali con il dominio delle scienze, per numerosi motivi, e se andiamo a vedere troviamo che la medicina è stata piazzata nella categoria “Health”. Qualcuno di voi potrà essere d’accordo con la scelta degli ontologi di Yahoo! mentre altri non lo saranno ma non ha tanto importanza cosa sia “vero”. Ha invece importanza il fatto che la risposta non sia manifesta e condivisa e che non si tratta neanche di essere più o meno esperti della materia. Un ricercatore biomedico e un direttore sanitario potrebbero avere opinioni differenti a riguardo, pur essendo molto competenti.

Due anni dopo Yahoo!, nel 1997, appare Google, un altro motore di ricerca, apparentemente dimesso rispetto agli altri, ormai sulla strada di divenire portali in grado di offrire una varietà di servizi. Google si presenta invece con una semplice pagina bianca dove nel centro campeggia una casella di testo per inserire le chiavi di ricerca sormontata dall’ormai celebre logo variopinto. Malgrado ciò il successo di Google è stato travolgente arrivando oggi a dominare stabilmente il mercato dei motori di ricerca. Secondo una ricerca della Compete.com, un’azienda americana specializzata nell’analisi del traffico web, attualmente Google detiene il 74% del mercato, seguito da Yahoo! con il 17%, Bing (il motore di ricerca “della Microsoft) con il 7%, Ask con il 2% e AOL con 1%, con una tendenza ad un ulteriore crescita del divario.

È evidente che nell’approccio di Google ci doveva essere qualcosa di sostanzialmente diverso e che potremmo esemplificare con il motto: un tempo esistevano le classificazioni, ora esistono i link! Un’idea che Clay Shirky nel suo articolo Ontology is Overrated: Categories, Links, and Tags descrive particolarmente bene.

Nella figura seguente è rappresentata una generica gerarchia. Ognuno può pensarla nel modo che gli è più congegnale, per rappresentare la struttura di un’azienda, una tassonomia, la classificazione dei libri di una biblioteca, un file system o altro.

Abbiamo visto prima che nella directory Yahoo! le categorie sono state affiancate dalle pseudo categorie, per esempio la sottocategoria “Medicine” è citata anche all’interno della categoria “Science” malgrado il fatto che appartenga alla categoria “Health.” Ponendo all’interno della categoria “Science” la voce “Medicine@”, si crea di fatto una connessione fra “Medicine” e “Science,” una connessione che la classificazione gerarchica di Yahoo! non avrebbe altrimenti descritto.

Non è difficile immaginare che la quantità delle connessioni possibili travalica ogni possibilità di previsione e che la loro rilevanza è fortemente dipendente dal contesto. Qualsiasi classificazione può essere arricchita da connessioni e la questione se esse possano essere ritenuti da taluni più rilevanti di quelle inerenti alla classificazione diviene una questione di visione del mondo. In altre parole, la classificazione proposta da Yahoo! riflette la visione del mondo dei suoi ontologi ed è probabilmente veramente ozioso domandarsi se la loro visione sia più o meno vera della visione del mondo che altri potrebbero avere.

A nessuna autorità può essere impedito di proporre la propria visione del mondo mediante un’accorta classificazione ma non si può nemmeno impedire che qualsiasi utente dell’oggetto di quella classificazione valorizzi certi collegamenti che essa non prevede.

Insomma, non possiamo fare a meno di avere classificazioni e connessioni, classificazioni e link:

Sino ad ora le tecnologie disponibili hanno imposto di lavorare prevalentemente con le classificazioni essendo la realizzazione di queste già di per sé molto onerosa ed essendo assolutamente impossibile contemplare tutti i collegamenti possibili.

Uno degli aspetti importanti di Internet è che le connessioni sono intrinseche alla sua natura: Internet è fatta di link. Gettate un insieme di oggetti in Internet. Oggetti di qualsiasi natura in qualsiasi numero. Ebbene, i link cresceranno spontaneamente in un intrico non dissimile da quello della piante in una foresta lasciata crescere indisturbata. Poco importa che quelli oggetti siano stati collegati a priori fra loro da un struttura gerarchica. I link vi cresceranno sopra comunque e, se la numerosità lo consentirà, alla fine da quello che sembrerebbe solo caos finirà per emergere una struttura e questa struttura emergente potrà alfine mascherare e rendere inutile lo scheletro gerarchico iniziale. A quel punto, forse, lo scheletro si potrà anche buttar via:

L’intuizione cruciale degli autori di Google è stata riconoscere che in Internet non è necessario piazzare per forza tutto sugli scaffali prima ma è invece sufficiente lasciare crescere le connessioni da sole ed utilizzarle dopo che queste sono spontaneamente emerse. Insomma, in Internet non c’è bisogno di scaffali.

In pratica quando sfoglio un catalogo mi fido della visione del mondo di chi ha fatto la classificazione, quando uso Google mi fido della struttura di link emersa dal caos di Internet.

Sono abbastanza sicuro che se in era pre-Google avessimo fatto un sondaggio su quale fosse ritenuto il sistema più affidabile, avremmo assistitito ad un plebiscito a favore del catalogo; sarebbe interessante farlo anche oggi sondaggio del genere.

E invece il mondo usa Google. Malgrado il fatto che tutti fossero abituati ed educati a confidare nelle classificazioni tutti hanno preferito affidarsi a quella piccola magica scatolina di ricerca offerta da Google. Perfino Yahoo!, che pochissimi anni prima aveva iniziato a “fare ordine” in Internet mettendo mano ad una grande classificazione, la Yahoo! directory per l’appunto, ha dovuto accettare la magia di Google, e nel vero senso della parola perché per un certo periodo, prima di sviluppare un sistema di ricerca proprio, ha usato proprio il motore di Google.

Già vedo gli apocalittici insorgere a difesa del valore dell’ordine minacciato dal caos, dell’autorevolezza minacciata dall’incompetenza e forse infine della cultura minacciata da una nuova forma di anarchia. Non ci tengo particolarmente ad essere annoverato tout court fra gli entusiasti ma se si è animati da un minimo desiderio di capire come stanno le cose è difficile esimersi dal domandarsi perché, malgrado questi allarmi, le persone con Google trovano quello che cercano.

L’apparentemente innocua affermazione che “le persone con Google trovano quello che cercano” ha in realtà la forza dirompente della massa. Vale a dire che centinaia di milioni di volte, anzi miliardi di volte, quelle ricerche funzionano, per il semplice motivo che di solito le domande si fanno volentieri a chi ha dimostrato di dare risposte utili.

Questa si chiama autorevolezza, un’autorevolezza conquistata sul campo dalla massa di attori che in Internet che costruiscono inconsapevolmente ciascuno il proprio peso semplicemente abitandovi. Un nuovo tipo di autorevolezza che certamente fa rabbrividire una schiera di apocalittici ma che inevitabilmente affianca l’autorevolezza convenzionale, basata su di un accreditamento di qualche tipo, per esempio accademico.

Ho detto prima che non ci tengo ad essere annoverato fra gli entusiasti, non perché questi non mi piacciano ma perchè sono convinto che sia il dichiararsi apocalittico che il dichiararsi entusiasta si risolva in un esercizio del tutto ozioso. Le cose accadono, sono sempre accadute in modo assolutamente indifferente alle sorti delle battaglie fra apocalittici e entusiasti. Le cose accadono quando maturano le condizioni favorevoli.

Questo nuovo concetto di autorevolezza è insito per esempio in una nuova parola: la folksonomia, della quale riporto qui la definizione data in Wikipedia:

Folksonomia è un neologismo derivato dal termine di lingua inglese folksonomy che descrive una categorizzazione di informazioni generata dagli utenti mediante l’utilizzo di parole chiave (o tag) scelte liberamente. Il termine è formato dall’unione di due parole, folk e tassonomia; una folksonomia è, pertanto, una tassonomia creata da chi la usa, in base a criteri individuali.

Nel caso delle ricerche in Internet il meccanismo escogitato da Google, denominato PageRank e basato sull’assegnazione di un peso (ranking) calcolato dal numero e dall’importanza dei link che richiamano le pagine, ha eliminato d’un tratto la necessità di ricorrere ad una classificazione.

In molti sistemi invece si ricorre ad una classificazione che è realizzata dall’utenza nel suo insieme mediante la pratica del tagging. Ognuno memorizza gli oggetti che gli interessano attribuendo loro le etichette che ritiene più appropriate. Ecco, la classificazione spontanea che ne emerge si chiama folksonomia e delicious ne è un ottimo esempio.

Ho già osservato come le classificazioni gerarchiche si applichino con maggiore facilità quando l’ambito è relativamente ristretto, le categorie sono facilmente ed univocamente identificabili, gli oggetti da classificare sono stabili, altrettanto facilmente identificabili e senza sfumature.

Quando invece si tratta di classificare oggetti che possono riferirsi ad un ambito arbitrariamente ampio, come oggetti Internet o libri, possono emergere problemi veramente difficili da risolvere. Consideriamo l’esempio della classificazione di libri in una grande biblioteca dove vi sia la categoria “Unione Sovietica”. Che fare dello scaffale “Unione Sovietica” dal 1991 in poi? Possiamo lasciare tutti i libri in quello scaffale? O forse ha senso lasciarvi solo quelli strettamente pertinenti all’Unione Sovietica nella sua interezza ponendo per esempio quelli che in realtà si riferiscono all’Ucraina in una nuova categoria apposita? Oppure, se la categoria “Ucraina” esisteva come sottocategoria di “Unione Sovietica”, ha senso lasciarla come sottocategoria di uno stato che non esiste più? E che fare dei nuovi ingressi post 1991?

O, per fare un altro tipo di esempio, come affrontare la classificazione di libri che sono evidentemente interdisciplinari? Vi sono degli autori che rappresentano un incubo per chiunque si trovi a classificarne i libri. Uno di questi è Stefano Beccastrini che ha una vera e propria passione per scrivere libri inclassificabili, caratteristica questa, sia detto per inciso, che li rende molto interessanti.

L’ultimo, che ha scritto insieme alla moglie Maria Paola Nannicini, si chiama Matematica e Geografia, che affianca deliziosamente il precedente, Il cammino della matematica nella storia. Come classifichiamo questi due libri? Tutti e due in “Matematica”? O uno in “Geografia” e l’altro in “Storia”? Oppure nuovamente tutti e due insieme in qualcosa tipo “Insegnamento interdisciplinare”? O “Insegnamento” tout court? sono sicuro che se li leggessimo tutti quanti siamo e dopo ci mettessimo ad immaginare tutte le classificazioni possibili ne verrebbe fuori qualcosa di simile ad un caos.

Tuttavia da questo caos finirebbero per emergere delle regolarità, prevalenze, pesi reciproci, schemi, tutte regolarità lecite e descrittive della varietà dei punti di vista possibili. Insistendo sull’esempio appena fatto, sarebbe veramente limitante piazzare questi due libri nelle categorie più ovvie, storia, geografia o matematica, perché uno dei loro pregi sta proprio nel fatto di mettere in luce come sia importante contaminare le discipline scolastiche convenzionali e ad un ricercatore interessato a questioni di metodologia didattica potrebbero sfuggire, con simili classificazioni.

Arrivati a questo punto vi lascio riflettere e vado a riorganizzare la cantina, è un lavoro che impegnerà tutta la domenica. Ho deciso di fare questo lavoro perché mi hanno regalato una macchina nella quale, mediante una tastiera, posso inserire parole chiave, per esempio more, mature, ciliege, 2005 e via dicendo. Una volta inserite le parole tutte le etichette corrispondenti alle parole chiave inserite si illuminano magicamente così da individuare in un attimo le marmellate che desidero. Non mi chiedete come funziona, so solo che funziona. Ho deciso quindi di levare le etichette dagli scaffali e di iniziare da capo ad etichettare le marmellate direttamente sui barattoli, come facevo all’inizio di questo discorso. Anzi, su ogni barattolo potrò appiccicare nuove etichette tutte le volte che mi verrà in mente un attributo che potrebbe rivelarsi interessante: tipo di frutta, anno di produzione, troppo cotta, poco cotta, meno zucchero, poco matura … anzi, tutti in casa potranno fare lo stesso, se saremo in più di uno a fare marmellate, e tutti potremo trovare rapidamente le marmellate preferite.

Il problema poi sarà un altro: chi le mangerà tutte queste marmellate?

Tag: folksonomy

Lo strano modo -> #linf12 <- di trovare le cose

Mi piace:

Quando gli studenti scoprono i prossimi passi …

Mi piace:

Assignment 5 bis: la Folksonomy

Mi piace:

Assignment 4 bis: la Folksonomy

Mi piace:

Condividi:

Mi piace:

Condividi:

Mi piace:

Condividi:

Mi piace:

Condividi:

Mi piace:

Condividi:

Mi piace:

Condividi:

Mi piace:

Condividi:

Mi piace: