Oggi vorrei fare qualche riflessione sui reCaptcha, ma prima di tutto vediamo cosa sono e come funzionano;
Penso che chiunque di voi abbia già incontrato un captcha durante la navigazione, cioè quelle immagini distorte che noi dobbiamo riconoscere per verificare di essere umani e quindi poterci registrar a siti, scaricare file, inviare messaggi o altre attività, i reCaptcha hanno la stessa funzione ma trovano un’utilità a questo servizio cioè sfruttare questo atto di riconoscimento che noi attuiamo per leggere dei libri e digitalizzarli, cosa vuol dire questo? Beh questi captcha particolari sono comporti da 2 parole, una conosciuta e l’altra invece è presa dalle scansioni di libri (ad esempio vecchi libri o manoscritti), l’idea di base è se io inserisco correttamente la parola di controllo probabilmente scriverò correttamente anche quella sconosciuta, e se un determinato numero di persone (wikipedia dice 3 persone, io spero siano un po di più) da la stessa soluzione quella viene considerata come attendibile, quindi si passa ad un’altra immagine e si continua;
Visto la quantità di captcha che vengono risolti ogni giorno, sicuramente questo è un impiego utile ma trovo che sia purtroppo poco affidabile, o meglio potrebbe esserlo se si volesse danneggiare il sistema, infatti se io inserisco soltanto la parola conosciuta (io non dovrei sapere qualche sia, ma questo lo vedremo dopo) e niente di più il sistema mi lascia autenticare, non so bene se questo vada anche a danneggiare il sistema di digitalizzazione dei libri o se in un secondo momento una risposta vuota venga scartata, sicuramente non viene scartata una risposta errata (altrimenti se già avessero la soluzione non ci sarebbe questo sistema); possiamo quindi dire che un punto fondamentale di questo procedimento è che l’utente non sappia quale sia la parola di controllo da quella da identificare;
Ora, come faccio io a capire quale sia la parte “conosciuta” e che viene controllata rispetto a quella ignota?
Beh innanzitutto partiamo da presupposto che una delle due parole sarà probabilmente una parola valida in qualche lingua, mentre l’altra non sempre o difficilmente lo sarà, e poi prendendo due esempi possiamo andare oltre e avere ulteriori certezze:
Qua due tipiche immagini che possiamo trovare in un reCaptcha, ora cosa notiamo subito, che una delle due parola è come alterata con quella macchia per renderla più difficile da riconoscere, ed è anche stata “distorta” sempre per lo stesso motivo, mentre l’altra nel primo caso è una semplice parola in inglese e nel secondo una frazione, ma potrebbe essere un pezzo di un indice o altri valori che possiamo trovare in normale testo, quindi possiamo con certezza affermare che le due parole senza significato e alterate sono quelle conosciute dal sistema, perchè tornando a ciò che si pone di risolvere questo sistema: se io riesco a trovare la soluzione a quelle parole difficili, “sicuramente” riuscirò a leggere le altre; bene ma se ora noi sappiamo cosa si aspetta il sistema basta “accontentarlo” e noi passeremo questo controllo in modo veloce inserendo solo la parola di controllo.
Naturalmente non sempre troveremo una parola così ovvia (anche se durante la stesura di questo articolo mi è capitato più spesso di quanto immaginassi) con una macchia, ma capita di trovare parole con due righe sopra, come capitano alcuni casi difficili da identificare; ma vediamo cosa comporta questa conoscenza (da un grande potere derivano grandi responsabilità), ora io che ora so come funziona e che posso risparmiare del tempo perchè dovrei continuare ad aiutare Google (reCaptcha è stato comprato da Google qualche tempo fa) a tradurre i suoi libri e indicizzare il tutto per il suo motore di ricerca?
Beh sinceramente non saprei darti un motivo, se non che ora essendo a conoscenza di come funzionano, sei consapevole che è anche grazie a te se molti antichi testi sono disponibili in digitale; il grosso problema è se da domani tutti iniziassero ad inserire solo una delle due parole o peggio ancora scrivendo un testo sbagliato, si andrà a danneggiare questo processo, naturalmente il numero di persone deve essere elevato altrimenti non verrebbe molto “danneggiato” ma solo rallentato, per fortuna.
Google secondo me dovrebbe migliorare questo sistema cercando di usare due immagini il più simili possibili o comunque non così facilmente distinguibili, così da far perdere più tempo per distinguere quella di controllo che non ad inserirle entrambe e così superare il controllo.
Sii il primo a commentare