In un post sul blog di Microsoft il leader del progetto Cortana Xuedong Huang ha annunciato che il suo team di ingegneri dell’Artificial Intelligence and Research (foto sotto) ha raggiunto un traguardo storico per il sistema di riconoscimento vocale di Microsoft, che ricordiamo essere disponibile su Xbox One e dispositivi con Windows 10.

Per la prima volta infatti il tasso d’errore di comprensione per un sistema simile è sceso di un punto percentuale, passando dal 6.9 al 5.9% (il mese scorso si era ancora al 6,3%). Scendere sotto il 6% significa di fatto comprendere la dettatura come solo un professionista di dattilografia è in grado di fare quando deve trascrivere un discorso o una conversazione.

microsoftaiteam

Un traguardo reso possibile dall’impiego di reti neurali profonde per raccogliere un ammontare significativo di dati (training set), tra cui anche suoni e immagini utilizzati come metodo di allenamento per gli algoritmi di apprendimento profondo. In ogni caso il team di Microsoft non vuole accontentarsi di questa percentuale, conscio che prendere come esempio qualcosa di “imperfetto” come l’essere umano è sì un traguardo importante ma non finale.

In effetti un sistema come Cortana deve ancora migliorare molto sia nella comprensione delle parole umane in contesti difficili (una strada piena di traffico ad esempio), sia nella comprensione del contenuto e del contesto di un discorso (anche complesso e articolato), così da rendere queste tecnologie sempre più intuitive e utili. Ecco perché Huang e il suo team vogliono spingersi oltre e migliorare questi due aspetti fondamentali, in modo che un sistema come Cortana possa non solo raggiungere l’essere umano ma addirittura superarlo.