spyked bricks in the wall

recunoașterea vorbitului, starea actuală

joi, 15 sept. 2011, 21:53

Înainte să intrăm în pâine, să definim clar subiectul problemei. Există două mari direcții în domeniul interdisciplinar analiza sunetului – interacțiunea om-mașină – inteligență artificială. Prima direcție se referă la recunoașterea vocii, în timp ce a doua constă în recunoașterea formelor sunetului, în special a vorbitului. În primul caz, analizăm mai degrabă caracteristici sonore precum timbrul sau „culoarea”, prin metode cum ar fi analiza Fourier.

Al doilea caz vine cumva în analogie cu recunoașterea formelor dintr-o imagine și se referă la învățarea automată a unor caracteristici de nivel mai înalt precum foneme, melodii, genuri muzicale și așa mai departe. Astfel, în realitate ce am zis eu despre cazul anterior este oarecum greșit, fiindcă aspecte precum inflexiunile vocii sau accentul pot fi în fapt utile pentru a recunoaște un vorbitor.

În fine, pe noi ne interesează să analizăm cum a evoluat până în prezent recunoașterea vorbitului, tehnologie care are un impact mare asupra felului în care omul interacționează cu mediul artificial din jurul său. La urma urmei, cine nu și-ar dori să dialogheze verbal cu calculatorul personal în limbaj natural, în stilul Star Trek? Să nu mai vorbim de aplicațiile unde acest aspect e în mod evident necesar, precum interfațarea cu persoane care nu pot să vadă. (mai mult…)