Įsivaizduokite, kad sėdite atsipalaidavęs ant sofos ir tiesiog įsakote savo kompiuteriui, nešiojamam kompiuteriui ar mobiliajam telefonui atlikti paprastas užduotis, pavyzdžiui, įvesti laišką ar atlikti kelias komandas. Ar tai įmanoma?

Žinoma, tai yra vieta, kur atsiranda balso atpažinimas.

Pagal apibrėžimą tai yra žmogaus kalbos atpažinimo procesas ir iššifruotas į teksto formą.

Principas

Pagrindinis principas balso atpažinimas apima tai, kad bet kurio žmogaus kalba ar žodžiai sukelia vibracijas ore, vadinamus garso bangomis. Šios ištisinės arba analoginės bangos yra skaitmeninamos ir apdorojamos, o tada dekoduojamos pagal tinkamus žodžius ir atitinkamus sakinius.

balso atpažinimas

Kalbos atpažinimo sistemos komponentai

Taigi iš ko susideda pagrindinė kalbos atpažinimo sistema?

Kalbos atpažinimo sistemos komponentai

Kalbos fiksavimo įrenginys Jį sudaro mikrofonas, konvertuojantis garso bangų signalus į elektrinius signalus, ir analoginis į skaitmeninį keitiklį, kuris ima ir skaitmenina analoginius signalus, kad gautų atskirus duomenis, kuriuos kompiuteris gali suprasti.
Skaitmeninio signalo modulis arba procesorius : Jis apdoroja neapdorotą kalbos signalą, pvz., Dažnio domeno konversiją, atkuria tik reikiamą informaciją ir kt.
Iš anksto apdorotas signalo saugojimas : Iš anksto apdorota kalba yra saugoma atmintyje, kad būtų galima atlikti tolesnę kalbos atpažinimo užduotį.
Nuorodos kalbos modeliai : Kompiuterį arba sistemą sudaro iš anksto nustatyti atminties jau išsaugoti kalbos šablonai arba šablonai, kurie bus naudojami kaip nuoroda derinant.
Šablonų derinimo algoritmas : Nežinomas kalbos signalas lyginamas su etaloniniu kalbos modeliu, siekiant nustatyti tikrus žodžius ar žodžių modelį.

Sistemos veikimas

Dabar pažiūrėkime, kaip iš tikrųjų veikia visa sistema.

Sistemos veikimas

Kalba gali būti vertinama kaip akustinė bangos forma, t. Y. Signalas, nešantis pranešimo informaciją. Normalus žmogus, turintis ribotą artikuliatorių (kalbos organų) judėjimo greitį, gali kalbėti vidutiniškai 10 garsų per sekundę greičiu. Vidutinis informacijos perdavimo greitis yra apie 50-60 bitų per sekundę. Tai reiškia, kad kalbos signale reikalinga tik 50 bitų / sekundė informacijos. Ši akustinė bangos forma yra konvertuojama į analoginius elektrinius signalus. Analoginis - skaitmeninis keitiklis konvertuoja šį analoginį signalą į skaitmeninius mėginius, tiksliai matuodamas bangą atskirais intervalais.
Skaitmeninis signalas susideda iš periodinių signalų, atrinktų 16000 kartų per sekundę, srauto ir nėra tinkamas realiesiems kalbos atpažinimas procesą, nes modelio negalima lengvai rasti. Norint išgauti faktinę informaciją, signalas laiko srityje paverčiamas signalu dažnio srityje. Tai atlieka skaitmeninio signalo procesorius, naudodamas FFT techniką. Skaitmeniniame signale komponentas kas 1/100^tūkstanalizuojamas sekundės dažnis ir apskaičiuojamas kiekvieno tokio komponento dažnio spektras. Kitaip tariant, skaitmenizuotas signalas segmentuojamas į mažas dažnio amplitudės dalis.
Kiekvienas segmentas arba dažnio grafikas atspindi skirtingus žmonių skleidžiamus garsus. Kompiuteris atlieka nežinomų segmentų derinimą su saugoma konkrečios kalbos fonetika. Šis modelio derinimas atliekamas 3 būdais:

Akustinio fonetinio požiūrio naudojimas : Akustinės fonetikos požiūriu paprastai naudojamas paslėptas Markovo modelis. Šis modelis sukuria nedeterministinį kalbos atpažinimo tikimybės modelį. Šis modelis susideda iš dviejų kintamųjų - kompiuterio atmintyje saugomų fonemų paslėptų būsenų ir matomo skaitmeninio signalo dažnio segmento. Kiekviena fonema turi savo tikimybę, o segmentas yra suderinamas su fonema pagal tikimybę, o suderintos fonemos yra surenkamos kartu ir sudaromos teisingi žodžiai pagal saugomas kalbos gramatikos taisykles.

Naudojant modelio atpažinimo metodą : Taikant atpažinimo modelį, sistema mokoma pagal tam tikrą kalbos modelį bet kuriai kalbai, o nežinomas kalbos modelis lyginamas su etaloniniu kalbos modeliu, nustatant atstumą tarp signalų, naudojant laiko iškraipymo techniką.

Dirbtinio intelekto naudojimas : Dirbtinio intelekto požiūris grindžiamas pagrindinių žinių šaltinių, tokių kaip garsų, ištartų spektrinių matavimų pagrindu, tinkamų prasmingų ir sintaksinių žodžių išmanymu.

Veiksniai, nuo kurių priklauso kalbos atpažinimo sistema

Kalbos atpažinimo sistema priklauso nuo šių veiksnių:

Izoliuoti žodžiai : Tarp sakomų iš eilės žodžių turi būti pauzė, nes nepertraukiami žodžiai gali sutapti, todėl sistemai sunku suprasti, kada žodis prasideda ar baigiasi. Taigi tarp vienas po kito einančių žodžių reikia nutylėti.
Vienas garsiakalbis : Daugelis kalbėtojų, bandančių įvesti kalbą vienu metu, gali sukelti signalų sutapimus ir pertraukas. Dauguma naudojamų kalbos atpažinimo sistemų yra nuo garsiakalbio priklausančios sistemos.
Žodyno dydis : Kalbas, turinčius didelį žodyną, sunku suderinti su modeliais, nei su mažu, nes dviprasmiškų žodžių tikimybė yra mažesnė.

Kalbos atpažinimo sistema „Windows 7“

Norėčiau rekomenduoti šiuos veiksmus visiems asmenims, naudojantiems „Windows 7“ kalbos atpažinimo sistemai

Pradžios meniu arba spustelėję piktogramą atidarykite Valdymo skydą.
Pasirinkite Lengva prieiga ir spustelėkite Kalbos atpažinimas.
Tada spustelėkite „Nustatyti mikrofoną“ ir iš galimų parinkčių pasirinkite darbalaukio mikrofoną.
Tada atlikite kalbos pamoką ir vykdykite pateiktas instrukcijas.
Po to mokykite savo kompiuterio pasirinkti geresnes galimybes, kad kompiuteris išsaugotų apibrėžtą jūsų kalbos signalo modelį. Tai daroma spustelėjus parinktį „Išmokyti kompiuterį, kad geriau tave suprastum“, tada vykdyk instrukcijas.
Dabar paleiskite kalbos atpažinimo piktogramą ir pradėkite diktuoti savo kalbą į kompiuterį. Taip pat galite pridėti savo žodžius prie kompiuterio žodyno.

Praktinės kalbos atpažinimo sistemos: naudojant HM2007

Praktinę kalbos atpažinimo sistemą galima sukonstruoti naudojant kalbos atpažinimo IC HM2007 . HM2007 yra 48 kontaktų IC, suteikiantis kalbos atpažinimo funkciją. Jis veikia dviem režimais: rankiniu režimu arba procesoriaus režimu. Abiem režimais IC pirmiausia išmoko atpažinti žodžius, kai vartotojas pasako kiekvieną žodį atitinkamam skaičiui, nuspaustam klavišą. IC saugo kiekvieną žodžio signalą atminties vietoje, atitinkančioje žodį. IC išvesties duomenys yra susieti su mikrovaldikliu, kur jie rodomi LCD.

Praktinės kalbos atpažinimo sistemos

Paprastai HM2007 darbui naudojame rankinį režimą.

HM2007 susideda iš RDY kaiščio, kuris yra aktyvus žemas kaištis, rodantis, kad IC yra pasirengęs treniruotis.
Balso įvestis bus teikiama per mikrofoną, prijungtą prie IC MICIN kaiščio.
IC yra susietas su klaviatūra, kuri naudojama kiekvienam žodžiui įvedant skaičių įvesti. IC veikia dviem funkcijomis - „Clear“ ir „Train“. Kai klaviatūroje paspaudžiamas traukinio klavišas, IC pradeda savo mokymą.
Prieš paspausdamas funkcijos klavišą „Traukinys“, vartotojas paspaudžia skaičiaus klavišą ir pasako reikiamą žodį į mikrofoną.
IC siunčia aukštą signalą į ME (atminties įgalinimo) kaištį, kuris yra prijungtas prie atitinkamo SRAM ME kaiščio. 8 bitų duomenų signalas, atitinkantis paspaustą skaičių, per išorinę magistralę saugomas SRAM (išorinėje RAM).
Aptikus balso įvestį, RDY kaištis yra logiškai aukštas ir IC atkelia į atpažinimo būseną, kur pradeda atpažinimo procesą.
Proceso rezultatas pateikiamas per duomenų magistralę su aukštu DEN (duomenų įgalinimo) kaiščiu.
Tada 8 bitų duomenis galima perduoti mikrovaldikliui per nuoseklų sąsajos procesorių arba pirmiausia užfiksuoti naudojant fiksatorių IC 74HC573.
Mikrovaldiklis yra susietas su skystųjų kristalų ekranu ir yra užprogramuotas taip, kad ekrane būtų rodomas atitinkamas žodis.

Vienintelė atsargumo priemonė, kurios reikia imtis, yra nenaudoti homonimų (panašaus skambesio žodžių) ir pasirūpinti balso sužadinimu.

Taigi, tai viskas, kaip a pagrindinė kalbos atpažinimo sistema veikia. Kviečiame pridėti bet kokius kitus duomenis.