Představte si, že sedíte uvolněně na pohovce a jen objednáváte počítač, notebook nebo mobilní telefon k provádění jednoduchých úkolů, jako je psaní dopisu nebo provádění několika příkazů. Je to možné?

Samozřejmě právě tam přichází na řadu rozpoznávání hlasu.

Podle definice jde o proces rozpoznávání lidské řeči a její dekódování do textové podoby.

Zásada

Základní princip hlasové rozpoznávání zahrnuje skutečnost, že řeč nebo slova mluvená jakoukoli lidskou bytostí způsobují vibrace ve vzduchu, známé jako zvukové vlny. Tyto spojité nebo analogové vlny jsou digitalizovány a zpracovány a poté dekódovány na příslušná slova a poté na příslušné věty.

hlasové rozpoznávání

Součásti systému pro rozpoznávání řeči

Z čeho se tedy skládá základní systém rozpoznávání řeči?

Součásti systému pro rozpoznávání řeči

Zařízení pro snímání řeči : Skládá se z mikrofonu, který převádí signály zvukových vln na elektrické signály, a analogově-digitálního převaděče, který vzorkuje a digitalizuje analogové signály, aby získal diskrétní data, kterým počítač porozumí.
Modul digitálního signálu nebo procesor : Provádí zpracování surového řečového signálu, jako je převod na frekvenční doménu, obnovuje pouze požadované informace atd.
Předzpracované úložiště signálu : Předzpracovaná řeč je uložena v paměti k provedení dalšího úkolu rozpoznávání řeči.
Referenční vzory řeči : Počítač nebo systém se skládá z předdefinovaných vzorů řeči nebo šablon již uložených v paměti, které mají být použity jako reference pro shodu.
Algoritmus shody vzorů : Neznámý řečový signál je porovnán s referenčním vzorem řeči, aby se určila skutečná slova nebo vzor slov.

Fungování systému

Nyní se podívejme, jak celý systém skutečně funguje.

Fungování systému

Na řeč lze pohlížet jako na akustický tvar vlny, tj. Informace o zprávě nesoucí signál. Normální člověk s omezenou rychlostí pohybu svých artikulátorů (řečových orgánů) může produkovat řeč průměrnou rychlostí 10 zvuků za sekundu. Průměrná rychlost přenosu je asi 50-60 bitů za sekundu. To znamená, že ve skutečnosti je v řečovém signálu zapotřebí pouze 50 bitů za sekundu informací. Tento akustický průběh je mikrofonem převeden na analogové elektrické signály. Analogově-digitální převodník převádí tento analogový signál na digitální vzorky prováděním přesných měření vlny v diskrétních intervalech.
Digitalizovaný signál se skládá z proudu periodických signálů vzorkovaných 16 000krát za sekundu a není vhodný k provádění skutečných rozpoznávání řeči proces, protože vzor nelze snadno najít. Aby se extrahovaly skutečné informace, signál v časové doméně se převede na signál ve frekvenční doméně. To provádí procesor digitálního signálu pomocí techniky FFT. V digitálním signálu komponenta po každé 1/100^thje analyzována a vypočítáno frekvenční spektrum pro každou takovou složku. Jinými slovy je digitalizovaný signál segmentován na malé části frekvenčních amplitud.
Každý segment nebo frekvenční graf představují různé zvuky vydávané lidmi. Počítač provádí porovnávání neznámých segmentů s uloženou fonetikou konkrétního jazyka. Toto porovnávání vzorů se provádí 3 způsoby:

Použití akustického fonetického přístupu : V akustickém fonetickém přístupu se obecně používá model Hidden Markov. Tento model vyvíjí nedeterministický model pravděpodobnosti pro rozpoznávání řeči. Tento model se skládá ze dvou proměnných - skrytých stavů fonémů uložených v paměti počítače a viditelného frekvenčního segmentu digitálního signálu. Každý foném má svou vlastní pravděpodobnost a segment je spojen s fonémem podle pravděpodobnosti a odpovídající fonémy jsou poté shromážděny dohromady, aby vytvořily správná slova podle uložených gramatických pravidel jazyka.

Použití přístupu k rozpoznávání vzorů : V přístupu rozpoznávání vzorů je systém trénován s konkrétním vzorem řeči pro jakýkoli jazyk a neznámý vzor řeči je porovnáván s referenčním vzorem řeči určením vzdálenosti mezi signály pomocí techniky časové deformace.

Používání umělé inteligence : Přístup umělé inteligence je založen na využití základních zdrojů znalostí, jako je znalost zvuků mluvených na základě spektrálních měření, znalost správných smysluplných a syntaktických slov.

Faktory, na kterých závisí systém rozpoznávání řeči

Systém rozpoznávání řeči závisí na následujících faktorech:

Izolovaná slova : Mezi po sobě jdoucími vyslovenými slovy musí být pauza, protože souvislá slova se mohou překrývat, což systému ztěžuje pochopení, kdy slovo začíná nebo končí. Mezi po sobě jdoucími slovy tedy musí být ticho.
Jeden reproduktor : Mnoho řečníků, kteří se pokoušejí dát hlasový vstup současně, může způsobit překrývání signálů a přerušení. Většina používaných systémů rozpoznávání řeči jsou systémy závislé na reproduktorech.
Velikost slovníku : U jazyků s velkou slovní zásobou je obtížné uvažovat o porovnávání vzorů než u jazyků s malou slovní zásobou, protože u druhé je šance na dvojznačná slova menší.

Systém rozpoznávání řeči ve Windows 7

Chtěl bych doporučit následující kroky pro všechny osoby používající Windows 7 pro systém rozpoznávání řeči

Otevřete Ovládací panely z nabídky Start nebo kliknutím na ikonu.
Vyberte Usnadnění přístupu a poté klikněte na Rozpoznávání řeči.
Dále klikněte na nastavení mikrofonu a z dostupných možností vyberte stolní mikrofon.
Dále projděte řečový tutoriál a postupujte podle uvedených pokynů.
Poté trénujte počítač, abyste získali lepší možnosti, aby počítač ukládal určitý vzor vašeho řečového signálu. To provedete kliknutím na možnost „trénovat počítač, aby vám lépe porozuměl“ a poté postupujte podle pokynů.
Nyní spusťte ikonu rozpoznávání řeči a začněte diktovat svou řeč do počítače. Do počítačového slovníku můžete také přidat svá vlastní slova.

Praktické systémy pro rozpoznávání řeči: Používání HM2007

Praktický systém rozpoznávání řeči lze zkonstruovat pomocí IC Speech Recognition IC HM2007 . HM2007 je 48kolíkový integrovaný obvod, který poskytuje funkci rozpoznávání řeči. Funguje ve dvou režimech: manuální režim nebo režim CPU. V obou režimech je IC nejprve vyškolen v rozpoznávání slov uživatelem, který říká každé slovo na odpovídající číslo stisknuté na klávesnici. IC ukládá každý slovní signál na paměťové místo odpovídající tomuto slovu. Datový výstup z IC je propojen s mikrokontrolérem, odkud je zobrazen na LCD.

Praktické systémy rozpoznávání řeči

Normálně používáme pro provoz HM2007 manuální režim.

HM2007 se skládá z kolíku RDY, což je aktivní nízký kolík, což znamená, že IC je připraven pro tréninkové účely.
Hlasový vstup bude poskytován prostřednictvím mikrofonu připojeného ke kolíku MICIN IC.
Integrovaný obvod je propojen s klávesnicí, která slouží k zadávání čísel odpovídajících každému slovu. IC pracuje ve dvou funkcích - Clear a Train. Po stisknutí klávesy Train na klávesnici IC zahájí tréninkový proces.
Uživatel stiskne numerickou klávesu před stisknutím funkční klávesy ‚Vlak 'a vysloví požadované slovo do mikrofonu.
IC vysílá vysoký signál na pin ME (Memory Enable), který je připojen k odpovídajícímu pinu ME SRAM. 8bitový datový signál odpovídající stisknutému číslu je uložen v SRAM (externí RAM) přes externí sběrnici.
Poté, co je detekován hlasový vstup, je pin RDY na logické výšce a IC přejde do stavu rozpoznávání, kde zahájí proces rozpoznávání.
Výsledek procesu je dán datovou sběrnicí s vysokým kolíkem DEN (Data Enable).
8bitová data lze poté předat mikrokontroléru pomocí sériového procesoru rozhraní nebo nejprve blokovat pomocí západky IC 74HC573.
Mikrokontrolér je propojen s LCD a je naprogramován tak, aby se na displeji zobrazilo odpovídající slovo.

Jediným preventivním opatřením, které je třeba učinit, je nepoužívat homonyma (slova s podobným zvukem) a také se starat o vzrušení v hlase.

To je vše, jak a základní systém rozpoznávání řeči funguje. Jakékoli další vstupy mohou být přidány.