"Linux" balso atpažinimo valstybė

by Gary Newell

Įvadas

Aš praleidžiu daug laiko straipsnių tyrinėjimui ir gana dažnai galvoju apie straipsnio temą, važiuodamasis geležinkelio stotimi, o taip pat ir apskritai.

Vienas vakaras, vaikščiodamas 1,5 mylios nuo stoties nuo mano darbo, maniau, "ar tai būtų gerai, jei galėčiau įrašyti tai, ką norėjau pasakyti, ir automatiškai perrašyti į teksto failą, kurį vėliau galėčiau redaguoti ir formatuoti" .

Aš išleidau daug ilgų valandų, žiūriu į įvairias balso atpažinimo ir diktavimo galimybes, įskaitant įrašymą tiesiai per mikrofoną naudodamas diktatūros programinę įrangą "Linux", įrašydamas failą į MP3 arba WAV formatą ir konvertuodamas jį per komandinę eilutę, taip pat naudodamas "Chrome" ir "Android" programas.

Šis straipsnis pabrėžia mano išvadas po sunkių darbo dienų.

Linux parinktys

Bandymas rasti "diktofono" ir balso atpažinimo programinę įrangą "Linux" nėra taip paprasta, kaip gali būti, ir galimybės nėra tokios protingos.

Šiame Vikipedijos puslapyje yra galimų variantų sąrašas, įskaitant CMU Sphinx, Julius ir Simon.

Aš naudoju "SparkyLinux", kuris šiuo metu yra pagrįstas "Debian Testing", ir galiu pasakyti, kad vienintelis saugyklose esantis balso atpažinimo paketas yra "Sphinx".

Gimtoji "Linux" programa, kurią bandžiau bandyti, buvo PocketSphinx, kurią aš naudoju konvertuojant WAV failus į tekstą ir "Freespeech-VR", kuri yra "python" programa, kuri leidžia įrašyti tiesiai iš mikrofono.

Aš taip pat bandžiau keletą "Chrome" programų, įskaitant "VoiceNote II" ir "Dictanote".

Galiausiai bandžiau "Dictation and Email" ir "Talk and Talk Dictation" "Android Apps".

Freespeech-VR

"Freespeech-VR" nėra standartiniuose saugyklose. Aš atsisiųsti failus iš čia.

Atsisiuntus ir ištraukus zip failo turinį, atidariau terminalą ir naršiau į aplanką, kuriame buvo išgauti failai.

Aš įvedžiau šią komandą, norėdamas atidaryti freespeech-vr.

sudo python freespeech-vr

Aš turiu porą ausinių su gana padoriu mikrofonu ir gana aiškiu pietų anglų akcentu.

Lange freespeech-vr pasirodė toks tekstas:

Sveiki atvykę į rezultatų šunų padėtį Šiandien užtikrinkite, kaip tvarkomi testai Turi testuoti Kada Teksto naudojimas yra sistemos kelias Kalba Aš Kiekvienam vieninteliui buvo tik Tikrai būnant ir Vienos vištos kaip auksinė sistema Ea, kai mano vardas kitą telefoną skambina telefonu Šis failas Netrukus telefonas telefonu į rankas-erdvę sfinksas Going Tai nėra telefonai bus dalijamasi Apmokyti ir ir įrankiai Naudokite kalbėti Kai baigsite pasakyti naudoti failą Last a istorija A ir naudojimasis "Kada yra labai sėkmingas" Šis "Linux" buvo kaip jūs išvengti

Norėčiau tik dabar pasakyti, kad tai nėra "Dogs" tinklalapio tinklalapis, ir niekuomet minėjau nieko bendro su auksiniais viščiukais. Aš iš tikrųjų bandžiau aprašyti balso atpažinimo programinės įrangos naudojimą.

Aš bandžiau programinę įrangą keletą kartų, įskaitant skirtingą piką ir greitį, bet tikslumas buvo prastas.

PocketSphinx

PocketSphinx gali priimti WAV failą ir konvertuoti jį į tekstą naudodamasis komandų eilute.

"PocketSphinx" yra prieinamas Debian saugyklose ir turėtų būti prieinamas daugeliui paskirstymų.

Pagrindinis dalykas, kurį radau su PocketSphinx, yra tai, kad jūs iš tikrųjų reikia laipsnio balso atpažinimo, kalbos failų, žodynų ir mokymo sistemos koncepcijoje.

Įdiegę "PocketSphinx", turite eiti į CMU Sphinx svetainę ir skaityti kiek įmanoma daugiau informacijos. Taip pat turite atsisiųsti šį pavyzdinį failą.

JAV anglų kalbos modelis

(Jei nesate gimtoji anglų kalba, pasirinkite jums tinkamą kalbos modelį).

"PocketSphinx" ir "Sphinx" dokumentaciją apskritai sunkiai suprantama, nes iš žodžių rinkmenų naudojamasi galimų žodžių ir kalbos modelių sąraše, kuriame pateikiami potencialių žodžių sąrašai.

Norėdami išbandyti "PocketSphinx", aš naudoju savo paties balsą, "Al Pacino" fragmentą "The Devils Advocate" ir "Morgan Freeman" fragmentą. Tikslas buvo išbandyti skirtingus balsus, ir man niekas negali pasakoti tokios istorijos kaip Morganas Freemanas ir niekas nepateikia linijos, kaip Al Pacino.

Kad "PocketSphinx" veiktų, jis turi WAV failą ir turi būti tam tikrame formate. Jei failas yra MP3 formatu, naudokite komandą ffmpeg, kad paverstumėte ją WAV formatu:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -is 16000 outputfilename.wav

Norėdami paleisti PocketSphinx, naudokite šią komandą:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-lt-us.lm 2> voice2.log

pocketsphinx_continuous užima WAV failą ir paverčia jį tekstu.

Pocketsphinx komandoje nurodoma naudoti žodynų failą "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" su kalbos modeliu "cmusphinx-5.0-lt-us.lm". Failas, kuris yra konvertuojamas į tekstą, vadinamas voice2.wav (tai įrašas, kurį aš padariau balsu). Galiausiai 2> pateikia visas išsamų verbavimą, kurio jums nebūtinai reikia, į failą, pavadintą voice2.log. Tikrieji testavimo rezultatai rodomi terminalo lange.

Rezultatai naudojant mano balsą yra tokie:

Sveiki atvykę į kitą net apie šią savaitę temą, apie kurią atpažinimo programinę įrangą minutė

Rezultatai nėra tokie siaubingi, kaip ir "freespeech-vr", tačiau vis dar nėra labai naudingi. Tada aš bandžiau naudoti "PocketSphinx" su "Al Pacino", bet tai vis tiek nepateikė rezultatų.

Galiausiai aš bandžiau naudoti Morgano Freemano balsą iš filmo "Bruce Almighty" ir čia pateikiami rezultatai:

000000000: mes pas ją
000000001: visi, kad sunku, taip, tą dieną, kad dabar, taip, taip, tai yra labiausiai mes esame gyvi, aš dalis karšta
000000002: lifte, kuris yra raktas iš šiek tiek beisbolo dienos arba žino, ką daryti gyvenime
000000003: kas atsigaus
000000004: jie nepasirašė
000000005: jie turi man teisę
000000006: turite būti taisyklės
000000007: aš laukiau tavęs
000000008: ir jis sužinojo čia, kad buvo iliustracija buvo žudikas Kalėdų vakarėlis
000000009: pasirodo vienas iš būdų parašyti o. asil maniau, kad mažai visada dėvėti vieną
000000010: kaip vieninga problema nesuteiks jam to, ką aš juos įvertinsiu tą pačią dieną, kai mes ne viską, ką manote, kad aš pasaulyje, bus namuose ir aš tai mačiau
000000011: tėvas, turintis jį
000000012: apie tai daug
000000013: ar tai duota
000000014: viskas, ko tu neprilygai
000000015: rudenį
000000016: gerai palaikykite tik už mane
000000017: tai nelaimingas, jei manau, taip pat kad jie ketina turėti tai, kad visi, kas susituokė, buvo ne man patinka kitaip nei būdas

Mano testas vargu ar gali būti laikomas moksliniu, o PocketSphinx kūrėjai gali teigti, kad neteisingai naudoju programinę įrangą. Taip pat yra metodas, vadinamas balso mokymu, kurį galima naudoti geresniems žodynams ir kalbos failams kurti.

Mano svarbiausia nuomonė yra ta, kad tai yra pernelyg sudėtinga standartiniam kasdieniam naudojimui.

VoiceNote II

"VoiceNote II" yra "Chrome" programa, kurioje naudojama "Google Voice" atpažinimo API.

Jei naudojate "Chrome" arba "Chromium" naršykles, galite įdiegti "VoiceNote II" per internetinę parduotuvę .

"VoiceNote II" piktogramos išdėstytos keistai, nes lango apačioje reikia nustatyti kalbą, o redagavimo mygtukas taip pat yra apačioje, tačiau įrašymo mygtukas yra dešinėje viršuje.

Pirmas dalykas, kurį jums reikia padaryti, yra pasirinkti kalbą, o tai gali būti pasiekta spustelėję pasaulio piktogramą.

Norėdami pradėti įrašyti, spustelėkite mikrofono piktogramą ir pradėkite kalbėti savo mikrofonu. Norint gauti geriausius rezultatus kalbėjau lėtai, todėl labai svarbu, kad programinė įranga galėtų atsilikti.

Rezultatai buvo ne taip gerai, kaip galima pamatyti toliau:

Sveiki ir sveiki atvykę prisijungti. "About.com" šiuolaikiniai straipsniai apie balso ir teksto konvertavimo dunelm farrell recesiją 2008 kaip konversijas, ir jis sakė, kad gerai palaikė geriausią būdą, kaip radau teksto priedą, rodantį 2014debian arba rpm paketą, atidarykite jo balso tipą, kad kalbėtumėte, atidarykite tekstą, jei norite pasirinkti vs Edinburgo pasirinko prancūzų vokiečių kalbą, kad jūs įjungtumėte Jungtinėje karalystėje esantį jūrų mikrofoną, kurį baigėte rašyti savo tekstą kaip teksto failą savo sėkmei. Tai yra labai standartinis anglų akcentas iš pietų Anglijos, geriausias, bet aš einu į textvia šį torrentą su faktiniu dokumentu, ir jūs galite pamatyti, kokios klaidos, kurias jūs norite išklausyti draugais

Dictanote

"Dictanote" yra dar viena "Chrome" programa, kuri gali būti naudojama diktavimo tikslais ir atrodo kaip intuityvi, tačiau rezultatai nebuvo geresni nei "VoiceNote II".

Aš naudoju tik "Dictanote" demonstracinę versiją, kuri neleidžia kurti naujų dokumentų, bet leidžia kalbėtis su tekstu, kuris jau yra redaktoriuje. Aš galėjau išbandyti balso atpažįstamą, bet rezultatai nebuvo geresni nei VoiceNote II, taigi aš nepasirašiau už "pro" versiją.

Dikcija ir paštas

"Dictation And Mail" yra "Android" programa, kuri naudoja vietinę "Google" balso atpažinimo API.

"Diktofono ir pašto" rezultatai buvo daug geresni už bet kurią kitą programą, kuri bandė iki šio punkto.

Sveiki atvykę į "Linux" apie., šiandien mes kalbame apie garso konvertavimą į tekstą

"Diktofono ir pašto" apgauti yra kalbėti lėtai ir išreikšti, taip pat galite su lygiu akcentu.

Pasibaigus kalbai, galite siųsti el. Laiškus su savimi.

Pokalbio ir pokalbio diktavimas

Kitas "Android" programas, kurį bandžiau, buvo "Talk and Talk Dictation".

Šiai programai skirta sąsaja buvo geriausia iš krūva, o balso atpažinimas iš tikrųjų veikė labai gerai. Įrašius diktavimą, aš galėjau pasidalinti rezultatais įvairiais būdais, taip pat ir el. Paštu.

Sveiki atvykę į linux about.com šiandien mes kalbame apie kalbos konvertavimą į tekstą

Kaip matote, tekstas aukščiau yra toks pat aiškus, kaip jūs galbūt tikitės gauti. Kalbėjimas lėtai yra raktas.

Santrauka

Gimtoji "Linux" turi tam tikrą kelią, susijusį su balso atpažinimo ir ypač diktavimo. Yra keletas programų, kurios naudoja "Google Voice" API, tačiau jos dar nėra įtrauktos į saugyklas.

"ChromeOS" programos yra šiek tiek geresnės, bet geriausiai pasiekta naudojant "Android" telefoną. Galbūt telefone yra geresnis mikrofonas, todėl balso atpažinimo programinė įranga turi geresnes galimybes konvertuoti.

Kad balso atpažinimas taptų tikrai naudojamas, jis turi būti intuityvesnis ir reikalingas mažesnis nustatymas. Norint, kad tai būtų suprantama, jums nereikės netvarkytis kalbų modelių ir žodynų.

Vis dėlto vertinau, kad visas balso atpažinimo menas yra labai sudėtingas, nes kiekvienas turi skirtingą balsą ir yra tiek daug dialektų iš vienos šalies regiono į regioną, kuris nekenčia nerimą dėl šimtų kalbų, naudojamų visame pasaulyje.

Todėl mano analizė yra ta, kad balso atpažinimo programinė įranga vis dar vyksta.