Բովանդակություն:
- Քայլ 1: ReSpeaker USB 4-Mic զանգված
- Քայլ 2: Տեղադրեք անհրաժեշտ գրադարանները
- Քայլ 3. Տեքստ-խոսք Python- ում Pyttsx3 գրադարանով
- Քայլ 4. Ամեն ինչ միասին դնել. Խոսքի ճանաչման ձևավորում Python- ի միջոցով ՝ Google Speech Recognition API- ի և Pyttsx3 գրադարանի միջոցով
Video: Google Speech API- ի և Python- ի միջոցով խոսքի ճանաչում. 4 քայլ
2024 Հեղինակ: John Day | [email protected]. Վերջին փոփոխված: 2024-01-30 09:47
Խոսքի ճանաչում
Խոսքի ճանաչումը բնական լեզվի մշակման մի մասն է, որը արհեստական բանականության ենթադաշտ է: Պարզ ասած ՝ խոսքի ճանաչումը համակարգչային ծրագրաշարի ունակությունն է ՝ բառերը և արտահայտությունները նույնականացնել խոսակցական լեզվով և դրանք դարձնել մարդկային ընթեռնելի տեքստ: Այն օգտագործվում է մի քանի ծրագրերում, ինչպիսիք են ձայնային օգնականի համակարգերը, տան ավտոմատացումը, ձայնի վրա հիմնված չատբոտերը, ձայնը փոխազդող ռոբոտը, արհեստական ինտելեկտը և այլն:
Կան տարբեր API- ներ (Application Programming Interface) `խոսքը ճանաչելու համար: Նրանք առաջարկում են ծառայություններ կամ անվճար, կամ վճարովի: Սրանք:
- CMU Sphinx
- Google Խոսքի ճանաչում
- Google Cloud Speech API
- Wit.ai
- Microsoft Bing ձայնի ճանաչում
- Houndify API
- IBM ելույթը տեքստին
- Սնոուբոյի թեժ բառերի հայտնաբերում
Մենք այստեղ կօգտագործենք Google Խոսքի ճանաչում, քանի որ այն չի պահանջում API- ի բանալին: Այս ձեռնարկը նպատակ ունի ներկայացնել ներածություն, թե ինչպես օգտագործել Google Speech Recognition գրադարանը Python- ում արտաքին խոսափողի օգնությամբ, ինչպիսին է Seeed Studio- ի ReSpeaker USB 4-Mic Array- ը: Չնայած արտաքին խոսափողը պարտադիր չէ օգտագործել, նույնիսկ նոութբուքի ներկառուցված խոսափողը կարող է օգտագործվել:
Քայլ 1: ReSpeaker USB 4-Mic զանգված
ReSpeaker USB Mic- ը AI- ի և ձայնային ծրագրերի համար նախատեսված չորս խոսափող սարք է, որը մշակվել է Seeed Studio- ի կողմից: Այն ունի 4 բարձրորակ, ներկառուցված բազմակողմանի խոսափողեր, որոնք նախատեսված են ձեր ձայնը լսելու սենյակի ցանկացած վայրից և 12 ծրագրավորվող RGB LED ցուցիչ: ReSpeaker USB խոսափողը աջակցում է Linux, macOS և Windows օպերացիոն համակարգերին: Մանրամասներին կարող եք ծանոթանալ այստեղ:
ReSpeaker USB խոսափողը գալիս է գեղեցիկ փաթեթով, որը պարունակում է հետևյալ տարրերը.
- Օգտագործողի ուղեցույց
- ReSpeaker USB խոսափող
- Միկրո USB USB մալուխ
Այսպիսով, մենք պատրաստ ենք սկսել:
Քայլ 2: Տեղադրեք անհրաժեշտ գրադարանները
Այս ձեռնարկի համար ես ենթադրում եմ, որ դուք օգտագործում եք Python 3.x.
Եկեք տեղադրենք գրադարանները.
pip3 տեղադրել SpeechRecognition
MacOS- ի համար նախ պետք է տեղադրել PortAudio- ն Homebrew- ով, այնուհետև PyAudio- ն տեղադրել pip3- ով.
brew install portaudio
Մենք գործարկում ենք հրամանը ՝ pyaudio տեղադրելու համար
pip3 տեղադրել pyaudio
Linux- ի համար կարող եք PyAudio- ն տեղադրել apt:
sudo apt-get տեղադրել python-pyaudio python3-pyaudio
Windows- ի համար կարող եք PyAudio- ն տեղադրել pip- ով.
pip տեղադրել pyaudio
Ստեղծեք նոր python ֆայլ
nano get_index.py
Տեղադրեք get_index.py կոդի հատվածի ներքևում.
ներմուծել պիաուդիո
p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: տպել ("Մուտքի սարքի ID", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))
Գործարկեք հետևյալ հրամանը.
python3 get_index.py
Իմ դեպքում, հրամանը էկրանին տալիս է հետևյալ ելքը.
Մուտքային սարքի id 1 - ReSpeaker 4 Mic Array (UAC1.0)
Մուտքային սարքի ID 2 - MacBook Air խոսափող
Փոխեք device_index- ը ինդեքսի համարին ՝ ըստ ձեր ընտրության ՝ ստորև նշված կոդի հատվածում:
ներմուծել խոսքի_ճանաչումը որպես sr
r = sr. Recognizer () speech = sr. Microphone (device_index = 1), որի աղբյուրը խոսքն է. տպել («մի բան ասա …») audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print («Դուք ասացիք.« + recog) բացառությամբ sr. UnknownValueError: print («Google Speech Recognition could not understand audio») բացառությամբ sr. RequestError as e: print ("Չհաջողվեց արդյունքներ պահանջել Google- ի խոսքի ճանաչման ծառայությունից. {0}": ձևաչափ (ե))
Սարքի ինդեքսը ընտրվել է 1, քանի որ ReSpeaker 4 Mic Array- ը լինելու է որպես հիմնական աղբյուր:
Քայլ 3. Տեքստ-խոսք Python- ում Pyttsx3 գրադարանով
Գոյություն ունեն մի քանի API ՝ տեքստը պիթոնում խոսքի փոխակերպելու համար: Այդպիսի API- ներից մեկը pyttsx3- ն է, որն, իմ կարծիքով, տեքստից խոսքի լավագույն հասանելի փաթեթն է: Այս փաթեթն աշխատում է Windows, Mac և Linux համակարգերում: Ստուգեք պաշտոնական փաստաթղթերը `տեսնելու, թե ինչպես է դա արվում:
Փաթեթը տեղադրելու համար օգտագործեք pip:
pip տեղադրել pyttsx3
Եթե դուք Windows- ում եք, ձեզ հարկավոր կլինի լրացուցիչ փաթեթ ՝ pypiwin32, որը այն պետք է մուտք ունենա Windows- ի մայրենի խոսքի API- ին:
pip տեղադրել pypiwin32
Փոխարկեք տեքստը խոսքի պիթոնի սցենար
ներմուծել pyttsx3
շարժիչ = pyttsx3.init ()
engine.setProperty («տոկոսադրույքը», 150) # Արագության տոկոս
engine.setProperty («ծավալը», 0.9) # հատոր 0-1
engine.say («Բարև, աշխարհ»)
engine.runAndWait ()
Քայլ 4. Ամեն ինչ միասին դնել. Խոսքի ճանաչման ձևավորում Python- ի միջոցով ՝ Google Speech Recognition API- ի և Pyttsx3 գրադարանի միջոցով
Ստորև բերված կոդը պատասխանատու է Google Speech Recognition- ի միջոցով մարդու խոսքը ճանաչելու և տեքստը խոսքի վերածելու համար `օգտագործելով pyttsx3 գրադարանը:
ներմուծել խոսքի_ճանաչումը որպես sr
ներմուծել pyttsx3 շարժիչ = pyttsx3.init () engine.setProperty ('տոկոսադրույքը', 200) engine.setProperty ('ծավալը', 0.9) r = sr. Recognizer () speech = sr. Միկրոֆոն (device_index = 1) ՝ որպես աղբյուր խոսք: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Դուք ասացիք." + recog) engine.say (" Դուք ասել էիք. պահանջել արդյունքներ Google Խոսքի ճանաչման ծառայությունից; {0} ". ձևաչափ (ե)) engine.runAndWait ()
Տպում է ելքը տերմինալում: Բացի այդ, այն նույնպես կվերածվի խոսքի:
Դուք ասացիք. Լոնդոնը Մեծ Բրիտանիայի մայրաքաղաքն է
Հուսով եմ, որ դուք այժմ ավելի լավ եք հասկանում, թե ինչպես է խոսքի ճանաչումն աշխատում ընդհանրապես և ամենակարևորը, թե ինչպես դա իրականացնել ՝ օգտագործելով Google Speech Recognition API- ն Python- ի հետ:
Եթե ունեք որևէ հարց կամ կարծիք? Թողեք մեկնաբանություն ստորև: Մնացեք մեզ հետ!
Խորհուրդ ենք տալիս:
Blynk հավելվածի միջոցով Nodemcu- ի միջոցով ինտերնետի միջոցով կառավարում. 5 քայլ
Blynk հավելվածի միջոցով Nodemcu- ի միջոցով ինտերնետի միջոցով կառավարելը. Բարև բոլորին, այսօր մենք ձեզ ցույց կտանք, թե ինչպես կարող եք վերահսկել LED- ը սմարթֆոնի միջոցով ինտերնետում
Արհեստական բանականություն և պատկերի ճանաչում HuskyLens- ի միջոցով. 6 քայլ (նկարներով)
Արհեստական բանականություն և պատկերի ճանաչում HuskyLens- ի միջոցով. Աքարշ այստեղ CETech- ից: Այս նախագծում մենք մտադիր ենք դիտել HuskyLens- ը DFRobot- ից: Դա արհեստական ինտելեկտով աշխատող տեսախցիկի մոդուլ է, որն ունակ է արհեստական ինտելեկտի մի քանի գործողություններ կատարել, ինչպիսիք են ՝ Face Recognitio
Խոսքի ճանաչում Arduino- ով (Bluetooth + LCD + Android) ՝ 6 քայլ
Խոսքի ճանաչում Arduino- ով (Bluetooth + LCD + Android). Այս նախագծում մենք պատրաստվում ենք խոսքի ճանաչում կատարել Arduino- ով, Bluetooth մոդուլով (HC-05) և LCD- ով: եկեք կառուցենք ձեր սեփական խոսքի ճանաչման սարքը
Դեմքի ճանաչում և նույնականացում - Arduino Face ID ՝ օգտագործելով OpenCV Python և Arduino. 6 քայլ
Դեմքի ճանաչում և նույնականացում | Arduino Face ID ՝ օգտագործելով OpenCV Python և Arduino. Դեմքի ճանաչում AKA face ID- ն մեր օրերում բջջային հեռախոսների ամենակարևոր հատկություններից է: Այսպիսով, ես ունեի մի հարց " կարո՞ղ եմ ունենալ դեմքի ID իմ Arduino նախագծի համար " և պատասխանը այո է … Իմ ճանապարհորդությունը սկսվեց հետևյալ կերպ. Քայլ 1. Մուտք դեպի մեզ
Թրթռման և բանավոր խոսքի միջոցով պտտվող մեքենաների կանխատեսելի սպասարկում. 8 քայլ
Պտտվող մեքենաների կանխատեսելի սպասարկում `օգտագործելով թրթռում և խոսք. Պտտվող մեքենաները, ինչպիսիք են քամու տուրբինները, հիդրոուրբինները, ինդուկցիոն շարժիչները և այլն, բախվում են տարբեր տեսակի մաշվածության: Այս անսարքությունների և մաշվածության մեծ մասը պայմանավորված են սարքի աննորմալ թրթռումներով: Այս մեքենաները հաճախ աշխատում են ծանր աշխատանքի տակ