Google Speech API- ի և Python- ի միջոցով խոսքի ճանաչում. 4 քայլ

Բովանդակություն:

Քայլ 1: ReSpeaker USB 4-Mic զանգված
Քայլ 2: Տեղադրեք անհրաժեշտ գրադարանները
Քայլ 3. Տեքստ-խոսք Python- ում Pyttsx3 գրադարանով
Քայլ 4. Ամեն ինչ միասին դնել. Խոսքի ճանաչման ձևավորում Python- ի միջոցով ՝ Google Speech Recognition API- ի և Pyttsx3 գրադարանի միջոցով

2025 Հեղինակ: John Day | [email protected]. Վերջին փոփոխված: 2025-01-23 14:48

Խոսքի ճանաչում

Խոսքի ճանաչումը բնական լեզվի մշակման մի մասն է, որը արհեստական բանականության ենթադաշտ է: Պարզ ասած ՝ խոսքի ճանաչումը համակարգչային ծրագրաշարի ունակությունն է ՝ բառերը և արտահայտությունները նույնականացնել խոսակցական լեզվով և դրանք դարձնել մարդկային ընթեռնելի տեքստ: Այն օգտագործվում է մի քանի ծրագրերում, ինչպիսիք են ձայնային օգնականի համակարգերը, տան ավտոմատացումը, ձայնի վրա հիմնված չատբոտերը, ձայնը փոխազդող ռոբոտը, արհեստական ինտելեկտը և այլն:

Կան տարբեր API- ներ (Application Programming Interface) `խոսքը ճանաչելու համար: Նրանք առաջարկում են ծառայություններ կամ անվճար, կամ վճարովի: Սրանք:

CMU Sphinx
Google Խոսքի ճանաչում
Google Cloud Speech API
Wit.ai
Microsoft Bing ձայնի ճանաչում
Houndify API
IBM ելույթը տեքստին
Սնոուբոյի թեժ բառերի հայտնաբերում

Մենք այստեղ կօգտագործենք Google Խոսքի ճանաչում, քանի որ այն չի պահանջում API- ի բանալին: Այս ձեռնարկը նպատակ ունի ներկայացնել ներածություն, թե ինչպես օգտագործել Google Speech Recognition գրադարանը Python- ում արտաքին խոսափողի օգնությամբ, ինչպիսին է Seeed Studio- ի ReSpeaker USB 4-Mic Array- ը: Չնայած արտաքին խոսափողը պարտադիր չէ օգտագործել, նույնիսկ նոութբուքի ներկառուցված խոսափողը կարող է օգտագործվել:

Քայլ 1: ReSpeaker USB 4-Mic զանգված

ReSpeaker USB Mic- ը AI- ի և ձայնային ծրագրերի համար նախատեսված չորս խոսափող սարք է, որը մշակվել է Seeed Studio- ի կողմից: Այն ունի 4 բարձրորակ, ներկառուցված բազմակողմանի խոսափողեր, որոնք նախատեսված են ձեր ձայնը լսելու սենյակի ցանկացած վայրից և 12 ծրագրավորվող RGB LED ցուցիչ: ReSpeaker USB խոսափողը աջակցում է Linux, macOS և Windows օպերացիոն համակարգերին: Մանրամասներին կարող եք ծանոթանալ այստեղ:

ReSpeaker USB խոսափողը գալիս է գեղեցիկ փաթեթով, որը պարունակում է հետևյալ տարրերը.

Օգտագործողի ուղեցույց
ReSpeaker USB խոսափող
Միկրո USB USB մալուխ

Այսպիսով, մենք պատրաստ ենք սկսել:

Քայլ 2: Տեղադրեք անհրաժեշտ գրադարանները

Այս ձեռնարկի համար ես ենթադրում եմ, որ դուք օգտագործում եք Python 3.x.

Եկեք տեղադրենք գրադարանները.

pip3 տեղադրել SpeechRecognition

MacOS- ի համար նախ պետք է տեղադրել PortAudio- ն Homebrew- ով, այնուհետև PyAudio- ն տեղադրել pip3- ով.

brew install portaudio

Մենք գործարկում ենք հրամանը ՝ pyaudio տեղադրելու համար

pip3 տեղադրել pyaudio

Linux- ի համար կարող եք PyAudio- ն տեղադրել apt:

sudo apt-get տեղադրել python-pyaudio python3-pyaudio

Windows- ի համար կարող եք PyAudio- ն տեղադրել pip- ով.

pip տեղադրել pyaudio

Ստեղծեք նոր python ֆայլ

nano get_index.py

Տեղադրեք get_index.py կոդի հատվածի ներքևում.

ներմուծել պիաուդիո

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: տպել ("Մուտքի սարքի ID", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Գործարկեք հետևյալ հրամանը.

python3 get_index.py

Իմ դեպքում, հրամանը էկրանին տալիս է հետևյալ ելքը.

Մուտքային սարքի id 1 - ReSpeaker 4 Mic Array (UAC1.0)

Մուտքային սարքի ID 2 - MacBook Air խոսափող

Փոխեք device_index- ը ինդեքսի համարին ՝ ըստ ձեր ընտրության ՝ ստորև նշված կոդի հատվածում:

ներմուծել խոսքի_ճանաչումը որպես sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1), որի աղբյուրը խոսքն է. տպել («մի բան ասա …») audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print («Դուք ասացիք.« + recog) բացառությամբ sr. UnknownValueError: print («Google Speech Recognition could not understand audio») բացառությամբ sr. RequestError as e: print ("Չհաջողվեց արդյունքներ պահանջել Google- ի խոսքի ճանաչման ծառայությունից. {0}": ձևաչափ (ե))

Սարքի ինդեքսը ընտրվել է 1, քանի որ ReSpeaker 4 Mic Array- ը լինելու է որպես հիմնական աղբյուր:

Քայլ 3. Տեքստ-խոսք Python- ում Pyttsx3 գրադարանով

Գոյություն ունեն մի քանի API ՝ տեքստը պիթոնում խոսքի փոխակերպելու համար: Այդպիսի API- ներից մեկը pyttsx3- ն է, որն, իմ կարծիքով, տեքստից խոսքի լավագույն հասանելի փաթեթն է: Այս փաթեթն աշխատում է Windows, Mac և Linux համակարգերում: Ստուգեք պաշտոնական փաստաթղթերը `տեսնելու, թե ինչպես է դա արվում:

Փաթեթը տեղադրելու համար օգտագործեք pip:

pip տեղադրել pyttsx3

Եթե դուք Windows- ում եք, ձեզ հարկավոր կլինի լրացուցիչ փաթեթ ՝ pypiwin32, որը այն պետք է մուտք ունենա Windows- ի մայրենի խոսքի API- ին:

pip տեղադրել pypiwin32

Փոխարկեք տեքստը խոսքի պիթոնի սցենար

ներմուծել pyttsx3

շարժիչ = pyttsx3.init ()

engine.setProperty («տոկոսադրույքը», 150) # Արագության տոկոս

engine.setProperty («ծավալը», 0.9) # հատոր 0-1

engine.say («Բարև, աշխարհ»)

engine.runAndWait ()

Քայլ 4. Ամեն ինչ միասին դնել. Խոսքի ճանաչման ձևավորում Python- ի միջոցով ՝ Google Speech Recognition API- ի և Pyttsx3 գրադարանի միջոցով

Ստորև բերված կոդը պատասխանատու է Google Speech Recognition- ի միջոցով մարդու խոսքը ճանաչելու և տեքստը խոսքի վերածելու համար `օգտագործելով pyttsx3 գրադարանը:

ներմուծել խոսքի_ճանաչումը որպես sr

ներմուծել pyttsx3 շարժիչ = pyttsx3.init () engine.setProperty ('տոկոսադրույքը', 200) engine.setProperty ('ծավալը', 0.9) r = sr. Recognizer () speech = sr. Միկրոֆոն (device_index = 1) ՝ որպես աղբյուր խոսք: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Դուք ասացիք." + recog) engine.say (" Դուք ասել էիք. պահանջել արդյունքներ Google Խոսքի ճանաչման ծառայությունից; {0} ". ձևաչափ (ե)) engine.runAndWait ()

Տպում է ելքը տերմինալում: Բացի այդ, այն նույնպես կվերածվի խոսքի:

Դուք ասացիք. Լոնդոնը Մեծ Բրիտանիայի մայրաքաղաքն է

Հուսով եմ, որ դուք այժմ ավելի լավ եք հասկանում, թե ինչպես է խոսքի ճանաչումն աշխատում ընդհանրապես և ամենակարևորը, թե ինչպես դա իրականացնել ՝ օգտագործելով Google Speech Recognition API- ն Python- ի հետ:

Եթե ունեք որևէ հարց կամ կարծիք? Թողեք մեկնաբանություն ստորև: Մնացեք մեզ հետ!

Խորհուրդ ենք տալիս:

Blynk հավելվածի միջոցով Nodemcu- ի միջոցով ինտերնետի միջոցով կառավարում. 5 քայլ

Blynk հավելվածի միջոցով Nodemcu- ի միջոցով ինտերնետի միջոցով կառավարելը. Բարև բոլորին, այսօր մենք ձեզ ցույց կտանք, թե ինչպես կարող եք վերահսկել LED- ը սմարթֆոնի միջոցով ինտերնետում

Արհեստական բանականություն և պատկերի ճանաչում HuskyLens- ի միջոցով. 6 քայլ (նկարներով)

Արհեստական բանականություն և պատկերի ճանաչում HuskyLens- ի միջոցով. Աքարշ այստեղ CETech- ից: Այս նախագծում մենք մտադիր ենք դիտել HuskyLens- ը DFRobot- ից: Դա արհեստական ինտելեկտով աշխատող տեսախցիկի մոդուլ է, որն ունակ է արհեստական ինտելեկտի մի քանի գործողություններ կատարել, ինչպիսիք են ՝ Face Recognitio

Խոսքի ճանաչում Arduino- ով (Bluetooth + LCD + Android) ՝ 6 քայլ

Խոսքի ճանաչում Arduino- ով (Bluetooth + LCD + Android). Այս նախագծում մենք պատրաստվում ենք խոսքի ճանաչում կատարել Arduino- ով, Bluetooth մոդուլով (HC-05) և LCD- ով: եկեք կառուցենք ձեր սեփական խոսքի ճանաչման սարքը

Դեմքի ճանաչում և նույնականացում - Arduino Face ID ՝ օգտագործելով OpenCV Python և Arduino. 6 քայլ

Դեմքի ճանաչում և նույնականացում | Arduino Face ID ՝ օգտագործելով OpenCV Python և Arduino. Դեմքի ճանաչում AKA face ID- ն մեր օրերում բջջային հեռախոսների ամենակարևոր հատկություններից է: Այսպիսով, ես ունեի մի հարց " կարո՞ղ եմ ունենալ դեմքի ID իմ Arduino նախագծի համար " և պատասխանը այո է … Իմ ճանապարհորդությունը սկսվեց հետևյալ կերպ. Քայլ 1. Մուտք դեպի մեզ

Թրթռման և բանավոր խոսքի միջոցով պտտվող մեքենաների կանխատեսելի սպասարկում. 8 քայլ

Պտտվող մեքենաների կանխատեսելի սպասարկում `օգտագործելով թրթռում և խոսք. Պտտվող մեքենաները, ինչպիսիք են քամու տուրբինները, հիդրոուրբինները, ինդուկցիոն շարժիչները և այլն, բախվում են տարբեր տեսակի մաշվածության: Այս անսարքությունների և մաշվածության մեծ մասը պայմանավորված են սարքի աննորմալ թրթռումներով: Այս մեքենաները հաճախ աշխատում են ծանր աշխատանքի տակ

Google Speech API- ի և Python- ի միջոցով խոսքի ճանաչում. 4 քայլ

Բովանդակություն:

Խոսքի ճանաչում

Քայլ 1: ReSpeaker USB 4-Mic զանգված

Քայլ 2: Տեղադրեք անհրաժեշտ գրադարանները

Քայլ 3. Տեքստ-խոսք Python- ում Pyttsx3 գրադարանով

Քայլ 4. Ամեն ինչ միասին դնել. Խոսքի ճանաչման ձևավորում Python- ի միջոցով ՝ Google Speech Recognition API- ի և Pyttsx3 գրադարանի միջոցով

Խորհուրդ ենք տալիս:

Blynk հավելվածի միջոցով Nodemcu- ի միջոցով ինտերնետի միջոցով կառավարում. 5 քայլ

Արհեստական բանականություն և պատկերի ճանաչում HuskyLens- ի միջոցով. 6 քայլ (նկարներով)

Խոսքի ճանաչում Arduino- ով (Bluetooth + LCD + Android) ՝ 6 քայլ

Դեմքի ճանաչում և նույնականացում - Arduino Face ID ՝ օգտագործելով OpenCV Python և Arduino. 6 քայլ

Թրթռման և բանավոր խոսքի միջոցով պտտվող մեքենաների կանխատեսելի սպասարկում. 8 քայլ

Ստվարաթղթե բարձրախոս ջարդոնից. 5 քայլ (նկարներով)

Arduino Pac-Man Ghost կոստյումը `3 քայլ

Twitter- ը Eclipse նախագծին միացնելով Twitter4J API- ով ՝ 5 քայլ

Popsicle Stick Robotic Arm (Այլընտրանքային ձևաչափ) ՝ 6 քայլ

ErgoDox մեխանիկական ստեղնաշար. 11 քայլ (նկարներով)

Hands Free MaKey MaKey Ground ապարանջան ՝ 8 քայլ

Կառուցեք ցածր գնով անիվներով ռոբոտ -խաղալիք ՝ 9 քայլ

Ամենապարզ DIY մակրո ստեղնաշարը. 10 քայլ (նկարներով)

ESP8266 RGB LED STRIP WIFI Կառավարում - NODEMCU Որպես IR հեռակառավարիչ ՝ առաջնորդվող ժապավենի համար, որը վերահսկվում է WiFi- ով - RGB LED STRIP սմարթֆոնի կառավարում ՝ 4 քայլ

Պարզ թվային ժամացույց ՝ օգտագործելով Arduino Nano և DS1307: 4 քայլ

Arduino Flappy Bird խաղ. 6 քայլ

Ստեղծեք IPhone հավելված, որը խոսում է մասնիկների ցանցի հետ. 4 քայլ

5200 Double Transistor Bass Audio Amplifier: 9 քայլ

Բարբի տուփ. Քողարկված պատյան/ բում ձեր Mp3 նվագարկիչի համար. 4 քայլ (նկարներով)

Ստեղծեք ձեր սեփական էլեկտրոնային խաղային փաթեթը `7 քայլ

DIY համակարգչի միջավայրի լուսավորություն Arduino- ի և WS2812b LED- ների միջոցով. 6 քայլ (նկարներով)