Բովանդակություն:

Google Speech API- ի և Python- ի միջոցով խոսքի ճանաչում. 4 քայլ
Google Speech API- ի և Python- ի միջոցով խոսքի ճանաչում. 4 քայլ

Video: Google Speech API- ի և Python- ի միջոցով խոսքի ճանաչում. 4 քայլ

Video: Google Speech API- ի և Python- ի միջոցով խոսքի ճանաչում. 4 քայլ
Video: Ճանապարհային ճանապարհորդություն ԱՄՆ-ում | Անհավանական գեղեցիկ վայրեր՝ Արիզոնա, Նևադա, Յուտա 2024, Հուլիսի
Anonim
Խոսքի ճանաչում ՝ օգտագործելով Google Speech API և Python
Խոսքի ճանաչում ՝ օգտագործելով Google Speech API և Python

Խոսքի ճանաչում

Խոսքի ճանաչումը բնական լեզվի մշակման մի մասն է, որը արհեստական բանականության ենթադաշտ է: Պարզ ասած ՝ խոսքի ճանաչումը համակարգչային ծրագրաշարի ունակությունն է ՝ բառերը և արտահայտությունները նույնականացնել խոսակցական լեզվով և դրանք դարձնել մարդկային ընթեռնելի տեքստ: Այն օգտագործվում է մի քանի ծրագրերում, ինչպիսիք են ձայնային օգնականի համակարգերը, տան ավտոմատացումը, ձայնի վրա հիմնված չատբոտերը, ձայնը փոխազդող ռոբոտը, արհեստական ինտելեկտը և այլն:

Կան տարբեր API- ներ (Application Programming Interface) `խոսքը ճանաչելու համար: Նրանք առաջարկում են ծառայություններ կամ անվճար, կամ վճարովի: Սրանք:

  • CMU Sphinx
  • Google Խոսքի ճանաչում
  • Google Cloud Speech API
  • Wit.ai
  • Microsoft Bing ձայնի ճանաչում
  • Houndify API
  • IBM ելույթը տեքստին
  • Սնոուբոյի թեժ բառերի հայտնաբերում

Մենք այստեղ կօգտագործենք Google Խոսքի ճանաչում, քանի որ այն չի պահանջում API- ի բանալին: Այս ձեռնարկը նպատակ ունի ներկայացնել ներածություն, թե ինչպես օգտագործել Google Speech Recognition գրադարանը Python- ում արտաքին խոսափողի օգնությամբ, ինչպիսին է Seeed Studio- ի ReSpeaker USB 4-Mic Array- ը: Չնայած արտաքին խոսափողը պարտադիր չէ օգտագործել, նույնիսկ նոութբուքի ներկառուցված խոսափողը կարող է օգտագործվել:

Քայլ 1: ReSpeaker USB 4-Mic զանգված

ReSpeaker USB 4-Mic զանգված
ReSpeaker USB 4-Mic զանգված
ReSpeaker USB 4-Mic զանգված
ReSpeaker USB 4-Mic զանգված
ReSpeaker USB 4-Mic զանգված
ReSpeaker USB 4-Mic զանգված

ReSpeaker USB Mic- ը AI- ի և ձայնային ծրագրերի համար նախատեսված չորս խոսափող սարք է, որը մշակվել է Seeed Studio- ի կողմից: Այն ունի 4 բարձրորակ, ներկառուցված բազմակողմանի խոսափողեր, որոնք նախատեսված են ձեր ձայնը լսելու սենյակի ցանկացած վայրից և 12 ծրագրավորվող RGB LED ցուցիչ: ReSpeaker USB խոսափողը աջակցում է Linux, macOS և Windows օպերացիոն համակարգերին: Մանրամասներին կարող եք ծանոթանալ այստեղ:

ReSpeaker USB խոսափողը գալիս է գեղեցիկ փաթեթով, որը պարունակում է հետևյալ տարրերը.

  • Օգտագործողի ուղեցույց
  • ReSpeaker USB խոսափող
  • Միկրո USB USB մալուխ

Այսպիսով, մենք պատրաստ ենք սկսել:

Քայլ 2: Տեղադրեք անհրաժեշտ գրադարանները

Այս ձեռնարկի համար ես ենթադրում եմ, որ դուք օգտագործում եք Python 3.x.

Եկեք տեղադրենք գրադարանները.

pip3 տեղադրել SpeechRecognition

MacOS- ի համար նախ պետք է տեղադրել PortAudio- ն Homebrew- ով, այնուհետև PyAudio- ն տեղադրել pip3- ով.

brew install portaudio

Մենք գործարկում ենք հրամանը ՝ pyaudio տեղադրելու համար

pip3 տեղադրել pyaudio

Linux- ի համար կարող եք PyAudio- ն տեղադրել apt:

sudo apt-get տեղադրել python-pyaudio python3-pyaudio

Windows- ի համար կարող եք PyAudio- ն տեղադրել pip- ով.

pip տեղադրել pyaudio

Ստեղծեք նոր python ֆայլ

nano get_index.py

Տեղադրեք get_index.py կոդի հատվածի ներքևում.

ներմուծել պիաուդիո

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: տպել ("Մուտքի սարքի ID", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Գործարկեք հետևյալ հրամանը.

python3 get_index.py

Իմ դեպքում, հրամանը էկրանին տալիս է հետևյալ ելքը.

Մուտքային սարքի id 1 - ReSpeaker 4 Mic Array (UAC1.0)

Մուտքային սարքի ID 2 - MacBook Air խոսափող

Փոխեք device_index- ը ինդեքսի համարին ՝ ըստ ձեր ընտրության ՝ ստորև նշված կոդի հատվածում:

ներմուծել խոսքի_ճանաչումը որպես sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1), որի աղբյուրը խոսքն է. տպել («մի բան ասա …») audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print («Դուք ասացիք.« + recog) բացառությամբ sr. UnknownValueError: print («Google Speech Recognition could not understand audio») բացառությամբ sr. RequestError as e: print ("Չհաջողվեց արդյունքներ պահանջել Google- ի խոսքի ճանաչման ծառայությունից. {0}": ձևաչափ (ե))

Սարքի ինդեքսը ընտրվել է 1, քանի որ ReSpeaker 4 Mic Array- ը լինելու է որպես հիմնական աղբյուր:

Քայլ 3. Տեքստ-խոսք Python- ում Pyttsx3 գրադարանով

Գոյություն ունեն մի քանի API ՝ տեքստը պիթոնում խոսքի փոխակերպելու համար: Այդպիսի API- ներից մեկը pyttsx3- ն է, որն, իմ կարծիքով, տեքստից խոսքի լավագույն հասանելի փաթեթն է: Այս փաթեթն աշխատում է Windows, Mac և Linux համակարգերում: Ստուգեք պաշտոնական փաստաթղթերը `տեսնելու, թե ինչպես է դա արվում:

Փաթեթը տեղադրելու համար օգտագործեք pip:

pip տեղադրել pyttsx3

Եթե դուք Windows- ում եք, ձեզ հարկավոր կլինի լրացուցիչ փաթեթ ՝ pypiwin32, որը այն պետք է մուտք ունենա Windows- ի մայրենի խոսքի API- ին:

pip տեղադրել pypiwin32

Փոխարկեք տեքստը խոսքի պիթոնի սցենար

ներմուծել pyttsx3

շարժիչ = pyttsx3.init ()

engine.setProperty («տոկոսադրույքը», 150) # Արագության տոկոս

engine.setProperty («ծավալը», 0.9) # հատոր 0-1

engine.say («Բարև, աշխարհ»)

engine.runAndWait ()

Քայլ 4. Ամեն ինչ միասին դնել. Խոսքի ճանաչման ձևավորում Python- ի միջոցով ՝ Google Speech Recognition API- ի և Pyttsx3 գրադարանի միջոցով

Ստորև բերված կոդը պատասխանատու է Google Speech Recognition- ի միջոցով մարդու խոսքը ճանաչելու և տեքստը խոսքի վերածելու համար `օգտագործելով pyttsx3 գրադարանը:

ներմուծել խոսքի_ճանաչումը որպես sr

ներմուծել pyttsx3 շարժիչ = pyttsx3.init () engine.setProperty ('տոկոսադրույքը', 200) engine.setProperty ('ծավալը', 0.9) r = sr. Recognizer () speech = sr. Միկրոֆոն (device_index = 1) ՝ որպես աղբյուր խոսք: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Դուք ասացիք." + recog) engine.say (" Դուք ասել էիք. պահանջել արդյունքներ Google Խոսքի ճանաչման ծառայությունից; {0} ". ձևաչափ (ե)) engine.runAndWait ()

Տպում է ելքը տերմինալում: Բացի այդ, այն նույնպես կվերածվի խոսքի:

Դուք ասացիք. Լոնդոնը Մեծ Բրիտանիայի մայրաքաղաքն է

Հուսով եմ, որ դուք այժմ ավելի լավ եք հասկանում, թե ինչպես է խոսքի ճանաչումն աշխատում ընդհանրապես և ամենակարևորը, թե ինչպես դա իրականացնել ՝ օգտագործելով Google Speech Recognition API- ն Python- ի հետ:

Եթե ունեք որևէ հարց կամ կարծիք? Թողեք մեկնաբանություն ստորև: Մնացեք մեզ հետ!

Խորհուրդ ենք տալիս: