Как вывести речь с микрофона

@gdfgnggf · Регистрация: 10.09.2022

Author24 — интернет-сервис помощи студентам

хочу чтобы программа брала звук с микрофона и выводила на экран

@nikulin_artyom1 · 30.08.2023, 13:59

gdfgnggf, библиотека pyaudio есть для этого.
Примерный код:

Python

import pyaudio
p = pyaudio.PyAudio()
 
# открываем поток для чтения данных с микрофона
stream = p.open(format=pyaudio.paInt16, channels=1, rate=44100, input=True, frames_per_buffer=1024)
 
# читаем данные из потока и выводим их на экран
while True:
    data = stream.read(1024)
    print(data)
 
# останавливаем поток и завершаем работу программы
stream.stop_stream()
stream.close()
p.terminate()

@gdfgnggf · 30.08.2023, 14:45 **[ТС]**

а как из этого текст получить выводит какие то буквы и цифры

@nikulin_artyom1 · 30.08.2023, 14:58

gdfgnggf, SpeechRecognition, API Speech-to-Text от Google

@gdfgnggf · 30.08.2023, 15:00 **[ТС]**

можете пожалуйста пример показать как это сделать

@nikulin_artyom1 · 30.08.2023, 15:01

Python

import speech_recognition as sr
 
init_rec = sr.Recognizer()
print("Говорите!!")
with sr.Microphone() as source:
    audio_data = init_rec.record(source, duration=5) #сколько времени программа должна слушать микрофон
    print("Распознаю ваш текст...")
    text = init_rec.recognize_google(audio_data)
    print(text)

Добавлено через 18 секунд
gdfgnggf, примерно. изменения нужно будет внести

@gdfgnggf · 30.08.2023, 15:04 **[ТС]**

выскакивает ошибка in recognize_google
if not isinstance(actual_result, dict) or len(actual_result.get("alternative", [])) == 0: raise UnknownValueError()
speech_recognition.exceptions.UnknownValueError

@nikulin_artyom1 · 30.08.2023, 15:11

gdfgnggf, установи speech_recognition

Добавлено через 1 минуту
gdfgnggf, помогло?

Добавлено через 1 минуту
Чтобы использовать SpeechRecognition с API Speech-to-Text от Google, нужно установить библиотеку google-cloud-speech и настроить учётную запись Google Cloud
https://codelabs.developers.go... t-python3/

Добавлено через 4 минуты
gdfgnggf, ещё вариант с API Speech-to-Text от Google:

Python

import speech_recognition as sr
 
r = sr.Recognizer()
 
with sr.Microphone() as source:
    print("Скажите что-нибудь...")
    audio = r.listen(source)
 
# Google Speech Recognition API для распознавания речи
try:
    print("Функция распознавания речи Google считает, что вы сказали: " + r.recognize_google(audio, language="ru-RU"))
except sr.UnknownValueError:
    print("Распознавание речи Google не может распознать звук")
except sr.RequestError as e:
    print("Не удалось запросить результаты от службы распознавания речи Google; {0}".format(e))

@gdfgnggf · 30.08.2023, 15:16 **[ТС]**

а как сделать чтобы в без остановки говорить в микрофон и все сразу выводилось на экран

@nikulin_artyom1 · 30.08.2023, 15:20

gdfgnggf, попробуй это

Python

import speech_recognition as sr
 
r = sr.Recognizer()
 
with sr.Microphone() as source:
    r.adjust_for_ambient_noise(source)
    print("Скажите что-нибудь...")
    while True:
        audio = r.listen(source)
        try:
            print("Функция распознавания речи Google считает, что вы сказали: " + r.recognize_google(audio, language="ru-RU"))
        except sr.UnknownValueError:
            print("Распознавание речи Google не может распознать звук")
        except sr.RequestError as e:
            print("Не удалось запросить результаты от службы распознавания речи Google; {0}".format(e))

@gdfgnggf · 30.08.2023, 15:47 **[ТС]**

а можно как то ускорить , очень медленно реагирует но работает последний код

@nikulin_artyom1 · 30.08.2023, 16:15

gdfgnggf, попробуй на vosk.
1 вариант:

Python

import pyaudio
from vosk import Model, KaldiRecognizer
 
model = Model("model")
rec = KaldiRecognizer(model, 16000)
 
p = pyaudio.PyAudio()
stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=8000)
stream.start_stream()
 
while True:
    data = stream.read(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(rec.Result())
    else:
        print(rec.PartialResult())
 
print(rec.FinalResult())

2 вариант:

Python

import pyaudio
from vosk import Model, KaldiRecognizer
 
model = Model("model")
rec = KaldiRecognizer(model, 16000)
 
p = pyaudio.PyAudio()
stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=8000)
stream.start_stream()
 
while True:
    data = stream.read(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        result = rec.Result()
        print(result)

Добавлено через 11 секунд
gdfgnggf, только vosk надо установить

Добавлено через 8 минут
gdfgnggf, на AssemblyAI. Ещё вариант.

Python

import pyaudio
import assemblyai
 
#Замените на свой API-ключ AssemblyAI
assemblyai_api_key = 'YOUR_ASSEMBLYAI_API_KEY'
 
client = assemblyai.Client(assemblyai_api_key)
 
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
 
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)
 
print("Начало записи...")
 
while True:
    data = stream.read(CHUNK)
    response = client.transcribe(data)
    if response.get('text'):
        print(response['text'])
 
stream.stop_stream()
stream.close()
p.terminate()

Добавлено через 41 секунду
gdfgnggf, надо зарегистрироваться на Assembly AI

@gdfgnggf · 30.08.2023, 16:17 **[ТС]**

ошибка Exception: Failed to create a model в обоих случаях

@nikulin_artyom1 · 30.08.2023, 17:06

gdfgnggf, модель распознавания установи https://alphacephei.com/vosk/models

Добавлено через 40 секунд
gdfgnggf, https://alphacephei.com/vosk/m... u-0.42.zip

Добавлено через 1 минуту
gdfgnggf, потом обнови путь модели

Python

1	model = Model(r"полный путь пропиши")

Добавлено через 41 секунду
gdfgnggf, Vosk автономный инструмент

Добавлено через 1 минуту
https://vc.ru/dev/247450-oflay... oteka-vosk

Добавлено через 36 минут
gdfgnggf, Если хочется с Google распознавателем. Я немного подправил код.

Python

import pyaudio
import speech_recognition as sr
r = sr.Recognizer()
p = pyaudio.PyAudio()
 
stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=1024)
 
while True:
    audio_data = stream.read(1024)
    audio = sr.AudioData(audio_data, 16000, 2)
    try:
        text = r.recognize_google(audio, language='ru-RU')
        print(text)
    except sr.UnknownValueError:
        pass

Как вывести речь с микрофона

Решение

Решение

@gdfgnggf 174 / 0 / 0 Регистрация: 10.09.2022 Сообщений: 304
		1
	Как вывести речь с микрофона 30.08.2023, 11:58. Показов 1777. Ответов 13 Метки нет (Все метки) хочу чтобы программа брала звук с микрофона и выводила на экран 0

@gdfgnggf 174 / 0 / 0 Регистрация: 10.09.2022 Сообщений: 304
	30.08.2023, 14:45 [ТС]	3
	а как из этого текст получить выводит какие то буквы и цифры 0

@nikulin_artyom1 1386 / 2169 / 120 Регистрация: 28.04.2021 Сообщений: 5,869 Записей в блоге: 22
	30.08.2023, 14:58	4
	gdfgnggf, SpeechRecognition, API Speech-to-Text от Google 0

@gdfgnggf 174 / 0 / 0 Регистрация: 10.09.2022 Сообщений: 304
	30.08.2023, 15:00 [ТС]	5
	можете пожалуйста пример показать как это сделать 0

@gdfgnggf 174 / 0 / 0 Регистрация: 10.09.2022 Сообщений: 304
	30.08.2023, 15:04 [ТС]	7
	выскакивает ошибка in recognize_google if not isinstance(actual_result, dict) or len(actual_result.get("alternative", [])) == 0: raise UnknownValueError() speech_recognition.exceptions.UnknownValueError 0

@gdfgnggf 174 / 0 / 0 Регистрация: 10.09.2022 Сообщений: 304
	30.08.2023, 15:16 [ТС]	9
	а как сделать чтобы в без остановки говорить в микрофон и все сразу выводилось на экран 0

@gdfgnggf 174 / 0 / 0 Регистрация: 10.09.2022 Сообщений: 304
	30.08.2023, 15:47 [ТС]	11
	а можно как то ускорить , очень медленно реагирует но работает последний код 0

@gdfgnggf 174 / 0 / 0 Регистрация: 10.09.2022 Сообщений: 304
	30.08.2023, 16:17 [ТС]	13
	ошибка Exception: Failed to create a model в обоих случаях 0