Я пытаюсь создать модель голоса в текст без использования существующих библиотек распознавания речи. Я использую набор данных общего голоса от Mozilla. Я выполнил предварительную обработку данных, в ходе которой извлек функции mfcc из входных аудиофайлов, а также использовал вложения слов для получения векторов для транскриптов.
mfcc_X_train: векторы mfcc из аудиофайлов
array([[-2.59124781e+02, 1.13265526e+02, 1.30979551e+01, ...,
-2.79187146e+00, 1.82840353e+00, -8.83761218e-01],
[-4.37804550e+02, 1.09338910e+02, 1.27755069e+01, ...,
2.80325980e-02, -3.02936100e+00, -4.85614372e+00],
[-4.20299606e+02, 5.03662679e+01, 5.93071849e+00, ...,
2.72814692e+00, -1.02385068e+01, -1.51062112e+00],
...,
[-3.91306660e+02, 5.17953868e+01, 1.03543497e+01, ...,
-4.19143153e+00, -8.23613404e+00, -6.86574230e+00],
[-3.62376932e+02, 6.76604652e+01, 1.77715018e+01, ...,
-8.71072342e-01, -4.66138009e+00, -4.56961645e+00],
[-3.86323644e+02, 1.14792009e+02, -1.33781946e+01, ...,
-1.60223182e-01, -7.69392168e+00, -3.41955318e+00]])
y_train: одно горячее представление векторов вложения
array([[[1., 0., 0., ..., 0., 0., 0.],
[1., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
...,
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.]],
[[1., 0., 0., ..., 0., 0., 0.],
[1., 0., 0., ..., 0., 0., 0.],
[1., 0., 0., ..., 0., 0., 0.],
...,
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.]],
[[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
...,
[0., 1., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.]],
...,
Я застрял в создании модели seq2seq для этого. Может ли кто-нибудь помочь, как построить модель seq2seq для этого варианта использования.