Как построить модель seq2seq для ASR, используя векторы mfcc и соответствующие векторы встраивания слов транскриптов в качестве входных и выходных данных?

Я пытаюсь создать модель голоса в текст без использования существующих библиотек распознавания речи. Я использую набор данных общего голоса от Mozilla. Я выполнил предварительную обработку данных, в ходе которой извлек функции mfcc из входных аудиофайлов, а также использовал вложения слов для получения векторов для транскриптов.

mfcc_X_train: векторы mfcc из аудиофайлов

array([[-2.59124781e+02,  1.13265526e+02,  1.30979551e+01, ...,
    -2.79187146e+00,  1.82840353e+00, -8.83761218e-01],
   [-4.37804550e+02,  1.09338910e+02,  1.27755069e+01, ...,
     2.80325980e-02, -3.02936100e+00, -4.85614372e+00],
   [-4.20299606e+02,  5.03662679e+01,  5.93071849e+00, ...,
     2.72814692e+00, -1.02385068e+01, -1.51062112e+00],
   ...,
   [-3.91306660e+02,  5.17953868e+01,  1.03543497e+01, ...,
    -4.19143153e+00, -8.23613404e+00, -6.86574230e+00],
   [-3.62376932e+02,  6.76604652e+01,  1.77715018e+01, ...,
    -8.71072342e-01, -4.66138009e+00, -4.56961645e+00],
   [-3.86323644e+02,  1.14792009e+02, -1.33781946e+01, ...,
    -1.60223182e-01, -7.69392168e+00, -3.41955318e+00]])

y_train: одно горячее представление векторов вложения

array([[[1., 0., 0., ..., 0., 0., 0.],
    [1., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    ...,
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.]],

   [[1., 0., 0., ..., 0., 0., 0.],
    [1., 0., 0., ..., 0., 0., 0.],
    [1., 0., 0., ..., 0., 0., 0.],
    ...,
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.]],

   [[0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    ...,
    [0., 1., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.]],

   ...,

Я застрял в создании модели seq2seq для этого. Может ли кто-нибудь помочь, как построить модель seq2seq для этого варианта использования.

Aditya Boddupalli 05.08.2019 источник

comment

что ты уже испробовал? - Nikolas Rieble 19.08.2019

comment

@NikolasRieble - Я не знаю, как построить модель seq2seq для входных векторов mfcc и векторов внедрения выходных данных. - Aditya Boddupalli 01.09.2019

Ответы (1)

arrow_upward
0
arrow_downward

Вы можете попробовать построить такую модель: Нейронный машинный перевод с вниманием. Векторы mfcc похожи на встраивание слов на входе кодировщика. Установите вход для подгонки модели.

此方一泉 17.10.2019

Как построить модель seq2seq для ASR, используя векторы mfcc и соответствующие векторы встраивания слов транскриптов в качестве входных и выходных данных?

mfcc_X_train: векторы mfcc из аудиофайлов

y_train: одно горячее представление векторов вложения

Ответы (1)

Вопросы по теме