Как построить модель seq2seq для ASR, используя векторы mfcc и соответствующие векторы встраивания слов транскриптов в качестве входных и выходных данных?

Я пытаюсь создать модель голоса в текст без использования существующих библиотек распознавания речи. Я использую набор данных общего голоса от Mozilla. Я выполнил предварительную обработку данных, в ходе которой извлек функции mfcc из входных аудиофайлов, а также использовал вложения слов для получения векторов для транскриптов.

mfcc_X_train: векторы mfcc из аудиофайлов

array([[-2.59124781e+02,  1.13265526e+02,  1.30979551e+01, ...,
    -2.79187146e+00,  1.82840353e+00, -8.83761218e-01],
   [-4.37804550e+02,  1.09338910e+02,  1.27755069e+01, ...,
     2.80325980e-02, -3.02936100e+00, -4.85614372e+00],
   [-4.20299606e+02,  5.03662679e+01,  5.93071849e+00, ...,
     2.72814692e+00, -1.02385068e+01, -1.51062112e+00],
   ...,
   [-3.91306660e+02,  5.17953868e+01,  1.03543497e+01, ...,
    -4.19143153e+00, -8.23613404e+00, -6.86574230e+00],
   [-3.62376932e+02,  6.76604652e+01,  1.77715018e+01, ...,
    -8.71072342e-01, -4.66138009e+00, -4.56961645e+00],
   [-3.86323644e+02,  1.14792009e+02, -1.33781946e+01, ...,
    -1.60223182e-01, -7.69392168e+00, -3.41955318e+00]]) 

y_train: одно горячее представление векторов вложения

array([[[1., 0., 0., ..., 0., 0., 0.],
    [1., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    ...,
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.]],

   [[1., 0., 0., ..., 0., 0., 0.],
    [1., 0., 0., ..., 0., 0., 0.],
    [1., 0., 0., ..., 0., 0., 0.],
    ...,
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.]],

   [[0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    ...,
    [0., 1., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.]],

   ...,

Я застрял в создании модели seq2seq для этого. Может ли кто-нибудь помочь, как построить модель seq2seq для этого варианта использования.


person Aditya Boddupalli    schedule 05.08.2019    source источник
comment
что ты уже испробовал?   -  person Nikolas Rieble    schedule 19.08.2019
comment
@NikolasRieble - Я не знаю, как построить модель seq2seq для входных векторов mfcc и векторов внедрения выходных данных.   -  person Aditya Boddupalli    schedule 01.09.2019


Ответы (1)


Вы можете попробовать построить такую ​​модель: Нейронный машинный перевод с вниманием. Векторы mfcc похожи на встраивание слов на входе кодировщика. Установите вход для подгонки модели.

person 此方一泉    schedule 17.10.2019