Глубокое погружение в машинное обучение

В течение последних нескольких недель я исследовал широкую тему машинного обучения и, в частности, рекуррентных нейронных сетей.

За последние несколько лет в области машинного обучения произошло много недавних достижений, и его массовая привлекательность, похоже, растет с выпуском TensorFlow командой Google Brain Team. Из-за постоянно меняющихся фреймворков и инструментов было трудно понять, как подойти к проблеме, которую я поставил перед собой. Учебники и документация, которые я использую, часто устаревают на несколько недель или месяцев, и этого времени как раз достаточно, чтобы увидеть, как инструменты устаревают в значительной части кодовой базы. Несмотря на это, я проявлял настойчивость и пытался углубить свои знания основ RNN. Часть наиболее полезной информации была получена из записи в блоге Кристофера Олаха о НЛП RNN, которая была отличным источником.

Мне удалось собрать твиты из Twitter API с помощью Twython Library для Python и получить от них некоторые интересные сведения, используя некоторые библиотеки НЛП, включая spaCy. spaCy — очень эффективная библиотека с некоторыми мощными функциями. Он смог определить ключевых людей, страны и фразы, связанные с Трампом. Это было удивительно точно, за некоторыми небольшими исключениями. Было видно, что Трамп был связан с Обамой, Пенсом и Хиллари, однако он также отметил Обаму как страну, а не человека. Я думаю, что с большим набором данных результаты были бы улучшены, чтобы устранить некоторые неверные интерпретации. Однако при работе с текстом из такого источника, как Твиттер, возникает неотъемлемая трудность, где используемый язык сильно отличается от романов или других корпусов, традиционно используемых для обучения моделей для НЛП.

Мой следующий шаг — посмотреть, как я могу обучить модель на твитах, чтобы, надеюсь, «предсказать» новый твит с учетом некоторых начальных параметров. Результаты могут оказаться тарабарщиной, однако я думаю, что это может хорошо работать, учитывая контекст Twitter.

Название изображения: Источник