Фон

В рамках моего поиска работы, который находится в стадии реализации, я общаюсь со многими рекрутерами, и в рамках одной из таких рабочих ролей мне дали заполнить матрицу навыков, обычно рабочие роли и профили довольно расплывчаты, или вы узнаете только о роли когда вы разговариваете с менеджером по найму или командой.

Мне очень понравилась полнота матрицы навыков, которой поделился рекрутер. Я не уверен в конфиденциальности матрицы навыков, но, поскольку навыки находятся в открытом доступе, я позволю вам также проверить ее и посмотреть, насколько вы в ней разбираетесь, и оценить себя. Я буду продолжать добавлять темы и вносить изменения в будущем, чтобы сделать эту матрицу навыков более исчерпывающей.

Мотивация

Это форма матрицы компетенций (навыки инженера данных + машинного обучения), которая поможет вам сопоставить свои компетенции с требованиями работы. Также помогите получить доступ к тому, что вам нужно для повышения квалификации. Конечно, мы знаем, что все перечисленные ниже навыки могут со временем измениться, но сегодня нам нужно обновить эту информацию.

Матрица навыков

Как оценить себя

Оцените себя на основе того, какую технологию вы используете для проектирования данных и/или машинного обучения.

Установите уровень опыта на основе правил:
1 — никогда, новое для меня
2 — использую время от времени
3 — повседневный инструмент
4 — я эксперт в этом инструмент
5 — опыт работы от 3-х лет *

В подразделах ниже приводятся навыки в основных категориях, которые можно ожидать от инженера данных.

Питон

  • Программирование на Python с ООП
  • Программирование на CPython — API Python + C/C++

Машинное обучение

  • Линейная алгебра
  • Исчисление
  • Численный анализ
  • Статистика (частотная и байесовская)
  • Линейная регрессия и логистическая регрессия
  • Модели смесей, ЭМ
  • Скрытые линейные модели (PCA, SVD)
  • Ядра (SVM, Kernel Machines и т. д.)
  • Марковские модели, скрытые марковские модели
  • Ансамбли
  • вывод MCMC
  • Кластеризация
  • Неконтролируемое уменьшение размерности (t-SNE, UMAP)
  • Скрытые модели для дискретных данных (LSA, LDA)

Глубокое обучение

  • Нейронные сети с прямой связью
  • Сверточные нейронные сети
  • Рекуррентные нейронные сети
  • Сиамские сети
  • Небольшое обучение
  • Модули внимания (включая Трансформеры)
  • Генеративно-состязательные сети
  • Генеративные модели (DBN, RBM)

Глубокое обучение и обработка изображений

  • Классификаторы изображений (ResNets, EfficientNet, VGG, Inception)
  • Детекторы объектов (SSD, Yolo, Faster-RCNN)
  • Семантическая/экземплярная сегментация (CRF-RNN, Deeplab, Mask-RCNN)
  • Сходство обучения (Сиамские сети, DeepRank)
  • Генерация изображений/преобразование изображений (CycleGAN, StarGAN, StyleTransfer, VAE)
  • Обнаружение ориентиров (ключевые точки на лице, такие как определение глаз/носа или позы)
  • Супер разрешение
  • Отслеживание объекта (видео)
  • Распознавание действий
  • Видео классификация
  • Распознавание лиц и моделирование
  • Поиск изображений
  • Подпись к изображению
  • СтильПередача

Глубокое обучение и НЛП

  • Оптическое распознавание символов
  • Текстовые представления (мешок слов, tf-idf, n-gram)
  • Вложения Word (word2vec, doc2vec, GloVe, fasttext)
  • Языковые модели (BERT, GPT-2, ELMO, ERNIE и т. д.)
  • Распознавание имен
  • Анализ настроений
  • Вопрос Ответ
  • Машинный перевод
  • Обобщение (абстрактное и извлекающее)
  • Тематическое моделирование
  • Генерация языка
  • Распознавание речи
  • Синтез речи
  • Разделение выступающих
  • Распознавание эмоций
  • Проверка речи
  • Улучшение речи

Дополнительные темы по искусственному интеллекту и машинному обучению

  • Обучение с подкреплением (Q-обучение, глубокое Q-обучение, альфа-ноль)
  • Байесовская оптимизация
  • Состязательная проверка
  • Анализ выживания
  • Неградиентная оптимизация
  • Враждебные атаки и защита
  • Рекомендатели (совместная фильтрация, матричная факторизация)
  • Анализ временных рядов

Структуры и библиотеки искусственного интеллекта и машинного обучения

  • ПиТорч
  • Тензорный поток
  • фаст.ай
  • смартханс
  • ДАЛИ
  • джин-конфиг
  • несбалансированное обучение
  • mlxetend
  • пустышка
  • ПОГРЕНЫ
  • научное обучение
  • острый
  • трансформеры (от HuggingFace)
  • нлтк
  • просторный
  • талант
  • ферма
  • текст
  • неверград
  • пиротехника
  • пгмпи
  • сюрприз
  • пикалди/питорчкальди/калди
  • панды
  • matplotlib
  • морской
  • сюжетно
  • OpenCV

Платформы ML Ops и Data Ops

  • полиаксон
  • Данные квилта
  • МЛФлоу
  • ДВК
  • Селдон
  • Кубефлоу
  • Обслуживание Tensorflow

Управление данными

  • SQL (например, postgresql, оракул, mysql)
  • документ NoSQL (например, MongoDB, CouchDB)
  • граф dbs NoSQL (например, neo4j, OrientDB, AWS Neptune)
  • столбец dbs NoSQL (например, Apache Cassandra, Apache Druid, GCP BigQuery, ClickHouse)

Платформы данных с открытым исходным кодом

  • Воздушный поток Apache
  • Луч Апача
  • Апач Нифи
  • Апачская стрела
  • Апач Паркет
  • OCR-формат
  • АВРО формат
  • Апач Кафка
  • Апач Флинк
  • Кафка Потоки
  • Искра потокового
  • Апач Спарк

Базы данных, потоковая передача и очереди

  • PostgreSQL
  • MySQL
  • InfluxDB
  • База данных Oracle
  • Редис
  • HBase
  • Нео4Дж
  • RabbitMQ
  • Стек ELK — Elasticsearch, Logstash, Kibana
  • облако данных снежинка

Визуализация данных и блокноты

  • Суперсет Apache
  • Метабаза
  • дирижабль
  • databricks.com

Управление данными и метаданные

Апач Атлас

Инженерия данных и основы архитектуры

  • Язык программирования Скала
  • Создание DAG для заданий ETL
  • каталоги данных
  • схемы данных с реестром и управлением версиями (например, AVRO)
  • хранилища данных
  • формат JSON
  • XML-формат
  • журналы, мониторинг (например, кибана, серый журнал, датадог, прометей)
  • горизонтальное масштабирование инфраструктуры
  • вертикальное масштабирование инфраструктуры
  • оркестраторы в целом (например, Mesos, Marathin, kubernetes)
  • тестирование производительности программного обеспечения
  • модульное тестирование программного обеспечения
  • функциональное/поведенческое тестирование программного обеспечения
  • REST API + HTTP-протокол
  • Безопасность и маскировка данных
  • навыки отладки ПО

Предложения AWS для данных, искусственного интеллекта и машинного обучения

  • АМС Динамо
  • АМС Красное смещение
  • Пакетная обработка AWS
  • АВС Лямбда
  • АМС
  • АВС S3
  • АВС EC2
  • AWS Афина
  • АМС ЭМИ
  • AWS Кинезис
  • AWS SageMaker
  • AWS QuickSight
  • Клей AWS
  • Формирование озера AWS
  • Обмен данными с AWS
  • AWS DynamoDB

Данные GCP, предложения AI и ML

  • GCP BigQuery
  • GCP Looker
  • GCP Dataproc
  • Поток данных GCP
  • Публикация/подписка GCP
  • Объединение облачных данных GCP
  • Каталог данных GCP
  • Облачный компоновщик GCP
  • GCP Google Студия данных
  • Маркетинговая платформа GCP
  • GCP Cloud Life Sciences
  • Подготовка данных GCP

Предложения Azure Data, AI и ML

  • Службы анализа Azure
  • Обозреватель данных Azure
  • Хранилище озера данных Azure
  • Общий доступ к данным Azure
  • Azure Databricks
  • Аналитика потоков Azure
  • Аналитика синапсов Azure
  • Каталог данных Azure
  • Фабрика данных Azure
  • Аналитика озера данных Azure
  • Центры событий Azure
  • Azure HDInsight
  • Аналитика журналов Azure
  • Встроенная Azure Power BI
  • Сервер Azure R для HDInsight
  • Обзор Azure Azure
  • База данных Azure Cosmos
  • Хранилище таблиц Azure
  • База данных SQL Azure
  • Azure AI + ML — текстовые службы
  • Azure AI + ML — компьютерное зрение
  • Azure AI + ML — виртуальные машины для обработки данных
  • Открытые наборы данных Azure
  • Когнитивный поиск Azure
  • Машинное обучение Azure

Дополнительные технические платформы

  • IoT-сервисы в публичных облаках

Наконец-то

Хотя это длинный список, и я знаю, что есть много существующих и новых технологий, которых нет. Это может легко стать отправной точкой для построения матрицы навыков для себя или своей команды и расширения с помощью более подходящих навыков для повышения квалификации или сопоставления с данной бизнес-проблемой, проектом или бизнес-требованием.