После того, как вы овладеете навыками машинного обучения и искусственного интеллекта, пора начинать интервью. Для тех из вас, кто все еще хочет овладеть этой темой, посетите наш курс по AI / ML.

На собеседовании на должность по машинному обучению и / или искусственному интеллекту процесс собеседования очень похож на стандартный процесс найма инженера-программиста. Вопросы на собеседовании касаются базовых теоретических знаний, разработки программного обеспечения, глубокого обучения и приложений.

Так что ознакомьтесь со следующей информацией и будьте готовы к победе на собеседовании!

Обязательно сделайте домашнее задание. Ознакомьтесь с профилем компании по найму, ее характером деятельности, наличием типичных отраслевых проблем и другими новостями, связанными с их бизнес-моделью и планами на будущее. Ваша подготовка может выделить вас из стада!

Интервьюер проверит не только ваши знания, навыки, ноу-хау в программировании и опыт работы в проектах, но также и то, какую ценность вы принесете их командам и как вы впишетесь в их схему бизнес-планов.

А. ВВОДНЫЕ И ОБЩИЕ

МАШИННОЕ ОБУЧЕНИЕ

A1. Как бы вы объяснили машинное обучение с точки зрения непрофессионала?

Этот вопрос проверяет вашу способность легко объяснять сложные концепции.

Что приходит в голову, когда мы видим ребенка? Как ребенок учится на собственном опыте. Он спотыкается, он падает; и все же встает и снова идет. В этом суть машинного обучения. Алгоритмы работают одинаково, итеративно переопределяя процесс обучения, чтобы постоянно улучшаться и давать наилучшие результаты. Когда ребенок учится на собственном опыте, машинное обучение учится на данных без заданных инструкций.

A2. Есть ли у вас опыт обучения машинному обучению? Если да, о каком практическом опыте вы можете нам рассказать?

Этот ответ зависит от вашего уровня подготовки и опыта в области машинного обучения. Укажите свои сертификаты по машинному обучению. Привлекайте внимание к проектам, над которыми вы работали, будь то под наставничеством или как прямые проекты в компании. Расскажите, как это помогло вам подготовиться к работе в сфере машинного обучения.

A3. Как вы осваиваете свои знания в области машинного обучения?

Этот вопрос проверяет уровень интереса кандидата и осведомлен ли он о тенденциях и новаторских сценариях использования.

Упоминайте блоги, книги и научные статьи, которые вы читали. Обязательно приобретите привычку читать в рамках подготовки к собеседованию.

Как вы думаете, это важно?

Да, поскольку эта область постоянно развивается, появляются новые исследовательские методологии, варианты использования и практические методы.

Упомяните книги и статьи, которые вы читали.

Вот несколько примеров:

Машинное обучение Тома М. Митчелла;

Машинное обучение и большие данные, Карим Алкасир;

Изучение Scikit-learn: машинное обучение на Python Рауля Гаррета и Гильермо Мончеки; Машинное обучение Python Себастьяна Рашки и Вахида Мирджалили.

A4. У вас есть опыт использования Spark или каких-либо инструментов больших данных для машинного обучения?

Это непростой вопрос, на который требуется однозначный ответ. Для начала убедитесь, что вы знакомы с большими данными и используемыми инструментами. Говорите о Spark только в том случае, если вы это знаете, и ограничьте свой ответ в пределах своих знаний.

Чтобы узнать, что такое Spark, ознакомьтесь с инструментами больших данных, доступными для машинного обучения.

Читайте дальше, чтобы подготовить ответ на Spark.

Spark - самый популярный инструмент для работы с большими данными из-за его способности быстро обрабатывать большие наборы данных. Он поддерживает параллельные вычисления в памяти, имеет открытый исходный код и совместим с Hadoop. Он хорошо работает в сети IoT и имеет широкий спектр инструментов для работы, таких как машинное обучение, интерактивный SQL и обработка в реальном времени, которые помогают анализировать потоковые данные в реальном времени на высокой скорости.

A5. Какой ваш любимый алгоритм? Почему?

Этот вопрос проверяет вашу способность легко и эффективно резюмировать сложные технические концепции. Выберите алгоритм, который вы можете хорошо объяснить.

Здесь мы упомянули примерный алгоритм. Вы можете выбрать любой другой алгоритм, какой захотите.

Деревья решений

Деревья решений помогают определить важность функций, находя «лучший» атрибут для разделения данных в каждом узле дерева. Проблему переобучения также можно решить, указав максимальную глубину дерева или минимальный размер выборки, чтобы учесть другое разбиение, или обрезать окончательное дерево после его завершения.

Его преимущества:

  • Это простая для понимания модель
  • Выбор функций выполняется самим алгоритмом
  • Требуется небольшая подготовка данных

A6. Расскажите, какие алгоритмы используются в беспилотных автомобилях.

Этот вопрос проверяет ваше понимание машинного обучения в контексте реальных приложений и осведомленность о последних тенденциях.

Самый распространенный алгоритм машинного обучения, используемый в автономном транспортном средстве, основан на отслеживании объектов. Это повышает точность профилирования и различения объектов. т. е. будь то другое транспортное средство, пешеход, велосипед или животное? Сложный алгоритм машинного обучения или распознавания образов используется с набором обучающих данных, в который загружается множество изображений, содержащих объекты.

ИСКУССТВЕННЫЙ РАЗУМ

A7. Какая философия стоит в основе искусственного интеллекта?

С взрывными возможностями компьютерной системы это привело к вопросу: «Может ли машина думать и вести себя, как люди? Могут ли машины иметь такой же интеллектуальный механизм, как люди? » Это любопытство привело к развитию искусственного интеллекта. ИИ был основан на философии, согласно которой машины могут вести себя одинаково разумно, с дополнительными преимуществами сложной автоматизации.

A8. В чем преимущества искусственного интеллекта?

  1. Низкая частота ошибок по сравнению с людьми при правильном кодировании. Он обладает очень высокой точностью, точностью и скоростью.
  2. Может заменить людей в повторяющихся и утомительных задачах, тем самым экономя время и ресурсы.
  3. Его способность предсказывать поведение человека очень важна, например, в таких приложениях, как «помощники».
  4. В отличие от людей, ИИ может мыслить логически без эмоций, поэтому принимает рациональные решения с почти нулевым количеством ошибок.
  5. Он обладает способностью интуитивно оценивать людей, что используется в приложениях сектора здравоохранения.
  6. Может интуитивно организовывать записи и управлять ими.
  7. У него есть приложения в повседневной жизни и для различных сценариев, таких как поисковые системы браузера или обнаружение банковского мошенничества.
  8. Поскольку ИИ не подвержен влиянию враждебных сред, он может выполнять опасные и рискованные задачи, например, при добыче полезных ископаемых и исследованиях в космосе.
  9. Может взаимодействовать с людьми, чтобы развлечься в виде аватаров или роботов. Например, видеоигры.
  10. Может выполнять повторяющуюся работу без перерывов

A9. Назовите несколько распространенных применений и применений ИИ?

Этот вопрос проверяет ваше понимание области искусственного интеллекта и насколько хорошо вы разбираетесь в далеко идущих приложениях искусственного интеллекта.

Собираясь на собеседование, ожидается, что вы знаете о компании и ее бизнесе. Поэтому, если возможно, выделите варианты использования, которые имеют отношение к проводящей собеседование компании. Это может заработать ваши шоколадные очки!

Приложения и / или варианты использования:

  • обнаружение и классификация объектов в навигации
  • распознавание изображений и теги
  • профилактическое обслуживание
  • обработка данных
  • автоматизация ручных задач
  • отчетность на основе данных
  • обработка естественного языка
  • чат-боты
  • анализ настроений
  • прогноз продаж
  • беспилотные автомобили
  • распознавание мимики
  • игра
  • распознавание речи

A10. Почему распознавание изображений - ключевая функция ИИ?

ИИ имитирует человека. Поскольку люди визуальны, ИИ создан для имитации человеческого мозга. Обучение машин распознаванию и категоризации изображений помогает машинам учиться и становиться интуитивно понятными. По мере того, как обрабатывается все больше и больше изображений, ИИ становится высококлассным в распознавании и обработке этих изображений, будь то объекты, люди, места, письма или фотографии. Функция распознавания изображений ИИ наиболее важна сегодня, поскольку она находит широкое применение в повседневной жизни - в системах безопасности, беспилотных автомобилях, навигации, поисковых системах, роботах в логистике или медицинской визуализации,

A11. Как теория игр связана с ИИ?

Теория игр - это структура стратегических гипотетических ситуаций между конкурирующими игроками. ИИ использует теорию игр для оценки потенциальных действий противников, действия которых имеют определенную стоимость и ценность. Например, при написании «программного обеспечения агента» для ставок на аукционах агент должен быть сообразительным, чтобы понимать теорию игр и стратегию, лежащую в основе этого.

A12. Какой у вас опыт программирования? Какие проекты вас интересуют?

Это общий вопрос, чтобы проверить вашу квалификацию и глубину участия в проекте. Отвечая на этот вопрос, вы должны быть ясными и краткими. Постарайтесь упомянуть проекты, которые связаны с бизнесом компании, проводящей собеседование, поскольку иногда это может оказаться решающим фактором.

A13. Что такое техника искусственного интеллекта?

Техника искусственного интеллекта - это организованный набор методов, созданных на основе передовых статистических и математических моделей, для легкой модификации и исправления ошибок. Это позволяет машинам выполнять задачи, выполняемые людьми.

Некоторые методы ИИ:

  • Эвристика
  • Машины опорных векторов
  • Искусственные нейронные сети
  • Марковский процесс принятия решений
  • Обработка естественного языка

A14. Можете ли вы перечислить некоторые недостатки искусственного интеллекта?

  1. Высокая стоимость создания.
  2. Высокие затраты на ремонт и обслуживание.
  3. Способность воспроизводить людей ограничена, поскольку считается, что разум - это дар природы. Конечно, вокруг этого мыслительного процесса было много споров.
  4. Не хватает личного тепла человеческого существа, несмотря на сверхразумных роботов, разработанных наподобие Софии.
  5. Не хватает оригинального творчества, на которое способен человек.

A15. Как вы думаете, каково будущее искусственного интеллекта?

Сегодня искусственный интеллект используется на благо общества и бизнеса. Твердый факт, что ИИ присутствует в нашей повседневной жизни, и с каждым днем ​​внедряется все больше и больше приложений.

Это вызывает несколько вопросов.

i) Может ли ИИ превзойти человеческие возможности?

Нет. Хотя исследования ИИ достигли огромных успехов, у ИИ все еще есть ограничения, поскольку ему не хватает человеческого прикосновения и творчества.

ii) Может ли искусственный интеллект заменить людей или отнять у людей рабочие места?

Нет. В конце концов, люди должны обучать модели ИИ. Кроме того, затраты на вычисления огромны для широкого внедрения ИИ, поэтому выгоды должны превосходить затраты на широкое внедрение. Человеческие рабочие места теряются всякий раз, когда происходит автоматизация, но страхи всегда преодолеваются соответствующими рабочими ролями.

iii) Для любой организации, внедряющей ИИ, необходимо учитывать следующие факторы:

  • Расходы
  • Наборы навыков, поддерживающие разработку ИИ
  • Обучение с правилами и границами для автоматизации правильного понимания.

AI имеет огромные возможности. Возможности будущего безграничны. Однако эти проблемы необходимо тщательно решать, а ИИ внедрять для упреждающей разработки и полезных приложений.

Б. ТЕОРИЯ / АЛГОРИТМ

МАШИННОЕ ОБУЧЕНИЕ

B1. Как вы различаете дедуктивное и индуктивное машинное обучение?

Дедуктивное мышление позволяет делать утверждения на основе известных фактов . Индуктивное мышление , с другой стороны, позволяет вам делать утверждения, основанные на собранных доказательствах.

Дедуктивное машинное обучение начинается с вывода, основанного на фактах, и учится, делая выводы о том, что в этом заключении является правильным или неправильным. Индуктивное машинное обучение начинается с примеров, на которых можно делать выводы и учиться.

B2. Объясните SVM и почему он называется классификатором максимальной маржи.

Машина опорных векторов (SVM) - это контролируемый алгоритм машинного обучения, используемый как для классификации, так и для регрессии. Он сортирует данные по одной из двух категорий и выводит карту отсортированных данных с полями между двумя точками данных как можно дальше друг от друга.

Он известен как классификатор максимальной маржи, потому что в наборе данных двоичной классификации он помещает границу принятия решения таким образом, чтобы расстояние между двумя кластерами было максимальным. SVM стремится найти гиперплоскость, разделяющую положительные и отрицательные примеры. Он устанавливает максимальный запас, чтобы избежать переобучения.

B3. Объяснение выбора функции

Выбор функций - это автоматический или ручной выбор атрибутов в данных (например, столбцов в табличных данных), которые наиболее важны для задачи прогнозного моделирования. Подмножество функций выбирается с акцентом на точность, релевантность и ценность выходных данных. Нерелевантные и избыточные атрибуты идентифицируются и удаляются из данных для большей точности прогнозной модели. Использование меньшего количества данных или репрезентативных данных помогает снизить сложность модели. Выбор функций способствует созданию надежной модели прогнозирования за счет уменьшения переобучения, повышения точности и сокращения времени обучения.

B4. Разница между точностью и отзывом.

Точность и отзыв - это метрики оценки модели, которые измеряют релевантность результатов. Они используются в распознавании образов, поиске информации и двоичной классификации.

а) Точность означает процент релевантных результатов. С другой стороны, Отзыв относится к проценту общих релевантных результатов, которые были получены, по сравнению с общим количеством релевантных экземпляров.

Например, при текстовом поиске по набору документов точность - это доля извлеченных документов, релевантных запросу: однако напоминание - это часть успешно извлеченных релевантных документов.

б) Точность попыток ответить на следующий вопрос:

Какая доля положительных идентификаций была на самом деле правильной?

Напомним попытки ответить на следующий вопрос:

Какая доля реальных положительных результатов была определена правильно?

c) Precision и Recall противоположны друг другу, т.е. увеличение одного из них уменьшает другое, и наоборот.

г) Проще говоря, высокая точность означает, что алгоритм выдал значительно больше релевантных результатов, чем нерелевантных, в то время как высокий уровень отзыва означает, что алгоритм вернул большинство релевантных результатов.

e) Прецизионная оценка качества или актуальности результатов модели. Отзыв измеряет количество положительных или релевантных результатов, возвращаемых моделью.

B5. Что такое глубокое обучение? Как он соотносится с другими алгоритмами машинного обучения?

Глубокое обучение - это метод машинного обучения, который черпает вдохновение в структуре и функциях мозга, называемых искусственными нейронными сетями. Это самостоятельное обучение функций без учителя, при котором модели обучаются с использованием большого набора помеченных данных и архитектур нейронных сетей, которые содержат много слоев. Модели глубокого обучения могут достигать высочайшей точности, поэтому они используются для больших наборов немаркированных или полуструктурированных данных. Проще говоря, глубокое обучение учит компьютеры делать то, что естественно для людей, то есть учиться на собственном примере. Задачи классификации выполняются непосредственно на основе изображений, текста или звука.

Машинный алгоритм используется для анализа данных, изучения этих данных и принятия обоснованных решений итеративно на основе обучения. Однако алгоритм глубокого обучения используется послойно для создания искусственной «нейронной сети», которая обучается и самостоятельно принимает разумные решения.

B6. Как выбрать алгоритм для задачи классификации?

Не существует универсального решения. На выбор алгоритма машинного обучения влияет несколько факторов. Выбор зависит от требуемого уровня точности и размера обучающей выборки. Вот образец ответа.

Следующим методом будет:

а) Определите проблему.

Здесь выходом модели является класс, поскольку это проблема классификации.

б) Определить доступные алгоритмы из линейных и нелинейных классификаторов.

  • Логистическая регрессия.
  • Линейный дискриминантный анализ
  • k-Ближайшие соседи.
  • Деревья классификации и регрессии.
  • Наивный байесовский.
  • Машины опорных векторов.

в) Реализуйте их все.

Затем настройте конвейер машинного обучения, который сравнивает производительность каждого алгоритма в наборе данных, используя набор критериев оценки или выбранных показателей. Будет выбран наиболее эффективный. В зависимости от результатов он будет запускаться либо один раз, либо с интервалами при добавлении новых данных.

г) Улучшение результатов с помощью различных методов оптимизации

Используя перекрестную проверку (например, k-кратную) и настройку гиперпараметров или ансамблирование (упаковка, усиление и т. Д.); каждый алгоритм будет настроен для оптимизации производительности, если время не является ограничением. В противном случае выберите гиперпараметры вручную.

B7. Если ваша модель страдает низким уровнем систематической ошибки и высокой дисперсией, какой алгоритм вы бы использовали для ее решения? Почему?

Ошибка модели может иметь смещение и / или дисперсию. Очень низкая систематическая ошибка, но высокая дисперсия указывает на переоснащение, а также на сложность модели. Усредняя их, мы можем уменьшить дисперсию и увеличить смещение.

а) Алгоритм упаковки может справиться с большой дисперсией. Набор данных подвергается случайной подвыборке мм раз, и модель обучается с использованием каждой подвыборки. Затем модели усредняются путем усреднения прогнозов для каждого режима.

б) Используя алгоритм k-ближайшего соседа, можно достичь компромисса между смещением и дисперсией. Значение k увеличивается, чтобы увеличить количество соседей, которые вносят вклад в прогноз, а это, в свою очередь, увеличивает смещение модели.

c) Используя алгоритм машины опорных векторов, компромисс может быть достигнут путем увеличения параметра C, который влияет на количество нарушений допустимого запаса в обучающих данных, и это, в свою очередь, увеличивает смещение, но уменьшает дисперсию.

Предоставлено: Понимание компромисса смещения и дисперсии.

ИСКУССТВЕННЫЙ РАЗУМ

B8. В чем разница между статистическим ИИ и классическим ИИ?

Статистический ИИ берет свое начало в машинном обучении и больше занимается «индуктивным» мышлением, то есть заданием набора шаблонов, стимулированием тенденции и т. Д. Классический ИИ занимается «дедуктивным» мышлением, т. Е. С учетом набора ограничений делает вывод.

C ++ предпочтителен для статистического ИИ, тогда как LISP используется в классическом ИИ.

Однако система не может быть по-настоящему интеллектуальной, не проявляя свойств как индуктивного, так и дедуктивного мышления. Таким образом, предполагается, что в будущем произойдет некоторый синтез статистического и классического ИИ.

B8. Для чего используется семантический анализ в искусственном интеллекте?

Семантический анализ - это процесс понимания естественного языка, способа общения людей, основанный на значении и контексте словесных выражений. В ИИ семантический анализ используется для выявления наиболее релевантных элементов текста и понимания обсуждаемой темы.

B9. Что такое нечеткая логика?

В реальном мире мы часто сталкиваемся с ситуациями, когда мы не можем определить, является ли состояние истинным или ложным. В таких случаях нечеткая логика предоставляет ценный метод рассуждений, который точно отражает человеческие рассуждения. Подход рассматривает неточности и неопределенности любой ситуации, в которую вовлечены люди, чтобы рассмотреть возможности. Таким образом, нечеткая логика основана на «степенях истины», а не на обычной логической логике «истина или ложь» (1 или 0), на которой основан современный компьютер. Как подмножество ИИ, он кодирует человеческое обучение для искусственной обработки и представлен в виде правил ЕСЛИ-ТО.

B10. Каковы некоторые применения Fuzzy Logic?

  • Распознавание черт лица
  • Бытовая техника, такая как кондиционеры, стиральные машины и пылесосы.
  • Противоскользящие тормозные системы, трансмиссионные системы
  • Управление метрополитеном и беспилотными вертолетами
  • Системы прогнозирования погоды
  • Оценка рисков проекта
  • Медицинский диагноз и планы лечения
  • Аэрокосмическая промышленность, для контроля высоты космических аппаратов и спутников.
  • Контроль скорости и управление движением в автомобильных системах
  • Системы поддержки принятия решений и персональной оценки в крупных компаниях
  • Применения в химической промышленности для контроля pH, сушки и химической дистилляции
  • Обработка естественного языка и другие интенсивные приложения ИИ
  • Торговля акциями

B11. В чем преимущества искусственных нейронных сетей?

  • Искусственные нейронные сети могут изучать и моделировать нелинейные и сложные отношения между переменными.
  • ИНС может делать обобщения, выявляя невидимые отношения и на невидимых данных.
  • Требуется менее формальная статистическая подготовка
  • Он имеет возможность обнаруживать нелинейную взаимосвязь между переменными.
  • Он может лучше моделировать данные с высокой волатильностью и непостоянной дисперсией.

B12. Что такое Tensorflow?

TensorFlow - это библиотека машинного обучения с открытым исходным кодом для численных вычислений с использованием графов потоков данных. Это быстрый и гибкий набор инструментов для выполнения сложных алгоритмов, предлагающий разработчикам возможность создавать архитектуры обучения для достижения желаемых результатов. TensorFlow является кроссплатформенным и работает практически на всем, включая графические процессоры и процессоры, включая мобильные и встроенные платформы, и даже блоки тензорной обработки. TensorFlow имеет большое количество моделей с открытым исходным кодом, которые можно найти в репозитории tensorflow / models.

B13. Каковы различные отрасли искусственного интеллекта?

  1. Искусственные нейронные сети - модель, основанная на предпосылке биологической нейронной сети.
  2. Нечеткая логика - метод рассуждения, используемый, когда истинные значения переменной варьируются от 0 до 1.
  3. Распознавание образов - автоматизированная система распознавания закономерностей и закономерностей в данных.
  4. Swarm Intelligence - коллективное поведение децентрализованных, самоорганизованных систем, естественных или искусственных.
  5. Генетический алгоритм - средство поиска, вдохновленное теорией естественной эволюции Чарльза Дарвина. Алгоритм отражает процесс естественного отбора, при котором наиболее приспособленные особи отбираются для воспроизводства, чтобы произвести потомство следующего поколения.
  6. Экспертные системы - компьютерная система, которая имитирует способность принимать решения человеком-экспертом. Они предназначены для решения сложных проблем путем рассуждений на основе совокупности знаний, представленных в виде правил IF-THEN, а не обычного процедурного кода.
  7. Интеллектуальный анализ данных - процесс обнаружения закономерностей в больших наборах данных с использованием пересекающихся методов машинного обучения, статистики и системы баз данных.
  8. Статистический ИИ - подраздел искусственного интеллекта и машинного обучения, который занимается моделями предметной области, которые демонстрируют неопределенность и сложную реляционную структуру.

B14. Что такое жадный лучший алгоритм первого поиска?

Это алгоритм поиска, который исследует граф, расширяя наиболее многообещающий узел, выбранный в соответствии с заданным правилом. Это эвристический поиск эффективного выбора текущего лучшего кандидата, реализованный с использованием очереди приоритетов. Алгоритм поиска A * является примером алгоритма поиска лучшего первого, как и B *.

B15. Что такое в ИИ альтернативный ключ, искусственный ключ, составной ключ и естественный ключ?

Альтернативный ключ - любой ключ-кандидат, кроме первичных ключей.

Искусственный ключ - ключ, созданный искусственно путем присвоения номера отдельной записи при отсутствии отдельного или составного ключа.

Составной ключ - интеграция нескольких элементов для создания уникального идентификатора при отсутствии какого-либо элемента данных, который однозначно определяет вхождение в конструкции.

Естественный ключ - элемент данных, хранящийся в конструкции, используемый в качестве первичного ключа.

C. ПРАКТИЧНОСТЬ / ПРОГРАММИРОВАНИЕ

МАШИННОЕ ОБУЧЕНИЕ

C1.Откуда вы обычно получаете наборы данных?

Этот вопрос свидетельствует о вашем интересе к изучению машин и опыту. Он измеряет вашу способность экспериментировать с данными и работать при различных сценариях проблем. Иногда это может быть решающим фактором, если вы экспериментировали с некоторыми интересными и обширными наборами данных, которые очень интересны компании, проводящей интервью.

Для построения моделей машинного обучения доступно множество бесплатных и открытых репозиториев наборов данных - например, Данные о продуктах Amazon, Kaggle, Анализ настроений, Socrata Open Data, Репозиторий машинного обучения UCI.

Потратьте время на изучение и анализ. Получайте удовольствие, экспериментируя и визуализируя свои данные, пока вы готовитесь к окончательному собеседованию по поводу машинного обучения.

C2. Как поступать с отсутствующими или поврежденными данными в наборе данных?

Действия будут основываться на схеме отсутствующих или поврежденных данных - если они отсутствуют полностью случайным образом без смысла, отсутствуют случайным образом и отсутствуют не случайно, что влияет на первичные зависимые переменные.

Возможные варианты:

  • Удалите строки с пропущенными значениями, если они отсутствуют полностью случайным образом и процент пропущенных значений невелик.
  • Восстановите значения, связавшись с участниками для поиска недостающих данных.
  • Используйте среднее значение, если данные не сильно изменяются.
  • Используйте более структурированное предположение с условным исчислением общих точек
  • Используйте множественный регрессионный анализ, чтобы предсказать пропущенное значение из других значений.
  • Используйте корреляции между данными с множественным вменением. Правдоподобные значения создаются на основе корреляций для отсутствующих данных и смоделированных наборов данных, усредненных путем включения случайных ошибок в прогнозы.
  • Назначьте уникальную категорию, когда мы хотим предотвратить потерю данных
  • Прогнозирование отсутствующих значений с помощью линейной регрессии
  • Используйте алгоритмы, поддерживающие пропущенные значения, такие как KNN, случайный лес или древовидный метод.

C3. Какие есть методы уменьшения размерности?

Популярные методы включают:

i) Соотношение отсутствующих значений - если столбцы данных содержат слишком много отсутствующих значений, затем удалите эти столбцы, установив порог для отсутствующих значений.

ii) Фильтр низкой дисперсии - когда столбец данных имеет постоянные значения, его дисперсия будет равна 0, и такие переменные не будут объяснять изменение целевых переменных.

iii) Фильтр высокой корреляции - когда столбцы данных взаимозависимы друг от друга и содержат аналогичную информацию, это увеличивает избыточность модели. Таким образом, высококоррелированные столбцы идентифицируются с помощью коэффициентов корреляции.

iv) Случайный лес - для решения проблем с пропущенными значениями, выбросами и наиболее значимыми переменными используется метод выбора признаков для поиска наиболее информативного подмножества признаков.

v) Устранение обратных характеристик - поочередное устранение функций, которые не добавляют ценности модели, путем проверки частоты ошибок после каждого исключения, пока не будет достигнута максимально допустимая частота ошибок. Затем определяется наименьшее количество функций.

vi) Построение прямых функций - Найдите наиболее важные функции, которые улучшают производительность модели, и добавляйте их по одной для улучшения модели.

vii) Анализ основных компонентов (PCA) - существующий набор переменных преобразуется в новый набор переменных, который представляет собой линейную комбинацию исходных переменных.

viii) Факторный анализ - переменные моделируются как линейные комбинации потенциальных факторов плюс «ошибки». Он основан на предположении, что существует несколько ненаблюдаемых скрытых переменных , которые объясняют корреляции между наблюдаемыми переменными.

ix) t-распределенное стохастическое соседнее вложение (t-SNE) - учитывает вероятность того, что пары точек данных в многомерном пространстве связаны, и выбирает низкоразмерные вложения, которые производят подобное распределение. .

x) ISOMAP - использует матрицу попарных расстояний между всеми точками и вычисляет положение для каждой точки. Затем ISOMAP использует классическое многомерное масштабирование (MDS) для вычисления уменьшенных положений точек.

C4. Что такое стратифицированная перекрестная проверка и когда она используется?

Когда наблюдается большой дисбаланс в переменных ответа, метод перекрестной проверки используется для перегруппировки данных между обучающими и проверочными наборами, так что распределение в каждой кратной области дает хорошее представление всего набора данных. Это заставляет каждую складку иметь не менее m экземпляров каждого класса.

Стратифицированная перекрестная проверка используется в следующих случаях:

  1. Когда набор данных невелик и имеет несколько категорий, это создает дисбаланс.
  2. Когда набор данных имеет разные распределения и требуется проверка, чтобы предотвратить проблему обобщения.

C5. Решите проблему, связанную с деревом решений.

Рассмотрим проблему: исходя из данных 70 пациентов, мы должны определить, кто из них более предрасположен к раку легких. Только два атрибута, «возраст» и «привычка к курению», были проверены на возможность рака легких.

Модель дерева решений может оценить вероятность рака легких у пациентов на основе двух основных атрибутов. Кроме того, это помогло предсказать и определить, кто из новых пациентов с наибольшей вероятностью будет болен раком легких.

C6. Что такое несбалансированный набор данных? Можете ли вы перечислить способы справиться с этим?

Несбалансированный набор данных - это набор данных, в котором распределение данных в целевых категориях неравномерно. Например, в задаче классификации электронной почты обычно будет больше спама, чем обычных (релевантных) писем. Несбалансированность классов может достигать 70–95% для класса спама и 5–30% для соответствующих писем. Такое непропорциональное распределение двух классов данных представляет собой несбалансированный набор данных.

Использование несбалансированного набора данных влияет на производительность и точность модели обучения и требует модификации.

Хорошие способы справиться с несбалансированными наборами данных должны сосредоточиться на исправлении дисбаланса, когда нет возможности использовать другой алгоритм. Вот несколько способов:

  • Избыточная выборка класса меньшинств при недостаточности данных.
  • При выборке класса большинства , когда имеется достаточное количество данных для работы.
  • Сбор большего количества данных и добавление данных в более легкую категорию для контроля дисбаланса.
  • Передискретизация на основе кластеров, чтобы все классы имели одинаковый размер, а кластеры одного класса имели равное количество экземпляров.
  • Сгенерируйте синтетические выборки путем случайной выборки атрибутов из экземпляров в классе меньшинства и добавления в набор данных.
  • Передискретизация с разными соотношениями между редким и многочисленным классами
  • Использование соответствующих показателей для устранения дисбаланса. Например, точность, путаница, отзыв и F-оценка, чтобы обеспечить более высокую точность модель.
  • Изменение существующих алгоритмов классификации и создание собственных моделей , которые лучше всего работают с несбалансированными наборами данных.

ИСКУССТВЕННЫЙ РАЗУМ

C7. Как подключиться к серверу Amazon с помощью PuTTY?

В идеале вы должны иметь опыт работы с сервером Amazon. Однако вы можете заглянуть на этот ресурс.

C8. Как лучше всего решить проблему с игрой?

Эвристический подход - лучший способ, так как он обнаружит вычисление грубой силы, глядя на сотни тысяч позиций. Например, в соревновании по шахматам между Человеком и компьютером на базе ИИ.

C9. Какие библиотеки уже доступны в AMI для глубокого обучения?

  • MxNet
  • TensorFlow
  • Keras с TensorFlow в качестве бэкэнда по умолчанию
  • Keras с MxNet в качестве серверной части по умолчанию
  • Кофе
  • CNTK
  • Theano
  • PyTorch
  • NVidia
  • CUDA
  • CuDNN

C10. Как бы вы обучили свою глубокую нейронную сеть?

Подготовьтесь к поиску этих отличных ресурсов.

Как обучить вашу глубокую нейронную сеть

Куча советов и хитростей

Создание глубокой нейронной сети: шаг за шагом

C11. Каковы преимущества использования искусственного интеллекта при тестировании?

Платформа непрерывного тестирования на базе искусственного интеллекта - проверенный метод, позволяющий упростить тестирование программного обеспечения и сделать его более эффективным или умным в ограниченные сроки. Он может идентифицировать измененные элементы управления намного эффективнее, чем человек. Благодаря потоку постоянных и непрерывных обновлений алгоритмов можно заметить даже небольшое изменение.

Преимущества:

а) Автоматизация тестирования ИИ имеет гораздо больше возможностей, чем ручное тестирование, поскольку может моделировать любое количество виртуальных наборов пользователей для взаимодействия с программным обеспечением, сетью или веб-приложениями.

б) Высокая точность результатов испытаний.

c) Поддерживает как разработчиков, так и тестировщиков, разделяя автоматизированные тесты до того, как они достигнут контроля качества.

г) Экономит время и деньги, поскольку обеспечивает более быстрое время выхода на рынок. Автоматические тесты AI можно внедрять снова и снова, с низкими или нулевыми дополнительными затратами в быстром темпе.

д) Общее тестовое покрытие может быть увеличено для повышения качества программного обеспечения.

C12. Можем ли мы применить классификатор глубокого обучения для биометрической аутентификации?

Да, используя эти пять основных шагов: 1) сбор данных, 2) предварительная обработка, 3) регистрация и сегментация, 4) извлечение признаков и 5) классификация.

Предлагаемые варианты чтения: а) Изучение парной SVM по глубинным иерархическим функциям для распознавания уха

б) Глубокие функции для эффективного мультибиометрического распознавания с изображениями лиц и ушей

C13. Какой метод распознавания образов вы бы предпочли и почему?

Методы распознавания образов бывают параметрическими и непараметрическими. Выбор наилучшего метода зависит от многих факторов, таких как вычислительная мощность, объем доступных данных, размер пространства функций, распределение данных, приложение и задача.

Лучший алгоритм распознавания образов зависит от класса задач. Если известны условные вероятностные распределения объектов разных классов, то можно использовать байесовские методы классификации. Если условные вероятности неизвестны, мы будем использовать дискриминантные методы SVM. Для распознавания оптических изображений мы могли бы реализовать сверточные нейронные сети.

C14. Как Facebook использует анализ изображений?

Facebook использует приложение глубокого обучения под названием DeepFace, которое работает как расширенный инструмент распознавания изображений. Он обнаруживает друзей пользователей, чтобы сопоставить недавно загруженные изображения с теми, которые отмечены где-либо еще. В алгоритм поступают большие объемы обучающих данных и алгоритмы машинного обучения, такие как нейронные сети, для классификации и распознавания изображений загруженных изображений.

C15. Расскажите, как вы могли бы использовать ИИ для обнаружения мошенничества в банковских транзакциях.

Будут использоваться следующие методы ИИ:

  • Интеллектуальный анализ данных для классификации, кластеризации и сегментации данных; например, транзакции с большим объемом транзакций или трансграничные транзакции. Затем автоматически найдите в данных ассоциации и правила, которые указывают на подозрительные модели, связанные с мошенничеством.
  • Экспертные системы для кодирования опыта в обнаружении мошенничества в виде правил, регулирующих банковское регулирование.
  • Распознавание образов для обнаружения приблизительных классов, кластеров или моделей подозрительного поведения либо автоматически (без присмотра), либо в соответствии с заданными входными данными.
  • Методы машинного обучения для определения характеристик мошенничества.
  • Нейронные сети, которые могут изучать подозрительные паттерны по образцам и использовать их позже для их обнаружения.

Д. ДОМЕНА / ОТРАСЛИ / ОТРАСЛИ / КОМПАНИИ

D1. Как бы вы внедрили систему рекомендаций для пользователей нашей компании?

Это всего лишь примерный вопрос. Вы можете ожидать, что многие из таких вопросов связаны с внедрением моделей машинного обучения в систему найма компании.

Чтобы подготовиться к таким вопросам, вам нужно сделать домашнее задание. Изучите профиль компании, ее текущие финансовые показатели, профиль клиента, ее бизнес и предлагаемые услуги / продукты в рамках подготовки к собеседованию.

Некоторые отличные ресурсы:

Как внедрить рекомендательную систему

Учимся давать рекомендации

Как работают рекомендательные системы?

D2. Что вы думаете о нашей текущей обработке данных?

Как и предполагалось, вам необходимо хорошо разбираться в бизнес-процессах компании по найму. Определите их бизнес-модель; понять, какие процессы они используют и в каких областях можно улучшить.

Ваш ответ должен быть конструктивным, точным и содержательным. Дайте интервьюеру возможность понять ваш потенциал и ценность для его команды.

D3. Как мы можем использовать ваши навыки машинного обучения для получения дохода?

Это сложный вопрос, который часто может стать решающим фактором. Ваш ответ должен демонстрировать знание отрасли, бизнес-процессов компании и актуальность ваших навыков.

Например, вы можете упомянуть свои навыки в разработке алгоритмов НЛП, чтобы сделать взаимодействие с клиентами более личным для CX; автоматизация финансовых процессов для экономии средств; в управлении цепочкой поставок; выявить закономерности воровства и т. д.

Хотя это всего лишь примеры, ваши ответы должны иметь отношение к бизнес-процессу нанимающей компании и связанным с ней отраслевым проблемам.

D4. Как вы можете помочь нашей команде по маркетингу работать более эффективно?

Ответ зависит от типа компании.

Вот несколько примеров.

  • Алгоритмы кластеризации для создания клиентских сегментов, адаптированных к маркетинговой кампании.
  • Прогнозируйте конверсию посещений веб-сайтов на основе 360-градусного поведения пользователей, чтобы создавать более эффективные кампании с дополнительными продажами и перекрестными продажами.

D5. Как вы посоветуете внедрить виртуальных личных покупателей в нашей компании?

Это примерный вопрос, которого вы можете ожидать, если интервьюер работает в компании электронной коммерции. Вот несколько отличных ресурсов, чтобы пополнить свою базу знаний. Используйте данные из открытых источников и работайте над аналогичными проектами, чтобы отточить свой опыт.

Как разработать персональное приложение покупателя на основе искусственного интеллекта

Как разработать приложение для покупателя с помощью аналитики данных и консультантов