Хотя я новичок в области науки о данных. Но некоторые юниоры часто задают мне такие вопросы.

  1. Что следует изучить в первую очередь между контролируемым и неконтролируемым?
  2. Что мне решать: регрессия или классификация?
  3. Какая модель лучше всего подходит для моего набора данных?
  4. Слышал, что случайный лес работает лучше, правда?

Так что для них мне есть что сказать. Насколько хорошо ваша модель будет работать, в основном зависит от того, как вы обрабатываете набор данных. На мой взгляд, почти 70% результата проекта Data Science зависит от предварительной обработки набора данных. Почему я это говорю?

Прежде всего, каким бы ни был ваш набор данных, если вы плохо понимаете свой набор данных, вы не сможете хорошо обработать свой набор данных, поэтому ваша модель не может хорошо предсказывать. Даже если вы попробуете что-то более продвинутое, например, Stack Classifier или Bagger! Это не повлияет на результат. Какую бы модель вы ни применяли, если ваш набор данных плохо подготовлен, ваша модель не будет учиться идеально.

Итак, как мы понимаем набор данных? Я скоро расскажу.

  • Ищите недостающие значения в своем наборе данных, независимо от того, случайны ли они или вы получаете какой-то шаблон.
  • В вашем наборе данных есть выбросы?
  • Каковы отношения между функциями вашего набора данных? Насколько они сильны?
  • Какая у вас целевая переменная? Вам нужна какая-нибудь кодировка данных?
  • Ваши данные нуждаются в масштабировании?
  • Сбалансирована ли ваша целевая переменная?
  • Достаточно ли ваших независимых переменных или вам нужна разработка функций?
  • Какие функции более важны для вашей целевой переменной?
  • И, наконец, какую модель вы выберете? Подходят ли ваши данные к выбранной вами модели?

Итак, проанализировав все это, вы можете приступить к прогнозу своей модели. И, надеюсь, там вас ждет лучший результат. Я не эксперт. Просто поделился некоторыми фактами, которыми я могу поделиться и в основном могу напомнить себе.