Обзор

Крабоводство является основным видом деятельности аквакультуры, поскольку в Индии существует огромный потребительский спрос на крабов. Коммерческое разведение крабов — это растущий бизнес в прибрежных районах Индии, который выглядит прибыльным. Грязевой краб очень популярен из-за большого спроса на экспортном рынке. Разведение грязевых крабов в коммерческих масштабах быстро развивается в прибрежных районах Андхра-Прадеша, Тамилнада, Кералы и Карнатаки.

О грязевых крабах

Более крупные виды. Более крупный вид в местном масштабе известен как «зеленый грязевой краб». Он вырастает до максимального размера: ширина панциря 22 см и вес 2 кг.

Мелкие виды: более мелкие виды известны как «красный коготь». Он вырастает до максимального размера: ширина панциря 12,7 см и вес 1,2 кг.

Чтобы узнать больше о разведении грязевых крабов, перейдите по этой ссылке. Чтобы узнать больше о грязевом крабе, перейдите по этой ссылке.

Бизнес-проблема

Коммерческим фермерам, выращивающим крабов, знание правильного возраста крабов помогает решить, следует ли и когда собирать крабов. По достижении определенного возраста физические характеристики крабов практически не растут, поэтому важно выбирать время для добычи, чтобы снизить затраты и увеличить прибыль.

Описание данных

Наш набор данных находится в открытом доступе на Kaggle. Набор данных имеет следующие столбцы. Обратите внимание, что единицы измерения указателей данных не упоминаются создателем данных, но общие единицы роста и веса указаны выше.

  • Пол: пол краба (самец и самка).
  • Длина: длина краба.
  • Диаметр: диаметр краба.
  • Высота: высота краба.
  • Вес: вес краба.
  • Вес очищенного: вес краба без панциря.
  • Вес внутренних органов: вес, который охватывает органы брюшной полости глубоко внутри тела.
  • Вес корпуса: вес корпуса.
  • Возраст: возраст краба.

Подход

Наш бизнес хочет предсказать возраст крабов, чтобы они могли собирать крабов в нужное время и получать прибыль. Проблема является регрессионной, и мы можем выполнить шаги, указанные ниже, для разработки модели —

  • Выполните исследовательский анализ данных — наблюдайте за различными особенностями, влияющими на возраст грязевого краба. У нас есть высота, вес, ширина захвата, которые влияют на возраст краба.
  • Подготовка данных — очистка данных — отсутствующие значения, неизвестные значения, кодирование, чтобы гарантировать, что данные готовы для обработки алгоритмом.
  • Разделение данных. Разделите данные на обучающие и тестовые данные. Я пошел на сплит 80–20
  • Выберите алгоритм. Определение правильного алгоритма для решения проблемы является серьезной задачей, и в большинстве случаев это не происходит за один раз. Я выбрал алгоритм линейной регрессии, так как все характеристики, т. е. высота, вес, ширина и т. д., имеют линейную связь с возрастом.
  • Прогнозируйте и оценивайте модель, используя различные показатели, используемые для линейной регрессии, т. е. RMSE, MSE, MEA.

Результаты разведочного анализа данных

Графики, показанные выше, показывают —

  • Существует линейная связь между весом, ростом, диаметром, длиной и т. д. и возрастом. Это вполне очевидная природа живых организмов, где их атрибуты, такие как рост, вес, длина и т. д., увеличиваются с возрастом

  • У нас почти одинаковое распределение самок, самцов и промежуточных половых крабов в наборе данных, поэтому мы можем сделать вывод, что наш набор данных в равной степени представляет все классы

  • На приведенном выше графике ясно видно, что почти все функции положительно связаны друг с другом и влияют на метку прогноза, т. е. на возраст

Подготовка данных для обучения

  • Выполните OneHotEncoding для столбца пола
  • Отдельные зависимые и независимые переменные (функции и метки)
  • Выполните поезд, тестовый сплит
  • Создать объект модели и обучить модель
  • Выполнять прогнозы

Исход

Теперь мы можем использовать линейную регрессию sklearn для прогнозирования возраста крабов и оценки модели. Исходный код со всеми подробностями доступен в моем блокноте Kaggle.

Улучшение модели

Можно попробовать следовать, чтобы улучшить предсказание модели -

  • Попробуйте другие алгоритмы — деревья решений, случайный лес и т. д.
  • Выполните выбор функции. Удалите функции, которые не влияют на результат