Обзор
Крабоводство является основным видом деятельности аквакультуры, поскольку в Индии существует огромный потребительский спрос на крабов. Коммерческое разведение крабов — это растущий бизнес в прибрежных районах Индии, который выглядит прибыльным. Грязевой краб очень популярен из-за большого спроса на экспортном рынке. Разведение грязевых крабов в коммерческих масштабах быстро развивается в прибрежных районах Андхра-Прадеша, Тамилнада, Кералы и Карнатаки.
О грязевых крабах
Более крупные виды. Более крупный вид в местном масштабе известен как «зеленый грязевой краб». Он вырастает до максимального размера: ширина панциря 22 см и вес 2 кг.
Мелкие виды: более мелкие виды известны как «красный коготь». Он вырастает до максимального размера: ширина панциря 12,7 см и вес 1,2 кг.
Чтобы узнать больше о разведении грязевых крабов, перейдите по этой ссылке. Чтобы узнать больше о грязевом крабе, перейдите по этой ссылке.
Бизнес-проблема
Коммерческим фермерам, выращивающим крабов, знание правильного возраста крабов помогает решить, следует ли и когда собирать крабов. По достижении определенного возраста физические характеристики крабов практически не растут, поэтому важно выбирать время для добычи, чтобы снизить затраты и увеличить прибыль.
Описание данных
Наш набор данных находится в открытом доступе на Kaggle. Набор данных имеет следующие столбцы. Обратите внимание, что единицы измерения указателей данных не упоминаются создателем данных, но общие единицы роста и веса указаны выше.
- Пол: пол краба (самец и самка).
- Длина: длина краба.
- Диаметр: диаметр краба.
- Высота: высота краба.
- Вес: вес краба.
- Вес очищенного: вес краба без панциря.
- Вес внутренних органов: вес, который охватывает органы брюшной полости глубоко внутри тела.
- Вес корпуса: вес корпуса.
- Возраст: возраст краба.
Подход
Наш бизнес хочет предсказать возраст крабов, чтобы они могли собирать крабов в нужное время и получать прибыль. Проблема является регрессионной, и мы можем выполнить шаги, указанные ниже, для разработки модели —
- Выполните исследовательский анализ данных — наблюдайте за различными особенностями, влияющими на возраст грязевого краба. У нас есть высота, вес, ширина захвата, которые влияют на возраст краба.
- Подготовка данных — очистка данных — отсутствующие значения, неизвестные значения, кодирование, чтобы гарантировать, что данные готовы для обработки алгоритмом.
- Разделение данных. Разделите данные на обучающие и тестовые данные. Я пошел на сплит 80–20
- Выберите алгоритм. Определение правильного алгоритма для решения проблемы является серьезной задачей, и в большинстве случаев это не происходит за один раз. Я выбрал алгоритм линейной регрессии, так как все характеристики, т. е. высота, вес, ширина и т. д., имеют линейную связь с возрастом.
- Прогнозируйте и оценивайте модель, используя различные показатели, используемые для линейной регрессии, т. е. RMSE, MSE, MEA.
Результаты разведочного анализа данных
Графики, показанные выше, показывают —
- Существует линейная связь между весом, ростом, диаметром, длиной и т. д. и возрастом. Это вполне очевидная природа живых организмов, где их атрибуты, такие как рост, вес, длина и т. д., увеличиваются с возрастом
- У нас почти одинаковое распределение самок, самцов и промежуточных половых крабов в наборе данных, поэтому мы можем сделать вывод, что наш набор данных в равной степени представляет все классы
- На приведенном выше графике ясно видно, что почти все функции положительно связаны друг с другом и влияют на метку прогноза, т. е. на возраст
Подготовка данных для обучения
- Выполните OneHotEncoding для столбца пола
- Отдельные зависимые и независимые переменные (функции и метки)
- Выполните поезд, тестовый сплит
- Создать объект модели и обучить модель
- Выполнять прогнозы
Исход
Теперь мы можем использовать линейную регрессию sklearn для прогнозирования возраста крабов и оценки модели. Исходный код со всеми подробностями доступен в моем блокноте Kaggle.
Улучшение модели
Можно попробовать следовать, чтобы улучшить предсказание модели -
- Попробуйте другие алгоритмы — деревья решений, случайный лес и т. д.
- Выполните выбор функции. Удалите функции, которые не влияют на результат