Автор: Мейгаром Лопес, специалист по анализу данных AMARO

Введение

Индустрия моды - очень привлекательная отрасль для работы с машинным обучением. Скорость модных тенденций и желание покупателя одеваться по последней моде требует от компаний продуктов с коротким жизненным циклом, высококлассного контента, конкурентоспособных цен и удобства покупки. Все эти факторы способствуют превращению распространенных проблем машинного обучения в действительно сложные, которые требуют от специалистов по данным много исследований. Эти источники не так очевидны, поскольку большинство сценариев использования машинного обучения разработаны для традиционных рынков, таких как энергетика, финансовые услуги, здравоохранение, производство, СМИ и розничная торговля. При этом в этом посте я покажу три источника знаний, на которые вы можете положиться, чтобы помочь вам решить сложные проекты в области науки о данных для индустрии моды.

Первый источник: академические круги, научные статьи о модной индустрии

Первый источник - это научные статьи из академических кругов. Есть много знаний и усердия над этим. Исследователи обычно тратят годы на одну и ту же работу. У них обычно есть действительно четко определенные проблемы, где они могут проверять и подтверждать гипотезы, пробовать различные методы, внедрять гибридные подходы, настраивать модели, анализировать причину ошибки и предлагать улучшения для текущих современных моделей машинного обучения. Все эти задачи, выполняемые периодически в течение нескольких месяцев, приводят к созданию качественных, надежных и стабильных новых методик.

Одно из самых сложных улучшений в модном бизнесе связано с прогнозом продаж. Это одна из самых сложных задач из-за того, что продажи являются быстрыми и достоверными. Его скорость обусловлена ​​тем, что он следует модной тенденции, которая очень изменчива и уникальна из-за того, что покупатели обычно не надевают один и тот же наряд снова и снова в течение очень долгого времени, а модный образ вряд ли повторится в будущем. даже если бы это был полный успех в продажах.

В статье Себастьяна Томасси и Антонио Фьордалисо Гибридная система прогнозирования продаж на основе кластеризации и деревьев решений (http://bit.ly/2rRcHRX) предлагается система прогнозирования, основанная на методах кластеризации и классификации. Таким образом, журнал предлагает сначала сгруппировать модные продукты по показателям продаж, а затем поднять некоторые описательные критерии из каждого кластера, чтобы описать его по атрибутам моды, и, наконец, он создает классификатор для присвоения новых продуктов одному из этих продуктов. кластеры. Основное предположение состоит в том, что товары из одного кластера могут иметь схожее поведение при продажах, поскольку они связаны модой.

Кроме того, научные статьи могут помочь вам понять некоторые характеристики и ограничения задачи. Например, в этой статье Прогнозирование продаж в индустрии одежды и моды: обзор от Себастьяна Томасси (http://bit.ly/2rOCyKp) автор представляет обзор модного контекста, цепочки поставок одежды. , требования к прогнозированию продаж, такие как временной горизонт, жизненный цикл, агрегирование продуктов по топологии, сезонность, экзогенные переменные и т. д. Даже если у вас есть опыт в этой области, чтение действительно стоит того, оно может охватывать то, что вы не учли в своем проекте прогнозирования продаж.

Следующий источник знаний ближе к нашей повседневной жизни, я почти уверен, что специалисты по данным держат себя в курсе, читая сообщения в блогах.

Второй источник: сообщения в блогах, работа, проделанная коллегами.

Блоги - отличный способ поделиться знаниями между профессионалами в этой области. Многие специалисты по обработке данных делятся открытиями, опытом и передовыми методами в блогах, которые являются отличным источником обучения. Иногда для понимания книг и научных статей требуется больше внимания, терпения и усердия. С другой стороны, сообщения в блогах следуют более простым шаблонам, они обычно более неформальны, используют простой язык и обсуждают либо технические проблемы и способы их решения, либо управление и карьеру.

Однако сообщения в блогах в контексте моды редко становятся научным журналом, который нужно найти и использовать. По этой причине мы должны смотреть на сообщения, написанные для решения общих проблем на рынке, другими глазами. Нам нужно прочитать их, понять предложение проблемы, которую нужно решить, методы или аргументы, которые автор обсуждает в тексте, возможные проблемы, с которыми нужно иметь дело, окончательное решение и внести все знания в контекст моды, адаптируя его на основе об ограничениях и характеристиках проекта.

Чтобы решить проект прогнозирования продаж в контексте моды, мы можем извлечь соответствующие знания из аналогичных задач. Существует множество конкурсов Kaggle, которые заставляют специалистов по данным и энтузиастов прогнозировать будущие продажи или события. Например, конкурс Две сигмы (http://bit.ly/2LvfZ6B) заставляет конкурентов прогнозировать динамику курса акций на основе содержания новостей, конкурс Grupo Bimbo Inventory Demand (http://bit.ly/2LsWsnr ) Просит Kagglers разработать модель для точного прогнозирования спроса на товарные запасы на основе исторических данных, а конкуренция по продажам в магазинах Россманна ( http://bit.ly/2LuYvav ) затрудняет прогнозирование ежедневных продаж за 6 недель для 1115 магазинов, расположенных по всему миру. Германия.

Вся работа, проделанная в рамках этих соревнований, исследовательский анализ, моделирование, анализ ошибок, выводы и окончательные результаты сохраняются в репозитории кода под названием Kernel на платформе Kaggle. Самое приятное то, что он общедоступен, вы можете проверить всю работу, проделанную блестящими специалистами по данным, и многому у них научиться. Пройдя через все эти коды, вы сможете адаптировать все знания к контексту моды.

Последнее преимущество, которое вы можете получить от публикации, - это новый взгляд на то же решение. Иногда вы пытаетесь решить проблему с помощью решения и зацикливаетесь на своих результатах. Независимо от того, что вы делаете для улучшения решения, результаты остаются прежними. В этом случае ваши результаты могут быть полезны при взгляде с другой точки зрения. Например, в этом сообщении блога (http://bit.ly/2LsK8mU) Марио Филью, который является Kaggle Grandmaster, он предлагает другую точку зрения на прогноз продаж. Вкратце, он предложил построить единую модель для прогнозирования нескольких временных рядов продаж, вы можете рассматривать каждый временной ряд как продажи продукта, вместо того, чтобы обучать модель для каждого временного ряда. Это другая точка зрения, которая может вывести ваш результат на другой уровень.

Последний источник знаний - самый важный.

Третий источник: полагайтесь на свои собственные навыки в области науки о данных

ВЫ - самый важный источник знаний. Здесь важную роль играет весь ваш опыт, собранный во время вашего путешествия, основанный на учебе в колледже, программах диплома, специализированных курсах, онлайн-обучении, личных проектах и ​​независимых исследованиях.

Специалисты по данным должны сделать свою домашнюю работу, прежде чем проверять внешние знания. Я перечислил здесь 3 вещи, которые считаю важным сделать, прежде чем обращаться за помощью:

Изучите теорию

Убедитесь, что вы понимаете теорию, если вы еще этого не сделали. Из объема проекта вы можете сделать вывод о том, с каким типом проблемы машинного обучения вы решаете, и является ли она контролируемой, неконтролируемой или подкрепляющей. Например, если вы решили, что это контролируемая задача, вы можете классифицировать ее как классификацию, регрессию или задачу временного ряда. И наконец, исходя из своего суждения, вы можете подготовиться.

Изучите домен

Постарайтесь понять хотя бы базовое из области бизнеса. Проявите любопытство, исследуйте время со своими заинтересованными сторонами, чтобы узнать как можно больше. Не бойтесь задавать вопросы, убедитесь, что вы понимаете проблему, реквизиты, ожидания результатов и ключевые определения. Вы всегда можете погуглить бизнес и узнать, что делают аналогичные компании для решения той же проблемы, с которой вы только начинаете.

Начните быстро, сделайте это просто

Моделирование - это лишь одна часть решения, у вас есть больше модулей для реализации и подключения, чтобы включить конвейер прогнозирования. В первой версии модели реализовать сквозной конвейер, получить данные, очистить и подготовить данные, извлечь функции, обучить модель и протестировать ее, наконец, понять текущие результаты и определить улучшения для следующей итерации. .

Очень важно развернуть вашу первую модель в производстве, получить мало результатов и получить много опыта и отзывов от модели и самого процесса, чтобы улучшить ее для следующих итераций.

Вывод:

Индустрия моды использует данные, чтобы использовать свои результаты, улучшить цепочку поставок и предоставлять все больше и больше персонализированных продуктов в соответствии с модными тенденциями. Эти условия отражают ограничения среды, в которой будет работать наука о данных. Создание, обучение, тестирование и развертывание моделей машинного обучения было действительно сложной задачей, и одна из причин заключается в том, что в этой области не так много исследований и проектов. Тем не менее, именно эта характеристика делает роль специалиста по данным потрясающей, она требует, чтобы профессионал был трудолюбивым и продолжал учиться, чтобы иметь возможность извлекать знания из очень теоретических научных журналов и применять их в контексте моды. способен адаптировать результаты проектов, выполненных в других областях, и адаптировать их. Наконец, сделайте вас профессионалом, способным решать любые сложные задачи.