В первой части сериала Dr. Stonebraker обрисовал в общих чертах пять способов узнать наверняка, что компании делают ошибки в своих планах и внедрении больших данных . Он много внимания уделял тому, чтобы компании упустили возможность не нанимать лучших специалистов и не перейти в облако. Давайте рассмотрим следующие пять грубых ошибок в работе с большими данными, чтобы решить, следует ли вам оставаться в организации или уйти.

[Статья по теме: 10 основных грубых ошибок в работе с большими данными, часть 1]

6. Вера в то, что хранилища данных решат все ваши проблемы.

Хранилища данных - отличные проекты для структурированных данных, но теперь, когда у нас есть доступ к большим объемам неструктурированных данных, полагаться только на хорошо построенное хранилище упускает половину вашего понимания. Вы можете использовать текст, изображения и видео, но они не будут четко помещаться в ваших столбцах и строках, поэтому найдите более эффективные способы очистки, организации и предоставления данных для дальнейшего анализа. Используйте хранилище для предназначенных, структурированных данных.

7. Вера в то, что Hadoop и Spark решат ваши проблемы.

Вы видите здесь закономерность? Вера в то, что одна программа все исправит, - это миф. Spark и Hadoop отлично подходят для некоторых задач, но они не могут быть конкурентоспособными в мире больших данных. Они не могут выполнить интеграцию данных и ужасно плохо разбираются в данных. Примите решение использовать более одной программы, чтобы получить лучшее от породы, а не наименьший общий знаменатель.

8. Вера в то, что озеро данных решит ваши проблемы.

Хранилище не всегда будет работать, так что вы просто создадите озеро данных, верно? Неправильный. Озера данных отлично подходят для неструктурированных данных, но они могут очень быстро выйти из строя. Независимо построенные озера данных никогда не подключаются к плагинам, поэтому забудьте о загрузке всех этих данных для корреляции.

Когда вы просматриваете свои данные, многие вещи могут выйти из строя. Ваши схемы не будут совпадать, например, использование «зарплаты» по сравнению с «заработной платой». Если вы ведете какие-либо дела с другими странами, ваши единицы не будут совпадать (доллары против евро). Ваша семантика будет неправильной (чистая зарплата против брутто), и даже ваша детализация не будет совпадать (годовая или ежемесячная).

Все данные грязные. По крайней мере, 10% ошибочных и полно дубликатов, которые вы должны очистить. Если у вас нет четкого, работоспособного внутреннего решения, ваше озеро данных превратится в болото данных. Чтобы этого избежать, вам нужно исправить другие десять грубых ошибок и убедиться, что ваши лучшие люди работают, что большая часть вашего времени тратится на обнаружение и очистку данных и что вы не придерживаетесь устаревших программ, которые увеличивают нагрузку.

Если вы не готовы к этому, используйте стартап с лучшими идеями для создания вашей системы репозитория данных. Стартапы агрессивны и имеют самые свежие идеи.

9. Аутсорсинг вашего персонала в Palantir, IBM, Mu Sigma и другие.

Типичное предприятие тратит 95% времени на поддержание унаследованного кода. Это скучно. Вместо этого положите своих лучших людей на свою блестящую новинку, вместо того, чтобы пытаться хромать по устаревшим кодам. Передача вашей новой инициативы на аутсорсинг при сохранении этого дорогостоящего таланта на работе с электронной почтой - это смертный приговор.

Вместо этого отдайте на аутсорсинг работы, которые не являются захватывающими или новаторскими. Вы платите своим ученым-ракетостроителям за создание этих инноваций, поэтому не отвлекайте их на поддержку вашего унаследованного кода. Ваш нынешний «секретный соус», вероятно, устарел и в любом случае готов к разрушению.

10. Поддаться дилемме новатора

Трудно изменить работающий бизнес, но чтобы выжить, вы должны быть готовы изменить всю свою бизнес-модель, если это необходимо. Если компания не может заново изобрести себя, она готова к разрушению.

Во время этого процесса вы, вероятно, потеряете клиентов, что больно, но подумайте о торговле. Удержание тех клиентов, которые не видят ваших инноваций, в конечном итоге может привести к потере всего вашего бизнеса. Лучше потерять несколько клиентов сейчас и остаться в бизнесе.

Например, в 1940-х годах кабельные паровые экскаваторы были в моде в строительстве. Они могли поднимать тяжелые грузы и выполнять огромную работу. Обмен? Они были действительно опасными и громоздкими. Гидравлика была еще новой и использовалась только для небольших работ. Итак, что случилось? Гидравлика стала лучше, крупнее и эффективнее, и компании, которые не исследовали и не производили гидравлику, прекратили свое существование. Не будь кабельной паровой лопатой.

Бонус: 11. Работа в компании, которая ничего не пытается делать.

Даже несовершенное исполнение лучше, чем самодовольное сидение. Если ваша компания не рассматривает возможность перехода на большие данные, не создает команду по работе с данными и не пытается продвигаться вперед, внедряя инновации, вы поддерживаете проигрышное предложение. Один из наиболее значимых признаков неудач - полное отсутствие движения вперед. Компания, пытающаяся остаться на прежнем месте, в конечном итоге потерпит неудачу.

Станьте частью решения этих грубых ошибок, связанных с большими данными

Вы можете быть частью проблемы или частью решения в больших данных. Лучше предлагать своим клиентам решения, учитывающие времена перемен, чем полагаться на устаревшие формы бизнес-аналитики. Если вы можете решить высокий полюс в палатке (интеграция данных) для компании, и эта компания готова начать новую инициативу и при необходимости полностью переосмыслить, у вас будет гораздо больше шансов выжить в кризисной ситуации.

В противном случае начните искать нового работодателя сегодня, прежде чем вы потерпите крушение из-за этих грубых ошибок с большими данными.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.