Практически ли полезна наука о данных?

Три способа использования науки о данных в повседневной жизни

По большому счету, наука о данных получает плохую репутацию.

Большинство людей считают эту профессию практичной только для крупного бизнеса с большим объемом данных. В первые дни моей работы в качестве консультанта с очень маленьким рабочим днем в некоторых очень небольших компаниях они часто объясняли, что наука о данных - не то, что им нужно. У них просто не было масштабов, чтобы оправдать использование дорогостоящего и сложного решения для анализа данных. Итак, я остановился на мелкой аналитике.

И они не ошибались. Я имею в виду, что специалисты по обработке данных дороги, модели требуют времени на настройку и обучение, а данные необходимо маркировать. Более того, чтобы быть точными перед лицом большого количества вариаций в данных, модели должны подвергаться как можно большему количеству этих вариаций. Другими словами, вам нужно много данных.

Эта проблема только усугубляется, когда вы пытаетесь понять, насколько наука о данных может быть полезной для человека. У людей не так много размеченных данных, они не осознают, сколько времени они тратят на определенные задачи, а повседневные задачи требуют большего мышления «если-то», чем вероятностей и вероятностей.

Но вот в чем дело.

Я буду откровенен с тобой.

Меня это всегда беспокоило. Я всегда ценил людей, которые могут творить дерьмо своими навыками. Я заядлый зритель таких шоу, как Alone и Naked and Afraid. Навыки выживания практичны. Навыки выживания - это круто.

Наука о данных - это не навык выживания. Я не могу использовать науку о данных, чтобы разжечь огонь. Наука о данных не защищает меня от больших голодных животных. Я знаю это.

Тем не менее обеспокоенный я остался. Но не надолго.

В какой-то момент, независимо от того, было ли это основано на потребности, любопытстве или чистом упрямстве, я, наконец, перестал увлекаться дневной инерцией и по-настоящему задумался над проблемой.

Моя повседневная жизнь нуждалась в критике.

Здесь я описываю три практических применения, которые я извлек из применения моих навыков обработки данных в повседневной жизни.

Наука о данных такая же, как и наука о данных

Несмотря на то, что я проработал в этой профессии много лет, мне потребовалось некоторое время, чтобы избавиться от повседневного мышления «если-то» и начать анализировать, как наука о данных может быть полезна для меня (не только для компаний, которым я помогал). примените это).

Все началось с перерыва в моем рабочем дне, чтобы подвести итоги задач, которые отнимали у меня большую часть времени.

Урегулирование семейных споров

Мой набег на практическую науку о данных начался с чрезмерного количества времени, потраченного на споры о политике с моей семьей и дальними друзьями в Facebook. Я обнаружил, что ищу данные, сравнивающие крайне правую и крайне левую политику, чтобы указать, что это просто не одно и то же.

Но мои анекдоты и труднодоступные исследовательские статьи, казалось, не остались незамеченными. Итак, чтобы сэкономить время, много разочарований и вооружиться данными, я обратил свое время на науку о данных.

Я построил экосистему, которая собирала данные из информационных бюллетеней крайне правых и крайне левых организаций. Я написал скрипт веб-скрапинга, который будет захватывать 50 самых популярных поисковых ссылок, используя такие фразы, как «текущие тенденции в правых [левых] СМИ», извлекать текст с этих сайтов и добавлять некоторые высокоуровневые метаданные (например, было ли это сайт .com или .org?).

Затем я подробно остановился на анализе некоторых тем, извлечении сущностей и анализе настроений. Последний шаг - упаковать все, чтобы получить несколько простых графиков, показывающих различия между двумя крайними идеологиями.

Что это была за тетя Тутси? Вы думаете, что крайне правые используют менее экстремистский язык? Бух, вот график, показывающий, насколько чаще правые используют фразу «война» по сравнению с левыми. Проблема решена, время поправилось.

Теперь это решение делает две вещи; 1. это дает мне быстрый, управляемый данными импульс политики, которым я могу поделиться с моим аргументированным кругом общения, и, 2. это помогает еще больше отделить меня от моей семьи 😊

Вы знаете, что они говорят. Сэкономленное время - это хорошо потраченные деньги. К следующему!

Оценка заданий учащихся

Еще одна область, которая занимала у меня значительную часть времени, - это преподавание. Я преподавал в качестве адъюнкта много лет. К несчастью для меня, были времена, когда моя учебная нагрузка увеличивала мое время, значительно снижая мою способность делать что-либо еще.

Что-то нужно было сделать, чтобы мое обучение было более эффективным. Большой отстой для меня? Оценочные работы. Я тратил от 5 до 15 минут на статью, хотя я создал словарь комментариев, чтобы справиться с 90% проблем, которые я видел в прошлых статьях.

Несмотря на мой организованный словарь комментариев, я все еще обнаруживал, что нужно время, чтобы сосредоточиться на правильном комментарии. Чтобы решить эту проблему, мне нужен был способ рекомендовать себе комментарии, основанные на содержании каждой статьи.

Сначала я создал папку со всеми прошлыми работами, которые я оценил для конкретного задания. Затем я извлек текст из каждой статьи, комментарии и выставленную оценку. Я организовал всю информацию на уровне абзаца, создав простой фрейм данных с бумагой, абзацем, извлеченным из этой статьи, комментарием и оценкой.

И комментарий, и оценка использовались в качестве целей, для которых я создавал модели. Абзац представляет собой источник разработки функций, который будет использоваться для прогнозирования комментария или оценки.

Чтобы упростить задачу, я использовал конвейер категоризации документов spaCy, чтобы обучить модель, которая будет рекомендовать комментарий к абзацу. Я использовал простую регрессионную модель для прогнозирования оценки по ключевым словам, взятым из документов в качестве характеристик.

Окончательное решение потребует новых документов, разбивает абзацы (любой отрывок на определенную длину символа) и предоставляет рекомендуемый комментарий для этого абзаца с оценкой достоверности. Моя модель также предсказывала оценку статьи на основе целостного взгляда на все абзацы.

Вооружившись обоими инструментами, я сократил время оценки до менее 5 минут на каждую статью. Я все еще просматриваю каждую статью вручную, но моя модель обеспечивает быстрый доступ к наиболее вероятным отзывам, необходимым для каждого абзаца.

Придумывая творческий контент

Первые два примера относятся к интеллектуальной автоматизации. Взять что-то повторяющееся, но нелегко описать как серию правил «если-то», и разработать статистические модели, которые помогут автоматизировать эти задачи без необходимости писать миллион операторов «если-то».

Этот последний пример больше связан с творческим вдохновением, чем с интеллектуальной автоматизацией, хотя, в конце концов, он помог мне сэкономить время.

Несколько лет назад мы с сыном основали компанию по производству футболок. Он действительно хорошо рисовал, а я очень хорошо умел дешево преобразовывать его рисунки в цифровые изображения. После преобразования он мог раскрашивать, улучшать и улучшать свое художественное содержание.

Сначала мы были в восторге, и творческие соки текли. Летали футболки, рисовали роботов (у него есть специальная ниша с роботами), энергия была наверху. Но затем ... продажи резко упали после того, как все папы и наны в семье приобрели свой лимит. Новинка перестала работать, и мы столкнулись с серьезными творческими препятствиями.

«Я: Сынок, наше производство футболок сокращается. Вы должны вернуться к рисованию. Бизнес полагается на вас. Судьба вашего будущего находится на волоске.

Сын: Папа, не будь таким драматичным. Кроме того, я не знаю, что еще рисовать. У меня заканчивается вдохновение для новых роботов ».

Именно тогда я обнаружил GAN, или генерирующие состязательные сети, как они более формально известны. GAN - это две нейронные сети, одна из которых генерирует выходные данные из случайных входных данных, а другая пытается классифицировать выходные данные генеративной модели (а также беспорядок других обучающих данных) как реальные или сгенерированные. Сети работают друг против друга, так что генеративная модель пытается научиться генерировать выходные данные, которые обманывают классификатор, считая его реальным.

Когда я узнал о GAN и вдохновился некоторыми их реализациями, такими как DALL-E от OpenAI, я решил попробовать построить GAN, который мог бы рисовать таких роботов, как мой сын.

Хорошо, поэтому я не хочу обманывать это последнее решение, говоря, как я успешно построил GAN, чтобы рисовать, как мой сын, всего за несколько минут. Скорее наоборот, и я все еще работаю над этим до этого поста.

Да, GAN сложно обучить. Они очень долго тренируются, очень чувствительны к параметрам настройки и очень долго тренируются… подождите, я уже сказал это?… Тогда для акцента.

Рискуя разочаровать вас, работа над этим останется незавершенной. Но потенциал будет огромным ... поверьте мне в этом 😉

Насколько я понимаю, мой GAN скоро сможет создавать новые изображения, которые мы сможем разместить на футболках, чтобы значительно улучшить качество нашей продукции. Более того, результаты также могут быть использованы для дальнейшего вдохновения моего сына и служить опорой для творчества, когда он чувствует себя менее чем воодушевленным.

Авторы контента даже начинают играть с этими генеративными приложениями, поскольку последняя модель OpenAI GPT-3 может генерировать новый контент с помощью нескольких простых подсказок.

Да, спорно, но при ответственном использовании эти инструменты могут стать полезным дополнением к любому набору инструментов для творчества.

А пока я предлагаю вам последний результат моей генеративной модели. После нескольких дней обучения моя модель может провести черту. Обещаю, это строчка 😊

Заключительное слово

Надеюсь, ваши собственные соки практичности теперь текут должным образом. Наука о данных может быть полезна, и есть ряд инструментов, которые я не рассмотрел, которые можно использовать для решения множества других практических задач.

Я надеюсь, что вы их найдете, поэкспериментируете с ними и, возможно, даже почувствуете ценность. Как минимум, вы узнаете что-то по ходу дела.

Хотите узнать больше о науке о данных, карьерном росте или неверных бизнес-решениях? "Присоединяйся ко мне".