Так. Вы специалист по данным.

Вопрос в том, как вы собираетесь объяснять свою работу другим людям?

Вступительные абзацы - это «Капитан Америка: первый мститель» вселенной «Эссе».

Честно говоря, наука о данных больше похожа на Тора: столь же мощна, сколь и привлекательна, но полностью полагается на веру в богов, чтобы заставить любую из ваших программ работать.

Крис Хемсворт любит в стороне, наука о данных - это огромная область, охватывающая бесчисленное множество дисциплин и профессий. Вы могли жить под камнем и до сих пор слышали о нем. Glassdoor даже оценил data science как лучшую работу в Америке в течение трех лет подряд, не говоря уже о том, как это повлияло на другие области работы.

Но что такое наука о данных? Что вообще означают такие жаргоны, как «большие данные» и «аналитика данных»? Как вообще начать узнавать об этом?

Я понятия не имею. Но Google умеет, так что давайте продолжим.

Что такое наука о данных?

Трудно дать точное определение, но лучше всего сказать, что это смесь различных алгоритмов, инструментов и принципов машинного обучения, которые позволяют людям обнаруживать закономерности и связи в необработанных данных. Он уделяет большое внимание статистике / вероятностям, а также информатике / программированию, но также включает некоторые мягкие навыки, такие как способность выражать свои выводы устно или письменно.

Поскольку нет конкретных ограничений в отношении того, чем может быть наука о данных, ее влияние можно ощутить на многих карьерных направлениях. ИТ-специалисты, статистики, продавцы, аналитики и бухгалтеры - разные профессии, но все они по-своему являются неотъемлемой частью бизнеса и организаций. Хотя специалист по обработке данных - это работа, к которой многие стремятся, нет необходимости ограничиваться только этим. Подобно тому, как нация Ваканда разнообразна по культуре племен, населяющих ее, так же обстоит дело и с миром науки о данных и смежных профессий. Это сравнение было натянутым, но оно работает, и я не буду извиняться за попытку.

Специалисты по обработке данных, в частности, создают и используют различные инструменты для организации больших объемов цифровых данных и синтезирования на их основе различных выводов и аргументов. Затем они сообщают свои выводы другим и делятся своими знаниями и руководящими принципами, чтобы помочь добиться ощутимых результатов для своей организации или бизнеса.

Наука о данных охватывает весь этот путь, от исследования и подготовки данных до передачи результатов. Из-за этого эта область более разнообразна и сложна, чем, скажем, в среднем фильме Marvel.

Что означают некоторые термины в области науки о данных?

Эта статья о фильмах Marvel (и, возможно, о науке о данных, я думаю), поэтому, хотя фильмы DC могут быть связаны, мы не заботимся о них и ничего не хотим от них. Точно так же наука о данных во многом перекликается с математическими областями, такими как статистика, но для краткости я игнорирую термины из этих областей.

Терминов в области науки о данных почти столько же, сколько в фильмах Marvel, поэтому вот список наиболее важных из них:

A / B-тестирование

Чаще всего при разработке продукта используется A / B-тестирование, когда два (или более) варианта одного продукта демонстрируются разным группам пользователей. Изменения могут быть чрезвычайно простыми, например, просто изменение одной кнопки или значка, но наиболее важно то, что экспериментаторы могут определить, на какой вариант их пользователи лучше всего реагируют (и работать с этой информацией).

Например, возьмем трех актеров, сыгравших Халка (Эрик Бана, Эдвард Нортон и Марк Руффало). Если вы покажете каждый из их соответствующих фильмов поклонникам кинематографической вселенной Marvel (MCU), вы сможете узнать, на какой из них они отреагировали лучше всего, и спланировать свои будущие фильмы на основе этого.

Марк Руффало ›Эдвард Нортон› Эрик Бана, потому что, честно говоря, кто может вспомнить что-нибудь из фильмов последних двух? По крайней мере, Халк говорит с Руффало.

Искусственный интеллект (AI)

Проще говоря, это область информатики, которая включает в себя создание интеллектуальных машин, которые осведомлены о своем окружении и могут выполнять задачи, которые обычно требуют определенного уровня человеческого интеллекта. Все, от алгоритма Facebook для поиска и запрета неприемлемого контента до поведения врагов в современных шутерах, является искусственным интеллектом.

Подумайте об Альтроне, но меньше зла и ничего не озвучивает Джеймс Спейдер. Так глупо.

Большие данные

Большие данные - это термин, который может быть очень широким, но вот краткое изложение. По сути, он описывает большой объем цифровых данных, с которыми бизнес или организация обрабатывает повседневно. С ним косвенно связаны различные стратегии и инструменты, которые помогают компьютерам и людям проводить его комплексный анализ.

Его можно разделить на четыре категории: скорость (как быстро поступают данные), объем (измеримый объем данных), разнообразие (различные типы данных) и достоверность (постоянство ежедневных, сезонных или загрузка данных по событию).

Marvel не привыкать к большим данным, учитывая исследования и планирование, которые вошли в их стратегию 4 фазы, а также гигантскую вселенную комиксов, из которой взяты их персонажи. Об этом есть интересная статья здесь, в которой обсуждается база данных графов всех известных персонажей Marvel (из комиксов), которую стоит прочитать, если вам интересно!

Обработка данных

Этот процесс, который иногда называют «изменением данных», представляет собой процесс форматирования или реструктуризации необработанных данных для удовлетворения определенной потребности или упрощения использования в более широком проекте. Это помогает специалистам по обработке данных использовать данные для любых целей.

Хорошей аналогией может служить Пограничное Племя в Ваканде, спорящее с носорогами (например, выпас или перемещение их для определенной цели). Конечно, я мог бы использовать более обычных животных, например коров, но носороги - это круто. Особенно боевые носороги.

Дерево решений

Визуальная модель в форме дерева для процесса принятия решений, часто используемая в машинном обучении, которая использует набор разветвленных вопросов или наблюдений за определенным набором данных для прогнозирования целевого значения.

Дерево решений слева представляет собой более сложную версию этого, но для определения окончательного результата оно по-прежнему опирается на закрытые вопросы, такие как «инопланетянин ли он» или «скрывается ли он военный преступник». Естественно, у Карателя только один исход.

Вы же не думали, что я собираюсь игнорировать шоу Marvel Netflix, не так ли? Ни единого шанса.

Деревья решений начинаются с центрального вопроса и движутся двумя разными путями в зависимости от ответа. Что касается того, почему дерево решений перевернуто, а не вверх, как нормальное дерево, никто не может сказать наверняка. Согласно одному учебнику математики, общепринятое мнение гласит, что люди, дававшие им имена, никогда не выходили на улицу, чтобы посмотреть, как выглядят настоящие деревья. Потратив время на исследование и написание этого, я склонен согласиться.

Машинное обучение (ML)

Подмножество ИИ, машинное обучение - это процесс, в котором компьютер использует адаптируемый алгоритм для выявления закономерностей в наборе данных, а затем «учится» на этих шаблонах, применяя эти знания к новым или существующим проблемам и запросам. По мере поступления большего количества данных алгоритм обновляется и модифицируется, поэтому он может быть более точным и эффективным.

Интересно, что лицо Таноса было разработано программным обеспечением ML. К лицу Джоша Бролина было прикреплено от 100 до 150 точек отслеживания, которые фиксировали записи, а затем передавали их в алгоритм машинного обучения, который определял, какая форма лица с высоким разрешением (из базы данных различных лиц и эмоций) будет работать лучше всего. Решение может быть изменено на основе ввода команды визуальных эффектов, которые затем будут учтены алгоритмом для будущего использования. Об этом подробнее здесь"!

Нейронная сеть

Этот термин относится к набору алгоритмов, смоделированных по образцу человеческого мозга, которые интерпретируют сенсорные данные и помогают их группировать и маркировать. Они функционируют как компоненты более широких алгоритмов или приложений машинного обучения.

Одним из примеров может быть идентификация лиц. Нейронная сеть будет принимать изображение чьего-либо лица с низким разрешением, обрабатывать различные его части с более высоким разрешением для более точного распознавания лиц и соединять все эти части вместе, чтобы определить, действительно ли это лицо. Так что если Щ.И.Т. им нужно было выследить кого-то, скорее всего, они использовали бы аналогичную нейронную сеть, чтобы определить, кто их подозреваемый.

Контролируемое / неконтролируемое обучение

Это обе ветви машинного обучения, но они различаются в зависимости от количества человеческого взаимодействия.

Обучение с учителем относится к специалисту по данным, который тренирует алгоритм для рисования того, что они считают правильным анализом, подобно тому, как учат ребенка правильно выполнять математику. Обычно это начинается с четко определенного набора данных, чтобы компьютер мог точно знать, что он ищет.

Неконтролируемое обучение относится к компьютеру, который не полагается на человеческий ввод и строит собственное понимание на основе данных. Он менее свободен от предвзятости, чем обучение с учителем, но намного сложнее, и в результате его обычно оставляют для более сложных задач.

Веб-скрапинг

Веб-парсинг - это процесс извлечения данных с веб-сайтов и помещения их в файл для анализа. С его помощью можно создавать списки названий продуктов или идентификаторов, контактную информацию, например номера телефонов или адреса электронной почты, и многое другое. Возможности для такого рода данных безграничны, что является одной из причин, почему веб-скрапинг является таким полезным и востребованным навыком.

Специалист по анализу данных Кристофер Редино просмотрел Википедию Marvel, чтобы создать интересные визуализации данных о нескольких ключевых персонажах Marvel, например о том, как часто они появляются или как часто встречаются друг с другом. Все персонажи, которые он обсуждает, показаны в фильмах, так что для моих целей это все еще технически имеет значение, и я могу использовать это. Об этом читайте здесь!

Как мне начать заниматься наукой о данных?

Прыгать с головой в такую глубокую тему, как наука о данных, - это возможная стратегия, но не очень рекомендуемая. Вместо этого было бы разумнее искать онлайн-ресурсы, в которых описаны некоторые базовые курсы и ресурсы, которые вы могли бы использовать, чтобы узнать больше. Мы здесь, в Data Science Library, составили такое руководство, которое я без зазрения совести вставлю сюда. Когда у вас будет больше опыта в базовых темах науки о данных, не стесняйтесь переходить к более сложным; Библиотека Data Science может также предложить эти руководства, как и то, что у нас есть по машинному обучению (находится здесь).

Да, я болван, но встречали ли вы когда-нибудь фаната Marvel, который не был бы им? Это то, о чем я думал.

Но вы должны знать не только концепции науки о данных, но и языки программирования, которые идут рука об руку с этими темами. Я кратко рассмотрю 3 таких языка, которые являются важной частью инструментария каждого продуктивного специалиста по данным:

Python

Python - это объектно-ориентированный язык программирования, который представляет собой причудливый способ сказать, что он организует данные как объекты, которыми можно манипулировать с помощью кода, а не логики или функций. Если это звучит сложно, подумайте о людях, которые смотрели «Мстители: Война бесконечности», но не посмотрели более 5 других фильмов Marvel, а затем еще раз подумайте, насколько сложно ваше понимание на самом деле.

Python - популярный язык в сообществе специалистов по науке о данных, поскольку он прост и надежен в использовании, имеет активное сообщество и широкий спектр библиотек и надстроек для удовлетворения различных потребностей.

Python - это гораздо больше, но лучший способ научиться - это найти несколько онлайн-курсов и попробовать их самостоятельно. Если вы заинтересованы в этом, в Data Science Library есть очень интересное руководство по Python, которое может вас заинтересовать (прямо здесь).

Я мог бы пошутить здесь о пиратах, но, честно говоря, их все равно больше интересует буква «C». Даже Опустошители, космические пираты из «Стражей Галактики», не возьмутся за эту шутку, но уже слишком поздно отказываться от нее.

R - это в первую очередь язык статистики, поэтому он так полезен для науки о данных (построения графиков, визуализации и анализа различных наборов данных). Но это также может быть более сложным и пугающим для тех, кто не имеет опыта программирования; переход с Python на R может быть пугающим, если вы не слишком уверены в своих навыках с первым.

Если вам нужна уверенность в себе или вы просто хотите укрепить и без того прочную основу кодирования, ознакомьтесь с этой статьей библиотеки Data Science Library о R прямо здесь!

SQL

Произносимое как «продолжение», SQL означает «язык структурированных запросов». Это просто причудливый способ сказать, что он взаимодействует с базой данных, обычно путем вставки, обновления, удаления или извлечения различных наборов данных. На самом деле это не язык программирования, поэтому его довольно легко освоить и изучить.

К сожалению, мы в Data Science Library все еще работаем над руководством по SQL. Но для тех, кто хочет учиться, но не хочет заканчивать, как Питер Паркер, пытаясь понять, как работать со встроенным искусственным интеллектом своего суперкостюма. (ласково зовут Карен), попробуйте эти руководства:

Учебное пособие по SQL в Code Academy, предназначенное для новичков, практически не имеющих опыта программирования. Настоятельно рекомендую, если вы собираетесь полностью ослепнуть.
Учебник по SQL от W3School, чрезвычайно подробное руководство из одного из крупнейших онлайн-сборников информации по программированию.
Учебник Vertabelo Academy по SQL, похожий на учебник Code Academy, но гораздо более красочный и яркий.

Заключительные абзацы - это в основном сцены после титров, но на словах

Я искренне надеюсь, что эту статью не так легко забывают, как Тор: Темный мир, потому что наука о данных - чрезвычайно интересная (и прибыльная) область. Не говоря уже о том, что данные в жизни есть повсюду. Согласно статье Forbes по этому поводу, каждую секунду в Google выполняется более 40 000 поисковых запросов, каждую минуту - 456 000 твитов, а ежедневно в Facebook активны 1,5 миллиарда человек. Кто-то должен просмотреть все эти данные, найти в них связи, сделать из них выводы и выяснить, как лучше всего использовать эту информацию. При достаточном обучении и практике это вполне может быть ты.

(Примечание:

Эта статья посвящена Зошуа, человеку, ответственному за этот блог, который решил испортить мне «Мстители: Финал» за день до того, как я пошел его посмотреть, потому что он не сочувствует тем, кто «живет в мире». мир фантазий »и думает, что мне следует« перестать быть ребенком, повзрослеть и сосредоточиться на более реальных предметах ». С тех пор он приставал ко мне, чтобы я что-то написал.

И поэтому вся эта статья должна была быть посвящена Marvel. Надеюсь, вам понравилось, Зошуа. Я знаю, что был ребенком.)

Спасибо за прочтение! Добавьте меня в LinkedIn здесь! Если вам понравилась эта статья, сделайте, как однажды сказал Джеб Буш, и пожалуйста, хлопайте в ладоши!