Мы навсегда вошли в эпоху данных. Все, что мы делаем онлайн и даже офлайн, оставляет след в данных - от файлов cookie до наших профилей в социальных сетях. Так сколько же данных на самом деле? Сколько данных мы обрабатываем ежедневно? Добро пожаловать в эру Zettabyte.

1. Эра Зеттабайт

Данные измеряются в битах и ​​байтах. Один бит содержит значение 0 или 1. Восемь битов составляют байт. Затем у нас есть килобайты (1000 байтов), мегабайты (1000² байтов), гигабайты (1000³ байтов), терабайты (1000 байтов), петабайты (1000 байтов), эксабайты (1000 байтов) и зеттабайты (1000 байтов).

Cisco оценила, что в 2016 году мы прошли один зеттабайт в общем годовом интернет-трафике, то есть всех данных, которые мы загрузили и передали во всемирную паутину, большая часть которых связана с совместным использованием файлов. Зеттабайт - это мера емкости хранения, равная 1000⁷ (1 000 000 000 000 000 000 000 байт). Один зеттабайт равен тысяче эксабайт, миллиарду терабайт или триллиону гигабайт. Другими словами - это много! Особенно, если учесть, что Интернету нет и 40 лет. По оценкам Cisco, к 2020 году годовой трафик вырастет до более чем 2 зеттабайт.

Интернет-трафик - это только одна часть общего хранилища данных, которое включает также все личные и бизнес-устройства. Оценки общей емкости хранилища данных, которая у нас есть прямо сейчас, в 2019 году, различаются, но уже находятся в диапазоне 10–50 зеттабайт. К 2025 году эта цифра вырастет до 150–200 зеттабайт.

Определенно, создание данных будет только ускоряться в ближайшие годы, поэтому вы можете задаться вопросом: есть ли ограничения для хранения данных? На самом деле нет, или, скорее, есть ограничения, но они так далеко, что мы не сможем приблизиться к ним в ближайшее время. Например, всего грамм ДНК может хранить 700 терабайт данных, а это значит, что мы могли бы хранить все наши данные, которые у нас есть прямо сейчас, на 1500 кг ДНК - плотно упакованных, это поместится в обычной комнате. Однако это очень далеко от того, что мы можем производить в настоящее время. Самый большой из производимых жестких дисков имеет объем 15 терабайт, а самый большой SSD - 100 терабайт.

Термин большие данные относится к набору данных, который слишком велик или слишком сложен для обработки обычными вычислительными устройствами. Таким образом, это относительно доступной вычислительной мощности на рынке. Если вы посмотрите на недавнюю историю данных, то в 1999 году у нас было всего 1,5 эксабайта данных, и 1 гигабайт считался большими данными. Уже в 2006 году общий объем данных оценивался в 160 эксабайт - на 1000% больше за 7 лет. В нашу эру Zettabyte 1 гигабайт больше не является большими данными, и имеет смысл говорить о больших данных, начиная с как минимум 1 терабайта. Если бы мы выразили это в более математических терминах, то было бы естественным говорить о больших данных в отношении наборов данных, которые превышают общее количество данных, созданных в мире, деленное на 1000³.

2. Петафлопс

Чтобы данные были полезными, недостаточно их хранить, вам также необходимо получить к ним доступ и обработать. Можно измерить вычислительную мощность компьютера по количеству инструкций в секунду (IPS) или операций с плавающей запятой в секунду (FLOPS). Хотя IPS шире, чем FLOP, он также менее точен и зависит от используемого языка программирования. С другой стороны, FLOPS довольно легко представить, поскольку они напрямую связаны с количеством умножений / делений, которые мы можем сделать в секунду. Например, простому портативному калькулятору для работы требуется несколько FLOPS, в то время как большинство современных процессоров работают в диапазоне 20–60 GFLOPS (гигафлопс = 1000³ FLOPS). Рекордный компьютер, построенный IBM в 2018 году, достиг 122,3 петафлопс (1000 петафлопс), что на несколько миллионов быстрее, чем у обычного ПК (200 петафлопс при максимальной производительности).

Графические процессоры лучше работают с вычислениями с плавающей запятой, достигающими нескольких сотен GFLOPS (устройства массового рынка). Все становится интереснее, когда вы присматриваетесь к специализированной архитектуре. Последней тенденцией является создание оборудования для ускорения машинного обучения, и наиболее известным примером является TPU от Google, который достигает 45 терафлопс (1000⁴ FLOPS) и может быть доступен через облако.

Если вам нужно выполнять большие вычисления и у вас нет суперкомпьютера, лучше всего взять его в аренду или выполнить вычисления в облаке. Amazon дает вам до 1 петафлопс с P3, в то время как Google предлагает пакет TPU со скоростью до 11,5 петафлопс.

3. Искусственный интеллект и большие данные

Давайте сложим все вместе: у вас есть данные, у вас есть вычислительные мощности, чтобы сопоставить их, так что пришло время использовать их, чтобы получить новые идеи. Чтобы по-настоящему извлечь выгоду из обоих, вам нужно обратиться к машинному обучению. Искусственный интеллект находится в авангарде использования данных, помогая делать прогнозы о погоде, дорожном движении или состоянии здоровья (от открытия новых лекарств до раннего выявления рака).

ИИ нуждается в обучении для выполнения специализированных задач, и оценка того, сколько обучения требуется для достижения максимальной производительности, является отличным показателем вычислительной мощности по сравнению с данными. Есть отличный отчет OpenAI за 2018 год, в котором оцениваются эти показатели и делается вывод, что с 2012 года обучение ИИ, измеряемое в петафлопсах в день (petaFD), удваивалось каждые 3,5 месяца. Один petaFD состоит из выполнения 1000⁵ операций нейронной сети в секунду в течение одного дня, или всего около 10² операций. Самое замечательное в этой метрике заключается в том, что она не только учитывает архитектуру сети (в виде количества необходимых операций), но и связывает ее с реализацией на текущих устройствах (время вычислений).

Вы можете сравнить, сколько petaFD было использовано в последних достижениях в области искусственного интеллекта, посмотрев на следующую диаграмму:

Лидером, что неудивительно, является AlphaGo Zero от DeepMind с более чем 1000 использованных petaFD или 1 exaFD. Сколько это на самом деле с точки зрения ресурсов? Если бы вы сами повторили обучение на том же оборудовании, вы могли бы легко потратить около 3 миллионов долларов, как здесь подробно оценивается. Чтобы сделать нижнюю оценку, исходя из приведенной выше диаграммы, 1000 петафродит, по крайней мере, равносильно использованию лучшего доступного Amazon P3 в течение 1000 дней. При текущей цене 31,218 долларов в час это даст 31,218 долларов x 24 (часов) x 1000 (дней) = 749 232 доллара. Это самая низкая граница, поскольку предполагается, что одна операция нейронной сети является одной операцией с плавающей запятой и что вы получаете такую ​​же производительность на P3, как и на разных графических процессорах / TPU, используемых DeepMind.

Это показывает, что ИИ требует много энергии и ресурсов для обучения. Есть примеры недавних достижений в области машинного обучения, когда не так много требовалось с точки зрения вычислительной мощности или данных, но чаще всего дополнительные вычислительные мощности весьма полезны. Вот почему создание более совершенных суперкомпьютеров и более крупных центров обработки данных имеет смысл, если мы хотим развивать искусственный интеллект и, следовательно, нашу цивилизацию в целом. Вы можете думать о суперкомпьютерах как о больших адронных коллайдерах - вы строите все большие и большие коллайдеры, чтобы получить доступ к более глубоким истинам о нашей Вселенной. То же верно и в отношении вычислительной мощности и искусственного интеллекта. Мы не понимаем нашего собственного интеллекта или того, как мы выполняем творческие задачи, но увеличение масштаба FLOPS может помочь разгадать тайну.

Примите Эру Зеттабайтов! И лучше быстро заработать, так как Yottabyte Era не за горами.