Функции и производные

Идеи из математики лежат в основе практически всех методов и концепций Data Science. Хотя строгое понимание всех этих идей, конечно, не требуется, это может быть полезно.

Для начинающего практика объем математики, составляющей основу машинного обучения, пугает, и многие предпочитают успокаивать себя, наблюдая, что современные рамки программирования означают, что возможность реализации алгоритма далека от способности понимать его математические основы. . Такой подход «сверху вниз», в котором упор делается на результаты, а не на теорию, является одновременно эффективным и востребованным. Однако есть определенные математические основы, с которыми стоит ознакомиться.

Далее я сформулирую некоторые из наиболее важных уравнений, которые новичок должен попытаться понять, приближаясь к Data Science. Затем я пытаюсь дать комментарий по каждому из них, который вызывает определенные размышления. Хотя выбор тем был мотивирован тем, какие идеи являются фундаментальными для идей в Data Science, они не являются уникальными для нее и могут быть поняты независимо от нее.

Я надеюсь показать, что, казалось бы, основные идеи заслуживают пересмотра, даже если они кажутся знакомыми или тривиальными.

В результате некоторого обучения математике в средней школе приведенное выше утверждение кажется ничем не примечательным, неинформативным или сбивающим с толку. Можно вспомнить момент замешательства в том курсе перед вычислением, когда вертикальные оси всех графиков в назначениях изменились с пометок y на f (x ) (или, возможно, наоборот) без того, чтобы преподаватель признал изменение, и студенты чувствовали себя слишком наивными, чтобы спросить: «Так ... они одно и то же?»

На мой взгляд, y = f (x) следует рассматривать с определенным уважением к тому, насколько информацию можно сжать в современных обозначениях. На одном уровне он просто говорит: «У нас есть некоторая переменная с именем x и функция этой переменной f, и выходные данные этой функции могут быть присвоены другой переменной. , который мы назовем y ». Но подумайте только о том, что такое алгебраическая переменная. Подумайте, что такое функция и как ее можно охарактеризовать, например, с помощью области и диапазона.

Могли ли выходные данные этой функции x получить другое имя, скажем, z? Безусловно. Можно ли из соображений экономии не выделять новую переменную для вывода и всегда называть ее f (x)? Конечно.

С помощью простых, почти повторяющихся математических выражений, таких как y = f (x) , объем содержащейся информации в несколько штрихов чернил становится ясным, как и интерфейс между идеями, соглашения, установленные для облегчения их коммуникации и манипуляции, и история этих соглашений. Не смейтесь над ними, если не сможете объяснить ребенку суть их содержания.

Мы видели, как y = f (x) может быть мотивацией для приостановки и рассмотрения, среди прочего, природы алгебраических переменных и того, как их значения иногда могут быть переплетены. в точном соответствии с этой идеей функций. Таким образом, знакомое общее уравнение линии дает возможность рассмотреть, как сами функции характеризуются и сгруппированы.

Другими словами, если раньше мы размышляли о x и y, то сейчас самое время более внимательно присмотреться к m и b. Какие роли они играют? Как они проявляются в разных формах и семействах функций? Что вообще подразумевается под «семейством» функций?

Глядя на линию, можно полностью охарактеризовать ее, отметив, как она наклонена (наклон), и определив одну точку, через которую она проходит (пересечение оси Y удобно, чтобы составить простое уравнение). Хотя две взаимосвязанные переменные линейно изменяются по действительным числам, две определяющие характеристики фиксируются для одной линии.

Тем не менее, есть ощущение, что эти две величины, характеризующие линии, могли принимать разные значения, и это действительно так. В результате будет больше строк. Различные линии для разных значений для двух характеристик, но все линии, без волнистых кривых. Таким образом, m и b являются в некотором смысле «параметрами», которые при назначении полностью обозначают один экземпляр строки, и в своей общности и способности принимать любые из некоторый набор чисел, определяющий «семейство» функций.

Понятно, что это похоже на то, что я слишком много шумлю из ничего, но я думаю, что идея становится мощной, если подумать о том, как построены функции. На самом деле ингредиентов всего три: числа, переменные и другие функции. Есть также всего три способа их объединения: сложить их вместе, умножить их или, учитывая две или более функций, составить их (взяв одну функцию из другой функции).

Такие объекты, как x и y, являются одним ингредиентом - переменными - и теперь мы видим, что m и b равны еще один ингредиент - цифры. Понятие «семейства» функций затем можно рассматривать как набор функций, которые могут быть созданы с учетом некоторого количества переменных в определенном порядке, что позволяет произвольно изменять числа, к которым эти переменные добавляются и на которые умножаются.

Рассмотрим функцию f (x) = x². Один из способов визуализировать это - представить f как площадь квадрата как функцию его длины стороны x. Теперь подумайте: можем ли мы определить новую функцию, которая представляет изменение f, когда x увеличивается на небольшую, но ненулевую величину dx. Это также будет функцией x; назовем его df. Точное значение dx не имеет значения, но оно фиксировано; воспринимайте это как параметр, например b в уравнении для линии.

Эта новая функция теперь будет задана как df (x) = f (x + dx) -f (x) = (x + dx) ². Раскладывая, получаем:

Если вернуться к нашему квадрату, то dx - это небольшой кусок дополнительной длины, добавленный как к ширине, так и к высоте. Это делает df общей дополнительной площадью, добавленной к квадрату. Эта область состоит из двух длинных тонких компонентов - вертикальной полосы и горизонтальной полосы шириной и высотой dx соответственно, а также небольшого квадрата в углу со стороной dx . Вы можете видеть, как они соответствуют элементам нашего уравнения.

Теперь рассмотрим другую, связанную функцию x вида df / dx. Мы назовем это коэффициентом конечных разностей. Это похоже на функцию разности, рассмотренную выше, за исключением того, что эта разница масштабируется на dx. Он обозначает наклон линии, проходящей через f (x) и f (x + dx). Для f (x) = x² он равен 2x + dx.

Магия исчисления происходит, когда мы рассматриваем последствия того, что dx бесконечно приближается к нулю. Когда это происходит, df / dx = 2x становится все более точным приближением наклона прямой, касательной к f (x) в точке x. Поскольку мы можем довести dx произвольно близко к нулю, наше приближение может стать сколь угодно точным. Так сказать точно.

Правило мощности возникает потому, что для функций с более высокими степенями x, скажем 6, f (x + dx) -f (x) = (x⁶ + 6x⁵dx +… + dx⁶) -x⁶ для конечных dx, где все промежуточные термины содержат термин dx² или какой-либо термин dx более высокого порядка. Коэффициент конечной разности тогда оставит 6x⁵ как единственный свободный член dx, что сделает его единственным выжившим, когда мы позволим dx приблизиться к нулю.

Глубоко размышлять о силовом правиле - значит уважать то, что приближения, которые могут быть бесконечно близки к полной точности, выявляют точную форму отношений, например, отношения функций к их «скорости изменения». Следует признать, что в своей широко используемой форме, хотя запись df / dx больше не представляет дробь, она намекает на один путь логического мышления, включающий дроби, и, в конечном итоге, ограничивает то, что можно использовать. чтобы восстановить его смысл.

Я уже обращался к конечным разностям и разным коэффициентам, прослеживая путь рассуждений, мотивирующий правило мощности в исчислении производных. Однако конечные разности полезны не только как промежуточный логический шаг, но и как результаты вычислений, имеющие реальную практическую ценность. На практике аналитические выражения для производных редко используются в вычислениях, а при работе с реальными данными они обязательно будут прерывистыми.

Итак, замечая, что выражения в математике могут жить этой двойной жизнью, существуя как на службе точно определенных, абстрактных идей, так и как практически полезные инструменты сами по себе, - это один из результатов размышлений о конечных различиях самих по себе и самих по себе. Другой считает, что есть разные их виды: прямые, обратные и центральные, чтобы назвать наиболее концептуально отличные друг от друга. То, что мы до сих пор рассматривали, - это прямые различия. Вот два других:

Можно ли другие? Конечно! Почему бы не пойти на четверть △ x вперед и на три четверти назад? Что интересно, в пределе бесконечно малых все эти объекты будут сходиться к производной. На мой взгляд, это усиливает мысль, которую я сделал выше о природе приближений, которые могут быть произвольно точными, но предполагает кое-что еще с точки зрения вычислительной практичности.

Не всегда бывает так, что разные формы конечных разностей будут вести себя одинаково на всех наборах пар предположительно связанных точек, то есть на всех данных. Фактически, ошибка центральной конечной разности приближается к нулю быстрее, чем левая или правая, но она может быть неприменима, скажем, к сигналу, поступающему в реальном времени (поскольку мы не знаем будущего).

Некоторая математика предназначена и может действительно делать что-то в «реальном» мире. Если называть это нечистым, этот факт не исчезнет. Для таких людей, как аналитики данных, вы могли бы подумать, что это будет подкрепляться изо дня в день, но я считаю, что напоминание себе о том, что некоторые идеи существуют как нечто большее, чем абстрактные сущности, по-прежнему полезно в небольших, преднамеренных дозах.

Я завершу эту статью без особой помпы. Я думаю, что уже написал слишком много и слишком мало, и прошу прощения за нежелательные закатывания глаз, которые я вызвал у своих читателей. Однако я думаю, что то, что у меня есть, лучше, чем если бы я писал слишком мало на слишком маленьком, и, надеюсь, лучше, чем совсем ничего. Поэтому я нажму «Опубликовать» и надеюсь на лучшее.

Я приветствую всех, кто скажет мне, где я мог сказать что-то неправильное или что-то правильное по неправильным причинам. Пожалуйста, продолжите мое обсуждение там, где оно не удалось, и предложите альтернативные точки зрения. Еще люблю комплименты. До скорого.