Публикации по теме 'data-scientist'


Точка зрения специалиста по данным: Rust против Python
Rust набирает обороты в области науки о данных. Так стоит ли вам, как специалисту по данным, обращать на это внимание? Короткий ответ: как специалисту по обработке и анализу данных, не отставающему от отрасли — да. Как специалист по данным, работающий в отрасли — Пока нет. Хотя Rust — мощный язык системного программирования с многочисленными преимуществами, при сравнении его с Python в контексте машинного обучения необходимо учитывать несколько факторов. Вот доводы за и против..

Математика, стоящая за линейной регрессией с кодом (Обычные наименьшие квадраты, линейные наименьшие квадраты)
Математика, стоящая за линейной регрессией с кодом (Обычные наименьшие квадраты, линейные наименьшие квадраты) алгоритм линейной регрессии пытается найти плоскость или линию, которая наилучшим образом соответствует точкам данных, насколько это возможно. Линейная регрессия — это метод регрессии, который предсказывает реальное значение, т. е. находит линию, которая лучше всего соответствует точке данных. То же уравнение можно расширить для набора данных d-измерения:..

Машинное обучение  — «Жизнеспособная карьера»?
Машинное обучение — введение для начинающих Вы, должно быть, довольно часто сталкивались с этим термином в наши дни. Оказывается, это потому, что машинное обучение сейчас на пике популярности. Каждая ИТ-компания занимается машинным обучением, и они уже много инвестируют в это. Машинное обучение помогает отраслям и производителям проверять свою производительность и находить способы эффективного улучшения своих компаний. Все это возможно благодаря машинному обучению. Что такое..

Выявление и удаление выбросов
Выбросы — это значения, которые значительно выделяются из остального набора данных. Для достижения точности в нашей модели машинного обучения крайне важно идентифицировать такие значения и работать с ними. Выбросы нарушают обобщение данных, что влияет на прогноз модели, особенно когда мы имеем дело с небольшими наборами данных. Выявить выбросы сложно, поскольку это противоречит изменчивости набора данных, а наличие слишком большого количества выбросов просто означает, что набор данных..

5 бесплатных ресурсов для изучения обработки естественного языка
Изучайте НЛП с помощью репозиториев GitHub бесплатно. В последние годы обработка естественного языка (NLP) быстро развивалась благодаря коммерческому внедрению решений искусственного интеллекта (ИИ). НЛП — это область искусственного интеллекта, связанная с взаимодействием между компьютерами и человеческими (естественными) языками, в частности, с тем, как программировать компьютеры для обработки и анализа больших объемов данных на естественном языке. NLP используется во многих..

Как выбирать и фильтровать данные в Python Pandas
Библиотека Python pandas предоставляет несколько методов для выбора и фильтрации данных, таких как loc, iloc, оператор квадратных скобок [ ], запрос, isin, между. Эта статья познакомит вас с основными методами и функциями выбора и фильтрации данных с помощью pandas. Если вам нужно извлечь определенные строки или столбцы или применить условную фильтрацию, pandas поможет вам. Давайте погрузимся! Оглавление 1. Выбор столбцов : оператор [ ], loc, iloc 2. Фильтрация строк :..

Наука о данных: что такое наука внутри данных?
Что такое наука о данных? Наука о данных — это междисциплинарная область, которая сочетает в себе методы статистики, информатики и предметных знаний для извлечения идей и знаний из данных. Это быстро развивающаяся область, которая меняет способ принятия решений и работы организаций. С ростом объемов данных в последние годы резко возрос спрос на специалистов по данным, что делает их одним из самых востребованных навыков в области компьютерных наук. Как наука о данных меняет сферу..