Публикации по тегам big-data

Публикации по теме 'big-data'

Начало работы с манипулированием данными с помощью Pandas

Pandas — это мощная библиотека для обработки и анализа данных в Python, а также важный инструмент для специалистов по данным. В этой статье мы представим Pandas, в том числе их ключевые функции и способы их использования для анализа и обработки данных. Он будет охватывать основы Pandas, включая его структуры данных, такие как Series и DataFrame, а также функции и методы, используемые для управления и…

Скандал! Что происходит с просочившимся адресом электронной почты?

Утечка информации об Эшли Мэдисон в июле 2015 года снова пришла мне в голову на прошлой неделе, когда в новостях появилась крупная утечка от подрядчика RNC (см. Статья об этом на прошлой неделе ). Спустя два года Эшли Мэдисон все еще работает. Давайте посмотрим, сколько людей, адреса которых просочились в июле 2015 года, все еще используют тот же адрес электронной почты, или, по крайней мере, подсчитаем те адреса, которые не были удалены. У меня все еще есть файлы на моем жестком..

Обработка больших объемов данных с помощью локализованных эскизов

До того, как все переключилось в онлайн, мы в LightOn регулярно устраивали встречи по всем вопросам, связанным со случайными матрицами . Несмотря на то, что мы не могли предложить кофе, круассаны и пиццу, мы решили провести онлайн-встречу. Наш гость, Ракшит Сриниваса , кандидат наук из Технологического института Джорджии, представил отличную презентацию о своей работе над локализованным эскизом , которую он делает с Джастином Ромбергом и Марк Дэвенпорт . Создание эскиза -..

Взлет инженера по машинному обучению

… И путешествие так далеко; эволюция данных и аналитики В начале - Data Scientist В начале 2010-х годов шумиха вокруг больших данных действительно выросла. По мере того, как ожидания в отношении расширенной аналитики и анализа неструктурированных данных росли, роль «Data Scientist» появлялась на подъеме хайп-цикла Gartner (см. Рисунок ниже). В то же время проблемы с внедрением различных важных новых платформ данных, упомянутых на графике Gartner, начали становиться..

Предварительная обработка данных для нетехнических специалистов: исследование функций и разработка

Предварительная обработка данных для нетехнических специалистов: исследование функций и разработка Часть вторая - Контрольный список наиболее распространенных практик Теперь, когда мы рассмотрели основные термины и определения для типов и структуры данных в моем предыдущем посте , давайте погрузимся в творческую и наиболее трудоемкую сторону науки о данных - очистку и разработку функций. Какие основные стратегии используют специалисты по обработке данных для очистки своих..

5 бесплатных курсов по изучению Apache Spark в 2021 году

Привет, ребята, если вы думаете изучить Apache Spark в 2021 году, чтобы начать путешествие по большим данным, и ищете отличные бесплатные ресурсы, такие как книги, учебные пособия и курсы, то вы попали в нужное место. В этой статье я собираюсь поделиться некоторыми из лучших бесплатных онлайн-курсов Apache Spark для разработчиков Java , Scala и Python . Если вы не знаете, что такое Apache Spark? и почему это так важно в мире больших данных , тогда позвольте мне сначала дать вам..

Фактор, который может сделать ваше приложение AI/ML отличным

Этот фактор — возможность учиться на (почти) неограниченных данных. Метки майнинга в «немаркированных» данных ИИ (заставляющий машину вести себя разумно) или, в частности, машинное обучение работают лучше, когда доступно больше обучающих данных. Кроме того, он также работает лучше, когда данные более точны. Обычно модель изучается на основе примеров, помеченных людьми (обучающий набор данных), что часто обходится дорого. Однако в некоторых случаях модель ML может добывать..