Дайджест DataScience

Вышел новый выпуск DataScienceDigest!

НОВОСТИ

Что нового на этой неделе?
Новый фонд для стартапов в области искусственного интеллекта. ИИ борется с фейковыми новостями и дезинформацией. Еще один беспилотный автомобиль отправится в путь (вероятно, скорее всего). Сила синтетических данных. И Clearview - еще одна группа проблем с конфиденциальностью в ЕС.

OpenAI запускает стартап-фонд на 100 миллионов долларов - OpenAI Startup Fund - для инвестирования в компании на ранней стадии развития ИИ. Microsoft была объявлена одним из ключевых партнеров и инвесторов. Приоритетом фонда являются компании, занимающиеся такими важными проблемами, как здравоохранение, изменение климата и образование, а также те, кто занимается повышением производительности в сфере технологий, например GPT-3.

Исследователи из лаборатории Линкольна Массачусетского технологического института создали программу, которая может автоматически обнаруживать и анализировать учетные записи социальных сетей, которые распространяют дезинформацию по сети. Программа называется RIO, также известная как программа разведки операций влияния. RIO сочетает в себе несколько аналитических методов, чтобы создать полное представление о том, где и как распространяются дезинформационные нарративы.

Индустрия грузовиков привлекала ИИ как минимум десять лет. Несмотря на значительный прогресс, беспилотные грузовики по-прежнему больше связаны с фантазией, чем с реальностью. Плюс, автономная транспортная компания, планирует изменить это, используя ИИ и миллиарды миль данных для обучения самоуправляемых полуфабрикатов. Надеюсь, они наконец сдвинут иглу.

Говоря о проблемах, почему самоуправляемые полуфабрикаты еще не в массовом порядке… Данные часто являются ключевой проблемой. Это может быть доступность данных, качество или безопасность, что угодно. Ответом на все эти проблемы являются синтетические данные, искусственные данные, созданные с помощью компьютерных программ, а не реальных событий. По крайней мере, в этом уверен Дэвид Юнгер, генеральный директор Vaital.

Проблемы Clearview в ЕС не закончились. Буквально на этой неделе группы конфиденциальности из Франции, Австрии, Греции, Италии и Великобритании обвинили его в накоплении биометрических данных о более чем 3 миллиардах человек без их ведома или разрешения, соскобляя их изображения с веб-сайтов. Посмотрим, что из этого получится.

Дайджест DataScience
Получите дайджест DataScience в свой почтовый ящик datasciencedigest.substack.com

СТАТЬИ

Уроки по платформам машинного обучения - от Netflix, DoorDash, Spotify и др.
В этой статье автор опирается на опыт лидеров отрасли искусственного интеллекта, чтобы ответить на широко распространенный вопрос: как организации могут позволить специалистам по обработке данных многократно приносить пользу, выходя за рамки существующих производственных систем машинного обучения? Здесь он также изучает передовой опыт, инструменты и управленческие подходы для решения проблемы предоставления ценности.

Создание масштабируемого конвейера машинного обучения для медицинских изображений сверхвысокого разрешения с помощью Amazon SageMaker
В этой всеобъемлющей статье команды AWS вы узнаете, как предварительно обработать медицинские изображения в сверхвысоком разрешении. высокого разрешения, обучите классификатор изображений на этих предварительно обработанных изображениях и разверните предварительно обученную модель в качестве API - все это делается на платформе Amazon SageMaker - чтобы, наконец, построить высокомасштабируемый конвейер машинного обучения.

Easy MLOps с PyCaret + MLflow
PyCaret - это библиотека с открытым исходным кодом и низким кодом для машинного обучения. Построенный на Python, он прост и удобен в использовании и позволяет быстро и эффективно обрабатывать модели машинного обучения. MLflow - это платформа с открытым исходным кодом для управления жизненным циклом машинного обучения. В этой статье вы узнаете, как интегрировать MLOps в свои эксперименты с ML с помощью PyCaret и MLflow.

R против Python: дебаты о языке науки о данных
Битва титанов - R или Python, что вы выберете? Оба являются чрезвычайно популярными языками для науки о данных; оба имеют открытый исходный код и превосходно подходят для анализа данных. В этой статье вы еще раз рассмотрите дискуссию со всеми плюсами и минусами, особенностями и предостережениями. Обзор подготовлен командой ImaginaryCloud.

Шесть бизнес-тенденций на благо специалистов по данным
Специалист по анализу данных - одна из самых дорогих должностей в любой организации. Компании делают все возможное, чтобы за ними охотиться, но профессионалов, разбирающихся в данных, алгоритмах и моделях, как никогда трудно найти. В этой статье мы рассмотрим шесть бизнес-тенденций, которые продолжают перегревать рынок и стимулировать спрос на рабочие места DS.

ДОКУМЕНТЫ

Предыдущая встроенная сеть GAN для восстановления слепого лица в условиях дикой природы
В этой статье Тао Ян и др. использовать существующие генеративные состязательные сетевые методы для решения проблемы восстановления слепого лица по сильно ухудшенным изображениям лиц в естественных условиях. Предлагаемая ранее встроенная сеть GAN (GPEN) генерирует визуально фотореалистичные результаты, которые значительно превосходят методы BFR как в количественном, так и в качественном отношении.

Обрезка изображений в Твиттере: показатели справедливости, их ограничения и важность представления, дизайна и агентности
В этой статье исследователи исследуют проблемы справедливости и предвзятости при автоматической обрезке изображений в Твиттере. система. Они обнаружили систематические диспропорции в посевах, определили способствующие факторы и для решения проблемы предложили удалить кадрирование на основе заметности в пользу решения, которое лучше сохранит свободу действий пользователей.

Трансляция фотореалистичных изображений с высоким разрешением в реальном времени: сеть трансляции лапласовских пирамид
В этой статье Jie Liang et al. предложить новый метод ускорения фотореалистичных задач I2IT с высоким разрешением, называемый сетью трансляции лапласовской пирамиды (LPTN). Это позволяет переводить низкочастотные компоненты с пониженным разрешением и уточнять высокочастотные, чтобы переводить изображения 4K в реальном времени с использованием одного обычного графического процессора.

LAPAR: Линейно-собранная пиксельно-адаптивная регрессионная сеть для одиночного изображения со сверхвысоким разрешением и выше
В этой статье группа исследователей предлагает линейно-собранную пиксельно-адаптивную регрессионную сеть ( LAPAR), разработанный и созданный для решения фундаментальной проблемы повышения дискретизации изображения с низким разрешением (LR) до его версии с высоким разрешением (HR). LAPAR очень легкий, легко оптимизируется и помогает достичь превосходных результатов в тестах SISR.

Латентное гауссовское усиление моделей
Скрытые гауссовские модели и усиление широко используются в статистике и машинном обучении благодаря своей предсказательной точности. В этой статье представлен новый подход, сочетающий модели повышения и скрытого гаусса. Автор демонстрирует, что этот метод помогает повысить точность прогнозов в смоделированных и реальных экспериментах с данными.

НАБОРЫ ДАННЫХ

Великолепный список наборов данных в более чем 100 категориях
Данные - это источник жизненной силы любого проекта AI / DS. В этой статье Этьен Д. Ноумен и его команда собрали более 100 обширных наборов данных, охватывающих самые разные темы и отрасли, от геномов рака до отчетов об НЛО. В конце статьи есть ссылка на другую коллекцию из более чем 100 наборов данных - не забудьте прокрутить!

ВИДЕО

3D компьютерное зрение - Национальный университет Сингапура - 2021
Это вводный курс по 3D компьютерному зрению, который был записан для онлайн-обучения в NUS из-за COVID-19. В ходе курса вы изучите основы компьютерного зрения, от 2D и 1D проекционной геометрии до автоматической калибровки.

КОД И ИНСТРУМЕНТЫ

Выпущена версия 1.0.0!
Albumentations - это инструмент компьютерного зрения и библиотека Python, предназначенная для повышения производительности глубоких сверточных нейронных сетей, обеспечивая быстрое, гибкое, экономичное и экономичное увеличение изображений. Инструмент может использоваться для различных задач CV, включая классификацию, сегментацию и обнаружение объектов.
Новая версия содержит 10 новых преобразований, независимость от imgaug, исправления ошибок и т. Д.

Дайджест DataScience - это сборник статей, руководств, исследований, событий и последних новостей по Data Science, AI / ML / DL, CV и NLP. Это самый простой способ буквально быть в курсе событий: просто подпишитесь на нас в Telegram, Twitter, Facebook и получайте ежедневную дозу новостей. ИЛИ подпишитесь на нашу рассылку и получайте еженедельные обновления прямо на свой почтовый ящик.

Дайджест DataScience - 21.02.21