Объем последовательности: развивающийся рынок маркировки данных

Sequence Scope - это сводка наиболее важных опубликованных исследовательских работ, опубликованных новостей о технологиях и стартапах в экосистеме ИИ за последнюю неделю. Этот сборник является частью информационного бюллетеня TheSequence. Попробуйте, подписавшись ниже:

TheSequence
(Основные концепции машинного обучения + новаторские исследовательские статьи и основы + новости и тенденции в области ИИ) x 5 минут, 3 раза в неделю =… thesequence.substack. com

📝 От редакции: Развивающийся рынок маркировки данных

Управление метаданными исторически было одним из самых утомительных рынков корпоративного программного обеспечения. Так было до тех пор, пока не появилось машинное обучение. Модели контролируемого обучения нуждаются в маркированных наборах данных для обучения, а создавать и поддерживать их дорого. Внезапно унылое пространство управления метаданными нашло новую цель, и в результате появилось новое поколение стартапов, пытающихся решить проблемы маркировки данных для моделей машинного обучения. Деньги венчурного капитала текут в пространство маркировки данных, что делает его одной из немногих областей рынка машинного обучения, в которой у стартапов есть шанс конкурировать с такими технологическими гигантами, как Google, Amazon или Microsoft.

Маркировка данных в машинном обучении - одна из тех вещей, которую легко упростить, пока вам не понадобится масштабировать ее. Тогда проблемы повсюду. Маркировка наборов текстовых данных отличается от маркировки изображений и отличается от маркировки видео или аудио. Кроме того, у процессов проверки наборов данных с миллионами записей и прикрепления соответствующих меток есть много проблем с масштабированием. Наконец, маркировка данных редко бывает изолированным процессом и требует сотрудничества между несколькими командами. Эти задачи требуют решения нового типа, и мы видим, что такие захватывающие платформы, как Labelbox, Snorkel.ai и Scale AI, стимулируют инновации в космосе. Одно можно сказать наверняка: маркировка данных становится автономным и высококонкурентным рынком в сфере машинного обучения.

🗓 На следующей неделе в TheSequence Edge

11 августа, Edge №11: концепция метаобучения; известная статья Google об алгоритме метаобучения, который не зависит от модели; глубоко погрузитесь в Comet.ml, который многие называют GitHub машинного обучения.

13 августа, край №12: концепция модельного обслуживания; документ, в котором Google Research описывает архитектуру конвейера обслуживания для моделей TensorFlow; рассмотрите MLflow, одну из наиболее полных на рынке систем управления жизненным циклом машинного обучения.

Чтобы оставаться в курсе и получать TheSequence Edge каждый вторник и четверг, рассмотрите возможность присоединиться к нашему сообществу. До 15 августа вы можете подписаться с постоянной скидкой 20%. Воскресный выпуск TheSequence Scope всегда бесплатный.

А теперь давайте рассмотрим самые важные события в индустрии искусственного интеллекта на этой неделе.

🔎 Исследования машинного обучения

Развитие обучения с подкреплением в играх

Microsoft Research опубликовала три разных документа, в которых подробно описываются достижения в области обучения с подкреплением для игровых сценариев -› подробнее в блоге Microsoft Research

Лучший тест для помощников по искусственному интеллекту

Исследователи из ElementAI и Стэнфордского университета опубликовали документ, демонстрирующий, что рынку нужны более эффективные критерии и методология для языковых пользовательских интерфейсов -› подробнее в исследовательском документе

Обман системы распознавания лиц

Исследователи из McAfee опубликовали статью, в которой предлагали вариант генеративных состязательных нейронных сетей (GAN), известный как CycleGAN, который может обмануть современный алгоритм распознавания лиц и увидеть кого-то, кого нет -› подробнее в блоге McAfee Research

🤖 Крутые релизы AI Tech

DeText

LinkedIn с открытым исходным кодом DeText, гибкая структура для различных задач понимания естественного языка -› подробнее в этом посте от группы инженеров LinkedIn

Транскодер

Facebook AI Research с открытым исходным кодом TransCoder, фреймворк, который использует самостоятельное обучение для перевода кода между разными языками программирования -› подробнее в блоге Facebook AI

MediaPipe Iris

Открытый исходный код Google Media Pipe Iris, новая модель машинного обучения для оценки радужной оболочки глаза, которая необходима во многих приложениях для анализа зрения -› подробнее в блоге Google AI

💬 Полезный твит

Кирк Борн

💸 Деньги в AI

Экспертная система (основана в 1989 г.), ветеран технологий понимания естественного языка (NLU), привлекла финансирование на сумму 29,4 миллиона долларов. Их флагманское программное обеспечение - Cogito Discover - использует движок NLU для определения содержимого документов в различных форматах и делает их доступными для анализа и автоматизации.
Стартап медицинских технологий Инфермедика привлек 10,25 миллиона долларов в рамках серии А. Они предлагают пациентам сортировку симптомов и советы на основе опыта врачей, дополненного их собственными алгоритмами машинного обучения. Они также интегрируются с чат-ботами, порталами для пациентов и EHR.
Платформа для анализа больших данных StreetLight Data привлекла 15 миллионов долларов в раунде серии D. Он использует смартфоны в качестве датчиков для измерения активности на всех улицах, применяя свои алгоритмы машинного обучения, чтобы выяснить, как люди перемещаются по городам; пешеходное и велосипедное движение, наибольшая загруженность транспорта и т. д.
Другой стартап в области анализа больших данных, Isima, привлек 10 миллионов долларов на запуск платформы конвергенции данных под названием BiOS. Компания утверждает, что ее решение может уменьшить или даже устранить разрозненные базы данных при одновременном повышении общей скорости и надежности. Его конкурент Quantexa недавно привлек 64,7 миллиона долларов.
Шумоподавляющий технологический стартап Krisp привлек 5 миллионов долларов в рамках серии A. Его система машинного обучения обучена понимать, что является человеческим голосом при потоковой передаче звука, а что нет, и удалять все остальное, делая звук более четким.
Стартап по диагностике крови Sight Diagnostics привлек 71 миллион долларов. Он оцифровывает кровь в более 1000 цветных микроскопических изображений с высоким разрешением, используя собственную технологию, основанную на машинном зрении, обученную на полпетабайте анонимных данных четырехлетних клинических исследований для анализа таких сканирований крови.
Платформа для муниципалитетов, управляемая данными, Zencity только что собрала 13,5 миллиона долларов. Его алгоритмы анализируют совокупную обратную связь от местных сообществ, чтобы определить ключевые темы и тенденции, чтобы понять, что влияет на сообщество.
Технологический стартап по глубокому обучению Syntiant собрал 35 миллионов долларов. Он предоставляет оборудование, которое объединяет машинное обучение с полупроводниковым дизайном для постоянно включенных голосовых приложений. Для лучшего понимания Syntiant создает процессоры, которые отвечают за предложение слова пробуждения, командного слова, обнаружения событий в вашем Alexa и т. Д.

Если вы считаете наш информационный бюллетень полезным, рассмотрите возможность поддержки наших усилий. Подпишитесь или сделайте подарок тем, кто может извлечь из этого выгоду. Это последняя неделя, когда вы можете получить его с постоянной скидкой 20%.