Есть несколько важных веб-сайтов, которые направляют вас к открытым наборам данных. Ниже я суммирую те, которые я использовал до сих пор. Я буду обновлять этот список по мере нахождения новых полезных ссылок.

Пожалуйста, дайте мне знать, если у вас есть больше открытых ресурсов набора данных.

Последнее обновление 2 декабря 2021 г.

  1. Вы можете поискать нужный набор данных, конечно, в Google Dataset Search Engine:

2. Еще один ресурс, который необходимо посетить, - это Kaggle. Здесь вы найдете не только наборы данных, но и общие решения задач. Если вы новичок, я настоятельно рекомендую начать с Kaggle.

3. Еще один доступный для поиска ресурс с наборами данных находится на веб-сайте Документы с кодом. В настоящее время существует более 3000 наборов данных.

4. Реестр открытых данных на AWS существует, чтобы помочь людям находить наборы данных, доступные через ресурсы AWS, и делиться ими.

5. Для наборов данных с несколькими метками и многоцелевых регрессий , вы можете попробовать Сайт проекта Мулан.

6. OpenML предоставляет вам множество наборов данных.

7. Для наборов данных Нейронный машинный перевод вы можете посетить нейронный машинный перевод (NMT) в Стэнфордской группе НЛП.

8. Если вам нужны наборы данных Классификация текста, здесь перечислены 10 из них:

9. Если вы ищете наборы данных на турецком языке или для Турции, вы можете проверить веб-страницу DataTurk.

10. Вот еще один блог для поиска наборов данных.

11. Вот веб-страница Github для наборов данных NTM на турецком языке.

12. Если вам нужны визуальные наборы данных, сайт visualdata.io - один из лучших сайтов.

13. Если вы используете Tensorflow, вы можете загрузить множество наборов данных из TensorFlow Datasets: коллекция готовых наборов данных.

14. Визуальный геном - это набор данных, база знаний, постоянная попытка связать концепции структурированного изображения с текстом. Набор данных Visual Genome одним из первых предоставляет подробные обозначения взаимодействий и атрибутов объектов, связывая визуальные концепции с языком.

15. Если вас интересуют наборы данных биомедицинских изображений, вы можете использовать службу Open-i Национальной медицинской библиотеки, которая обеспечивает поиск и извлечение рефератов и изображений (включая диаграммы, графики, клинические изображения и т. д.) из литературы с открытым исходным кодом и коллекций биомедицинских изображений.

16. Academics Torrents был основан для удовлетворения потребностей науки в эпоху больших данных. Это масштабируемая платформа, использующая BitTorrent, которая распределяет стоимость хостинга данных, чтобы предотвратить рост и падение провайдеров хостинга наборов данных и стирание данных, которые они размещают. Исследователи могут зеркалировать данные, с которыми они работают, и обмениваться большими наборами данных без больших затрат, обычно связанных с коммерческими поставщиками.

17. продолжение следует…

Если вы хотите узнать о глубоком обучении с помощью практических примеров программирования, подпишитесь на на мой канал на YouTube или подпишитесь на мой блог на Medium.

Если вы хотите добавить какие-либо новые ресурсы, оставьте комментарий ниже.

Спасибо за чтение.

Вы можете подписаться на меня в этих социальных сетях:

"YouTube"

Facebook

Инстаграм

LinkedIn

Github

Kaggle

"Середина"