Столбец файла csv в таблицах google automl распознается как текстовый или категориальный, а не числовой, как я бы хотел

Я пытался обучить модель с помощью таблиц google automl, но у меня возникла следующая проблема

Файл csv импортирован правильно, в нем 2 столбца и около 1870 строк, все числовые. Система распознает только 1 столбец как числовой, но не другой. Столбец, в котором возникла проблема, состоит из 5 цифр в каждой строке, разделенных пробелом.

Что мне нужно сделать, чтобы система правильно распознала данные как числовые?

Заранее спасибо за помощь


person Break the Rules    schedule 17.05.2020    source источник


Ответы (1)


Проблема заключается в определении типа данных Numeric, число должен быть сопоставимым (больше, меньше, равно).

Два разных списка чисел не сопоставимы, например 2 4 7 не сопоставимы с 1 5 7. Чтобы решить эту проблему без использования строк и, следовательно, потери «информации» об этих числах, у вас есть несколько вариантов.

Например:

  • Создайте массив чисел, вставив [] в пределах второго входа. Примите во внимание Array подход с относительным взвешиванием типа данных в AutoMl. таблицы, поскольку это может повлиять на "информацию", извлеченную из последовательности.
  • Создайте дополнительные столбцы для каждой записи второго столбца, чтобы каждый из них был единственным числом и, следовательно, действительно числовым.

Я бы лично выбрал второй вариант.

Если вы боитесь потерять «информацию» при разбиении чисел, примите во внимание, что после обучения модель должна сама вывести важность положения и другую «информацию», которую могут содержать эти числовые последовательности (среднее значение, норма / модуль, относительное увеличение , ...) при условии, что данные обучения репрезентативны.

person aemon4    schedule 01.06.2020