У меня есть набор данных .csv со многими пропущенными значениями, и я хотел бы, чтобы R распознавал их все одинаково («правильно»), когда я читаю таблицу. Я использовал:
import = read.csv("/Users/dataset.csv",
header =T, na.strings=c(""))
Этот скрипт заполняет все пустые ячейки чем-то, но это непоследовательно. Когда я смотрю на данные с head(import)
, некоторые отсутствующие ячейки заполняются <NA>
, а некоторые отсутствующие ячейки заполняются NA
. Я боюсь, что R по-разному обрабатывает эти два способа определения пропущенных значений, когда начинает анализировать набор данных, поэтому я хотел бы, чтобы импорт читался равномерно в этих пропущенных значениях.
Наконец, некоторые из отсутствующих значений в моем CSV-файле представлены только точкой. Я также хотел бы, чтобы эти периоды были представлены правильным обозначением отсутствующих значений при импорте в R.
<NA>
vsNA
просто означает, что некоторые из ваших столбцов являются символьными, а некоторые — числовыми, вот и все. Абсолютно ничего плохого в этом нет. Будет сложно диагностировать другую проблему без доступа к вашему csv (или какой-то его репрезентативной части). - person joran   schedule 11.12.2012na.strings=c("",".","NA")
или что-то в этом роде (хотя я согласен с @Joran, что небольшой воспроизводимый пример [ tinyurl. com/reproducible-000 ] было бы неплохо - person Ben Bolker   schedule 11.12.2012