Как каждый раз брать одну и ту же случайную выборку из набора данных

У меня есть набор данных, который состоит из почти 7 миллионов наблюдений, и я хочу взять случайную выборку данных для анализа только подмножества. Я знаю, как взять случайную выборку данных:

index <- sample(7009728, 50000)
flights <- flight[index, ]

Есть ли способ взять случайную выборку, но однажды созданную в моем наборе данных, чтобы всегда давать мне одну и ту же случайную выборку? Я надеюсь сделать это, не полагаясь на сохранение моего проекта R.


person Connor    schedule 07.06.2015    source источник


Ответы (1)


Просто используйте set.seed непосредственно перед созданием индекса:

> set.seed(1)
> index <- sample(7009728, 50000)
> head(index)
[1] 1861144 2608487 4015546 6366287 1413735 6297463

Он устанавливает начальное число генератора случайных чисел и обеспечивает согласованные результаты.

person zero323    schedule 07.06.2015