RandomizedSearchCV дает разные результаты, используя одно и то же random_state

Я использую конвейер для выбора функций и оптимизации гиперпараметров с помощью RandomizedSearchCV. Вот краткое изложение кода:

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectKBest
from sklearn.grid_search import RandomizedSearchCV
from sklearn.pipeline import make_pipeline
from scipy.stats import randint as sp_randint

rng = 44

X_train, X_test, y_train, y_test = 
   train_test_split(data[features], data['target'], random_state=rng)


clf = RandomForestClassifier(random_state=rng)
kbest = SelectKBest()
pipe = make_pipeline(kbest,clf)

upLim = X_train.shape[1]
param_dist = {'selectkbest__k':sp_randint(upLim/2,upLim+1),
  'randomforestclassifier__n_estimators': sp_randint(5,150),
  'randomforestclassifier__max_depth': [5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, None],
  'randomforestclassifier__criterion': ["gini", "entropy"],
  'randomforestclassifier__max_features': ['auto', 'sqrt', 'log2']}
clf_opt = RandomizedSearchCV(pipe, param_distributions= param_dist, 
                             scoring='roc_auc', n_jobs=1, cv=3, random_state=rng)
clf_opt.fit(X_train,y_train)
y_pred = clf_opt.predict(X_test)

Я использую константу random_state для train_test_split, RandomForestClassifer и RandomizedSearchCV. Однако результат приведенного выше кода немного отличается, если я запускаю его несколько раз. В частности, в моем коде есть несколько тестовых блоков, и эти немного разные результаты приводят к сбою тестовых блоков. Разве я не должен получить те же результаты из-за использования одного и того же random_state? Я что-то упустил в своем коде, что создает случайность в части кода?


person MhFarahani    schedule 06.01.2017    source источник


Ответы (1)


Я обычно отвечаю на свои вопросы! Я оставлю это здесь для других с подобным вопросом:

Чтобы убедиться, что я избегаю какой-либо случайности, я определил случайное начальное число. Код выглядит следующим образом:

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectKBest
from sklearn.grid_search import RandomizedSearchCV
from sklearn.pipeline import make_pipeline
from scipy.stats import randint as sp_randint

seed = np.random.seed(22)

X_train, X_test, y_train, y_test = 
   train_test_split(data[features], data['target'])


clf = RandomForestClassifier()
kbest = SelectKBest()
pipe = make_pipeline(kbest,clf)

upLim = X_train.shape[1]
param_dist = {'selectkbest__k':sp_randint(upLim/2,upLim+1),
  'randomforestclassifier__n_estimators': sp_randint(5,150),
  'randomforestclassifier__max_depth': [5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, None],
  'randomforestclassifier__criterion': ["gini", "entropy"],
  'randomforestclassifier__max_features': ['auto', 'sqrt', 'log2']}
clf_opt = RandomizedSearchCV(pipe, param_distributions= param_dist, 
                             scoring='roc_auc', n_jobs=1, cv=3)
clf_opt.fit(X_train,y_train)
y_pred = clf_opt.predict(X_test)

Я надеюсь, что это может помочь другим!

person MhFarahani    schedule 07.01.2017
comment
Хотя я не уверен, почему исходный код не работает должным образом (и мне лень над ним работать), я бы не назвал это решение идеальным. Здесь вы предполагаете, что порядок операций между этими тремя компонентами всегда одинаков, что должно быть в порядке с этим кодом, но может вызвать проблемы в более сложных задачах. По сути, это переключение с нескольких случайных потоков на один случайный поток. - person sascha; 07.01.2017
comment
@sascha: Спасибо за ваш комментарий! Мне все еще любопытно узнать основную причину. Как вы думаете, проблема возникла из-за использования scipy.stats.randint? - person MhFarahani; 07.01.2017
comment
Спасибо за этот пример того, как объединить RandomizedSearchCV и make_pipeline с добавлением «randomforestclassifier__» (в данном случае) в params dict. @MhFarahani для определенных запусков скрипта вам может понадобиться использовать np.random.seed AND random.seed на случай, если сторонняя функция смешивает их. - person DMTishler; 21.03.2018