Я работал над обучающей нейронной сетью и сейчас пытаюсь классифицировать новостные статьи. Проблема в том, что мне нужно разделить мои тексты на обучающие и тестовые наборы данных, но я не могу найти способ сделать это.
Например, на моем примере сайта тексты называются так: cv100.txt, cv203.txt, cv900.txt
и так далее. Поэтому автор использует следующий код, чтобы разделить эти тесты на 9:1.
if filename.startswith('cv9'):
и if not filename.startswith('cv9'):
Однако для другой задачи, над которой я сейчас работаю, имена файлов текстов перечислены следующим образом: 0000Data, 0001Data, ..., 0299Data
.
Что мне нужно сделать, так это иметь тексты от 0000Data
до 0200Data
в качестве набора данных поезда и от 0200Data
до 0299Data
в качестве набора тестовых данных.
Но я понял, что это не работает с методом filename.startswith('')
. В общем, имена файлов, такие как cv000
~ cv999
, можно разделить на 9:1 на filename.startswith('cv9')
, но я хочу разделить имена файлов, такие как 0000Data
~0299Data
, на 1:2. Однако я не могу придумать умного способа разделить их.
Должен быть хороший способ понять это, но я не могу его придумать, хотя много искал и думал.