Когда вы говорите «тестовые примеры», я предполагаю, что вы говорите об экземплярах данных.
Рассмотрим несколько сценариев:
антисотропия
Предположим, у вас есть набор обучающих данных с 1000 экземпляров, и все они значительно похожи друг на друга, но экземпляры в вашем наборе квалификационных данных значительно отличаются от ваших обучающих данных. . Например, у вас есть проблема, когда вы пытаетесь оценить функцию y = mx + b
.
Предположим, что некоторые из ваших данных предоставляют вам выборки, которые помогут вам оценить m
, а другие помогут вам оценить b
. Если вы предоставите своей нейронной сети 1000 образцов, которые помогут вам оценить b
, но только 5 образцов, которые помогут вам оценить m
, тогда ваша нейронная сеть будет работать очень плохо, когда дело доходит до оценки m
. Вы будете переобучать свою нейронную сеть, и добавление большего количества образцов, которые помогут вам оценить b
, не помогут.
изотропия
Теперь предположим, что у вас есть пропорциональное распределение (обратите внимание, что я не сказал равное) экземпляров данных в вашем наборе данных... и вы хотите, чтобы они были пропорциональны, потому что для оценки m
может потребоваться больше экземпляров данных, чем для оценки b
. Теперь ваши данные относительно однородны, и добавление дополнительных выборок предоставит вам больше возможностей, которые помогут вам лучше оценить функцию. С y = mx + b
вы можете технически иметь бесконечное количество экземпляров данных (поскольку линия бесконечна в обоих направлениях), и это, вероятно, поможет, но есть точка убывающей отдачи.
Убывающая отдача
В примере y = mx + b
у вас может быть бесконечное количество экземпляров данных, но если вы можете оценить функцию с 1000 экземплярами, то добавление еще 100 000 экземпляров данных к вашему набору данных может оказаться бесполезным. В какой-то момент добавление большего количества экземпляров не приведет к лучшей пригодности, что приведет к уменьшению отдачи.
Теперь предположим, что вы пытаетесь оценить логическую функцию, такую как XOR:
A B A XOR B
1 1 0
1 0 1
0 1 1
0 0 0
В этом случае вы просто не можете добавить больше данных, и не имеет смысла добавлять больше данных... есть только четыре действительных экземпляра данных, и это ВСЕ, что у вас есть. В этом примере вообще нет смысла добавлять больше экземпляров данных.
Вывод
В общем, добавление дополнительных экземпляров данных будет напрямую зависеть от вашей проблемы: некоторые проблемы могут выиграть от большего количества экземпляров данных, а другие проблемы могут пострадать. Вы должны проанализировать свой набор данных, и вам, возможно, придется сделать что-то с вашим набором данных, чтобы сделать ваши выборки более репрезентативными для реальных данных. Вы должны изучить проблему, которую пытаетесь решить, понять ее область, понять образцы данных, которые у нее есть, и вы должны соответствующим образом спланировать... в машинном обучении/искусственном интеллекте нет универсального решения.
person
Kiril
schedule
03.05.2010