Одним из основных ограничений языковых моделей является размер последовательности, которую можно проанализировать. Одной из причин таких ограничений является неспособность модели зафиксировать отношения дальнего действия в строке. Хотя современные архитектуры предназначены для захвата таких взаимосвязей, размер сети также ограничивает размер строки. Кроме того, предпочтение отдавалось сетевой архитектуре или, по крайней мере, она приобретала большую популярность, а не разработке новой структуры данных.

Один простой способ разработать новую структуру данных для больших последовательностей можно получить, увеличив размерность строки. Например, одно предложение также можно рассматривать как одномерное представление. Текст на одном листе бумаги представляет собой двухмерное представление, а книга — трехмерное представление. Увеличение количества измерений приводит к более подходящему представлению текста. Вместо того, чтобы хранить длинный фрагмент текста в виде одной текстовой строки, книга представляет собой компактный и эффективный способ переноса больших коллекций текстов.

Аналогичная обработка может быть выполнена для больших строк, особенно биологических последовательностей, которые предлагают подходящий пример по двум причинам. В настоящее время доступно большое количество биологических последовательностей и ограниченный алфавит в случае ДНК и РНК. Этот ограниченный алфавит или количество уникальных символов, необходимых для создания одной последовательности, дает возможность кодировать каждый символ с низкой размерностью.

Это приводит к возможности использовать однократное кодирование для каждого символа, а положение каждого символа кодируется тем, как переставляется строка. Таким образом, если строка преобразована в двумерный массив, то различные архитектуры для классификации изображений могут использоваться в качестве отправной точки для анализа данных. В двумерном случае расположение высоты и ширины каждого символа будет представлять порядок строки, а размер канала будет представлять конкретный токен.

Нечто подобное может произойти, если последовательность представлена ​​в виде трехмерного массива, что приводит к структуре данных, похожей на короткое видео. Высота, ширина и время будут представлять определенный порядок строки и размер канала для конкретного символа. Чтобы проанализировать эту новую структуру данных, сети предназначены для…