Большая часть API BLAS уровня 1 может быть тривиально написана напрямую, используя векторизованные присваивания Fortran 9x+ и встроенные процедуры. .
Предположим, вы используете современный оптимизирующий компилятор, такой как Intel Fortran, и правильно конкретные параметры оптимизации компилятора, есть ли какие-либо преимущества в производительности от использования вместо них процедур BLAS уровня 1, скажем, от Intel MKL или другие быстрые реализации BLAS?
Если да, то каков типичный размер вектора при появлении этих преимуществ?