Искусственный интеллект для разработки программного обеспечения (AI4SE) исследует, как ИИ может улучшить жизненный цикл системной инженерии, охватывая несколько артефактов, охватывающих все этапы непрерывной разработки и интеграции. Поскольку на этих этапах задействованы большие разнородные источники данных, их взаимосвязь четко определяется с помощью графиков. Последние достижения в области машинного обучения (ML) помогают строить и анализировать эти графики. Они преимущественно используются в таких областях, как здравоохранение, молекулярные науки и рекомендательные системы, в то время как в системной инженерии с интенсивным использованием программного обеспечения (отслеживаемость) они широко не используются.

Благодаря всестороннему исследованию онтологий предметной области и деятельности по разработке систем с использованием ИИ он обладает способностью учиться на структуре крупномасштабных графов и может использовать изученные атрибуты для реконструкции, классификации узлов и т. д. Одной из рассматриваемых здесь областей исследований является завершение графа. проблема, чтобы предложить отсутствующую связь между двумя артефактами или предполагаемую связь.

В этой диссертации предлагается онтология общей модели системы (TSM) для представления различных исходных и целевых артефактов, трех концептуализированных и реализованных рабочих процессов: предварительная обработка, анализ, оценка и пользовательский интерфейс (UI). Онтология TSM в виде подграфа тестируется на двух наборах данных с открытым исходным кодом AUTOSAR-YT и AQUALUSH.

Методы на основе подобия и на основе ML экспериментируют с проблемой завершения графа. Изучение признаков и извлечение признаков реализуются в рамках доступных наборов данных. Методы на основе подобия полезны для графиков с низким уровнем детализации. В подходе, основанном на внедрении, встраивание с сохранением близости более высокого порядка (HOPE) дает наилучшие результаты для обоих наборов данных.

Среди трех экспериментальных методов было доказано, что методы случайного блуждания на основе признаков эффективны. Подход AutoML к наборам данных с извлеченными функциями показывает варианты повышения градиента, составного ансамбля и глубокого обучения как лучших моделей машинного обучения для использования в производстве. Наконец, модель Random Forest (RF) на основе HOPE развернута в MLFlow для мониторинга и развертывания.