У меня есть следующие данные:
<!-- subjects.xml -->
<Subjects>
<Subject>
<Id>1</Id>
<Name>Maths</Name>
</Subject>
<Subject>
<Id>2</Id>
<Name>Science</Name>
</Subject>
<Subject>
<Id>2</Id>
<Name>Advanced Science</Name>
</Subject>
<Subject>
<Id>3</Id>
<Name>History</Name>
</Subject>
</Subjects>
к которому следует присоединиться:
<!-- courses.xml-->
<Courses>
<Course>
<SubjectId>1</SubjectId>
<Name>Algebra I</Name>
</Course>
<Course>
<SubjectId>1</SubjectId>
<Name>Algebra II</Name>
</Course>
<Course>
<SubjectId>1</SubjectId>
<Name>Percentages</Name>
</Course>
<Course>
<SubjectId>2</SubjectId>
<Name>Physics</Name>
</Course>
<Course>
<SubjectId>2</SubjectId>
<Name>Biology</Name>
</Course>
</Courses>
Я хочу выполнить левое соединение первой таблицы со второй таблицей, чтобы получить следующий результат:
<Results>
<Result>
<Table1>
<Subject>
<Id>1</Id>
<Name>Maths</Name>
</Subject>
</Table1>
<Table2>
<Course>
<SubjectId>1</SubjectId>
<Name>Algebra I</Name>
</Course>
<Course>
<SubjectId>1</SubjectId>
<Name>Algebra II</Name>
</Course>
<Course>
<SubjectId>1</SubjectId>
<Name>Percentages</Name>
</Course>
</Table2>
</Result>
<Result>
<Table1>
<!-- Notice there are 2 subjects here, as they both have the same ID-->
<Subject>
<Id>2</Id>
<Name>Science</Name>
</Subject>
<Subject>
<Id>2</Id>
<Name>Advanced Science</Name>
</Subject>
</Table1>
<Table2>
<Course>
<SubjectId>2</SubjectId>
<Name>Physics</Name>
</Course>
<Course>
<SubjectId>2</SubjectId>
<Name>Biology</Name>
</Course>
</Table2>
</Result>
<Result>
<Table1>
<Subject>
<Id>3</Id>
<Name>History</Name>
</Subject>
</Table1>
<Table2>
<!-- Notice this section is empty -->
</Table2>
</Result>
</Results>
У меня есть следующий код для этого:
<Results>
{
(: For each element in courses, where it's 'SubjectId' exists in "subjects.xml":)
for $e2 in doc("courses.xml")/Courses/Course
let $foriegnId := $e2/SubjectId
group by $foriegnId
let $e1 := doc("subjects.xml")/Subjects/Subject[Id = $foriegnId]
where $e1
return
<Result>
<Table1>
{$e1}
</Table1>
<Table2>
{$e2}
</Table2>
</Result>
}
{
(: PART2 :)
(:Show the remaining elements in courses that have not yet been outputted:)
for $e1 in doc('subjects.xml')/Subjects/Subject
let $idVal := $e1/Id
group by $idVal
where not(doc('courses.xml')/Courses/Course/SubjectId = $idVal)
return
<Result>
<Table1>
{$e1}
</Table1>
<Table2/>
</Result>
}
</Results>
Обратите внимание, что код работает нормально и выполняет свою работу. Однако я обнаружил, что при выполнении кода для больших входных данных (750 предметов, каждый со 120 курсами, а также 100 предметов без каких-либо курсов и 100 курсов без каких-либо предметов) скрипт работает очень медленно!
Что я могу сделать, чтобы мой скрипт работал быстрее? Есть ли лучший способ сделать это? Какова временная сложность?
Обновление 2
Оказывается, я сильно неправильно определил проблему. На самом деле проблема была очень мало связана с частью 2 кода, а скорее с частью 1 кода.
Я сделал следующее:
for $e2 in doc("courses.xml")/Courses/Course
let $foriegnId := $e2/SubjectId
let $e1 := doc("subjects.xml")/Subjects/Subject[Id = $foriegnId]
group by $foriegnId
когда то, что я должен был сделать, было:
for $e2 in doc("courses.xml")/Courses/Course
let $foriegnId := $e2/SubjectId
group by $foriegnId
let $e1 := doc("subjects.xml")/Subjects/Subject[Id = $foriegnId]
Это сократило время кода с 30 000 мс до примерно 4 000 мс.
Дальнейшие улучшения производительности приветствуются.