У меня есть набор данных в S3 в текстовом формате (.gz), и я использую spark.read.csv для чтения файла в spark.
Это около 100 ГБ данных, но он содержит 150 столбцов. Я использую только 5 столбцов (поэтому я уменьшаю объем данных) и выбираю только 5 столбцов.
Для такого сценария искра сканирует полные 100 ГБ данных или разумно фильтрует только эти 5 столбцов, не сканируя все столбцы (например, в форматах столбцов)?
Любая помощь в этом будет оценена по достоинству.
imp_feed = spark.read.csv('s3://mys3-loc/input/', schema=impressionFeedSchema, sep='\t').where(col('dayserial_numeric').between(start_date_imp,max_date_imp)).select("col1","col2","col3","col4")