проблема синтаксического анализа spark-sql с DataFramereader -
Наличие исключения синтаксического анализа, которое говорит, что путь s3 не существует, однако путь действительно завершается. Исключение: .snappy.parquet ")an_fix/20190115/Individual_cluster_cur_stable_with_no_ip/part- * org.apache.spark.sql.AnalysisException: путь не существует: s3://oneid-media-dev-us-east-1/data/mig/v1/output_zinan_fix/20190115/Individual_cluster_cur_stable_with_no_ip/part-00000-b8450da0-15e9-482e-b588-08d6baa0637a .snappy.parquet; в org.apache.spark.sql.execution.datasources.DataSource $ .org $ апач $ искрой $ SQL $ исполнения $ $ DataSource источники данных $$ checkAndGlobPathIfNecessary(DataSource.scala: 715)
Источник :
val srcDf = sqlContext.read.parquet("s3://oneid-media-dev-us-east-1/data/mig/v1/output_zinan_fix/" ""+obs_date_yyyymmdd+"" "/individual_cluster_cur_stable_with_no_ip/.паркет")
Я пробовал дюжину вариантов, включая жесткое кодирование строки даты. Если я жестко закодирую строку даты вместо переменной, например: val srcDf = sqlContext.read.parquet("s3://oneid-media-dev-us-east-1/data/mig/v1/output_zinan_fix/20190115/individual_cluster_cur_stable_with_no_ip/часть -. * snappy.parquet ")
Исключение теперь содержит * в проблемном пути, поэтому оно не анализируется. Путь не существует: s3://oneid-media-dev-us-east-1/data/mig/v1/output_zinan_fix/2019-01- . 15/individual_cluster_cur_stable_with_no_ip/часть - * snappy.parquet;
Это в версии 2.3.0 scala 2.11.8 Любые идеи приветствуются1