-1

проблема синтаксического анализа spark-sql с DataFramereader -

Наличие исключения синтаксического анализа, которое говорит, что путь s3 не существует, однако путь действительно завершается. Исключение: .snappy.parquet ")an_fix/20190115/Individual_cluster_cur_stable_with_no_ip/part- * org.apache.spark.sql.AnalysisException: путь не существует: s3://oneid-media-dev-us-east-1/data/mig/v1/output_zinan_fix/20190115/Individual_cluster_cur_stable_with_no_ip/part-00000-b8450da0-15e9-482e-b588-08d6baa0637a .snappy.parquet; в org.apache.spark.sql.execution.datasources.DataSource $ .org $ апач $ искрой $ SQL $ исполнения $ $ DataSource источники данных $$ checkAndGlobPathIfNecessary(DataSource.scala: 715)

Источник :

val srcDf = sqlContext.read.parquet("s3://oneid-media-dev-us-east-1/data/mig/v1/output_zinan_fix/" ""+obs_date_yyyymmdd+"" "/individual_cluster_cur_stable_with_no_ip/.паркет")

Я пробовал дюжину вариантов, включая жесткое кодирование строки даты. Если я жестко закодирую строку даты вместо переменной, например: val srcDf = sqlContext.read.parquet("s3://oneid-media-dev-us-east-1/data/mig/v1/output_zinan_fix/20190115/individual_cluster_cur_stable_with_no_ip/часть -. * snappy.parquet ")

Исключение теперь содержит * в проблемном пути, поэтому оно не анализируется. Путь не существует: s3://oneid-media-dev-us-east-1/data/mig/v1/output_zinan_fix/2019-01- . 15/individual_cluster_cur_stable_with_no_ip/часть - * snappy.parquet;

Это в версии 2.3.0 scala 2.11.8 Любые идеи приветствуются1

0