pwd ‘/home/sergey/Py_SparkDataFrame_edx_CS105_CS110_CS120′ Hive позволяет выполнять скрипты из команды строки. Следующий скрипт позволяет найти имена всех колонок в базе данных: ! cat searchInDb.sh #!/bin/sh hive -e «use $1;show tables;» | while read line do echo «reading $line table» echo «\nCurrent table is $line» >> tableColumns.txt hive -e «show columns in $line» >> tableColumns.txt…
Посмотрим содержание и структуру файла, который будем конвертировать в формат parquet: ! head -n5 /home/sergey/Py_SparkDataFrame_edx_CS105_CS110_CS120/data/201408_status_data.csv «station_id»,»bikes_available»,»docks_available»,»time» «2″,»12″,»15″,»2014-03-01 00:00:02″ «2″,»12″,»15″,»2014-03-01 00:01:03″ «2″,»12″,»15″,»2014-03-01 00:02:03″ «2″,»12″,»15″,»2014-03-01 00:03:02″ Для конвертации нам понадобится определение типов полей («схема»): from pyspark.sql.types import * customSchema = StructType([ StructField("station_id", IntegerType(),True), StructField("bikes_available", IntegerType(),True), StructField("docks_available", IntegerType(),True), StructField("time", TimestampType(),True), ]) Прочитаем csv…