pwd ‘/home/sergey/Py_SparkDataFrame_edx_CS105_CS110_CS120′   Hive позволяет выполнять скрипты из команды строки. Следующий скрипт позволяет найти имена всех колонок в базе данных:   ! cat searchInDb.sh #!/bin/sh hive -e «use $1;show tables;» | while read line do echo «reading $line table» echo «\nCurrent table is $line» >> tableColumns.txt hive -e «show columns in $line» >> tableColumns.txt…

  Список всех файлов в Hadoop:   ! hdfs dfs -du -h 0 .Trash 5.1 K 201408_station_data.csv 622.8 M 201408_status_data.csv 19.7 M 201408_trip_data.csv 78.4 K 201408_weather_data.csv 160.0 M NASA_access_log_Aug95 2.2 K README.txt 5.1 K test.csv   Конвертируем список в Python лист:   import sh hdfsDir = «/user/sergey/» fileList = [ ‘hdfs://’+line.split(» «)[-1] for line in…

© 2014 In R we trust.
Top
Follow us: