Prepare data import time import numpy as np import matplotlib.pyplot as plt from collections import OrderedDict from pyspark import SparkContext from pyspark.mllib.classification import LogisticRegressionWithSGD from pyspark.mllib.tree import RandomForest from pyspark.mllib.classification import LabeledPoint %matplotlib inline sc = SparkContext() clean.csv is original file with nan filled with mean of the column. features = sc.textFile(‘/home/sergey/MachineLearning/biline/clean.csv’) features = features.map(lambda…

Spark Joins SparkSQL and Spark DataFrames join(): inner outer left outer right outer semijoin Spark PairRDD: x.join(y): returns key-value pairs [(k,(v₁,v₂).....]where: k is a common key between x and y (v₁,v₂) are values in x and y leftOuterJoin() rightOuterJoin() fullOuterJoin() x = sc.parallelize([('a',2), ('b',3)]) y = sc.parallelize([('a',3), ('a',2), ('a',5)]) x.join(y).collect() [(‘a’, (2, 3)), (‘a’, (2,…

Apache Spark RDD: pyspark.SparkContext: sc.parallelize(data, num) sc.textFile(file, num) dir(sc) from pyspark import SparkContext sc = SparkContext() # xrange() is more efficient than range() because it’s generator data = range(1,11) rdd = sc.parallelize(data,2) type(sc) pyspark.context.SparkContext sc.version ’1.4.0′ type(rdd) pyspark.rdd.PipelinedRDD print(‘The id of rdd is {0}’.format(rdd.id())) The id of rdd is 1 rdd.setName(‘My first RDD’) My first…

Посмотреть информацию о файле или директории можно при помощи команды ls ls options directory-or-file-name ls: Практические примеры наиболее частого применения. Команда ls по-умолчанию отображает содержимое текущей директории !ls 0.Bash_Keyboard_Shortcuts.ipynb 4.Bash_Globbing.ipynb 1.Bash_links.ipynb hard-link 2.Bash_Ls.ipynb myfile 3.Bash_Permissions_and_Ownership.ipynb myfile-hardlink 3.Bash_Search_for_files.ipynb myfile-softlink Ключ -l запрашивает подробную информацию о файле в виде таблицы. » . » точка обозначает текущую директорию….

Globbing Globbing (от названия программы /etc/glob, которая первоначально использовала этот прием) — это процесс генерации имен файлов в оболочке с использованием wildcards (другое название globbing — pattern match). » * » — ЛЮБОЕ КОЛИЧЕСТВО любых знаков » ? » — ЛЮБОЙ ОДИН знак [a-z]— range, включая отрицание » ! « { txt1, txt2 } —…

ФОРМАТ КОМАНДЫ: ln [-s]target-file link-name [-s]— опциональный ключ для Soft link target-file — полный путь к линкуемому файлу. Достаточно имени, если линкуемый файл находится в текущей директории link-name — полный путь с именем создаваемого линка. Достаточно имени, если линк создается в текущей директории. Существует 2 вида линков: Жесткие (hard link). Практически, жесткий линки — это…

Отмена действия: ctrl + shift + — — отмена действия. Эквивалентно ctrl + z в Windows. Переходы: ctrl + a — в начало строки ctrl + e — в конец строки ctrl + xx — переключиться между текущей позицией и началом строки alt + b — вперед на одно слово alt + f — назад…

© 2014 In R we trust.
Top
Follow us: