None Table of Contents 1  Generate Lognormal distribution 2  Lognormal is not normal! 3  Single day expected return 3.1  Based on lognormal assumption 3.2  Based on normality assumption 4  Compounded return 4.1  Based on lognormal assumption 4.2  If normality assumed 5  Conclusions Generate Lognormal distribution Suppose we have lognormal returns: from scipy.stats import shapiro, lognorm from pingouin import qqplot from seaborn import histplot logn…

  Clustering using GPU Accelerated DBSCAN in RAPIDS¶ By Paul Hendricks¶ While the world’s data doubles each year, CPU computing has hit a brick wall with the end of Moore’s law. For the same reasons, scientific computing and deep learning has turned to NVIDIA GPU acceleration, data analytics and machine learning where GPU acceleration is…

!pwd /home/sergey/grep_ !cat file.txt movieId,title,genres 1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy 2,Jumanji (1995),Adventure|Children|Fantasy 3,Grumpier Old Men (1995),Comedy|Romance 4,Waiting to Exhale (1995),Comedy|Drama|Romance 5,Father of the Bride Part II (1995),Comedy 6,Heat (1995),Action|Crime|Thriller 7,Sabrina (1995),Comedy|Romance 8,Tom and Huck (1995),Adventure|Children 9,Sudden Death (1995),Action Count number of occurencies of «|» 1. With AWK !awk -F «|» ‘{print(NR, NF-1)}’ file.txt 1 0 2 4…

  Gedit is a very powerful open source GUI editor which has gotten many plugins. Many plugins can be called via accelerator key, but sometimes those keys might be in conflict with other pieces of software. Below is a way to change assigned accelerator keys to call Commander Mode in gedit from default Ctrl +…

  pwd ‘/home/sergey/Py_SparkDataFrame_edx_CS105_CS110_CS120′   Hive позволяет выполнять скрипты из команды строки. Следующий скрипт позволяет найти имена всех колонок в базе данных:   ! cat searchInDb.sh #!/bin/sh hive -e «use $1;show tables;» | while read line do echo «reading $line table» echo «\nCurrent table is $line» >> tableColumns.txt hive -e «show columns in $line» >> tableColumns.txt…

  import pandas as pd from datetime import datetime as dt   weekdays = pd.date_range(«2015-01-01″,»2016-12-31″, freq=»B») [print(x) for x in weekdays[:10]] 2015-01-01 00:00:00 2015-01-02 00:00:00 2015-01-05 00:00:00 2015-01-06 00:00:00 2015-01-07 00:00:00 2015-01-08 00:00:00 2015-01-09 00:00:00 2015-01-12 00:00:00 2015-01-13 00:00:00 2015-01-14 00:00:00 [None, None, None, None, None, None, None, None, None, None]   weekdaysM10 = weekdays[9:]…

  Посмотрим содержание и структуру файла, который будем конвертировать в формат parquet:   ! head -n5 /home/sergey/Py_SparkDataFrame_edx_CS105_CS110_CS120/data/201408_status_data.csv «station_id»,»bikes_available»,»docks_available»,»time» «2″,»12″,»15″,»2014-03-01 00:00:02″ «2″,»12″,»15″,»2014-03-01 00:01:03″ «2″,»12″,»15″,»2014-03-01 00:02:03″ «2″,»12″,»15″,»2014-03-01 00:03:02″   Для конвертации нам понадобится определение типов полей («схема»):   from pyspark.sql.types import * customSchema = StructType([ StructField("station_id", IntegerType(),True), StructField("bikes_available", IntegerType(),True), StructField("docks_available", IntegerType(),True), StructField("time", TimestampType(),True), ])   Прочитаем csv…

При обновлении версии R часто возникает проблема, когда R перестает “видеть” библиотеки, установленные в предыдущей версии. В *nix OS существует несколько способов указания пути для установки и загрузки библиотек R: файл .Renviron находящийся в домашней папке пользователя, где переменная прописывается в виде R_LIBS=/home/sergey/R/x86_64-pc-linux-gnu-library/3.2 файл .Rprofile, который исполняет R код перед стартом RStudio. В этом случае, пути…

  Список всех файлов в Hadoop:   ! hdfs dfs -du -h 0 .Trash 5.1 K 201408_station_data.csv 622.8 M 201408_status_data.csv 19.7 M 201408_trip_data.csv 78.4 K 201408_weather_data.csv 160.0 M NASA_access_log_Aug95 2.2 K README.txt 5.1 K test.csv   Конвертируем список в Python лист:   import sh hdfsDir = «/user/sergey/» fileList = [ ‘hdfs://’+line.split(» «)[-1] for line in…

sc.version ’2.0.0′ from pyspark import SparkContext, HiveContext context = HiveContext(sc) path = «file:///home/sergey/Py_SparkDataFrame_edx_CS105_CS110_CS120/data/201408_status_data.csv» df = context.read.csv(path, header=True).cache() df.printSchema() root |— station_id: string (nullable = true) |— bikes_available: string (nullable = true) |— docks_available: string (nullable = true) |— time: string (nullable = true) df.count() 18342210 df.show(5) +———-+—————+—————+——————-+ |station_id|bikes_available|docks_available| time| +———-+—————+—————+——————-+ | 2| 12| 15|2014-03-01 00:00:02|…

© 2014 In R we trust.
Top
Follow us: