pwd ‘/home/sergey/myvagrant’ В данной статье я рассматриваю пример реализации алгоритма Alternating Least Squares для выдачи рекомендаций методом Collaborative Filtering на Spark. Входными данными служит «длинная» матрица, строки которой являются одной рекомендацией. Столбцы: User ID: кто дает рекомендацию Object ID: что рекомендуют Рекомендация: численное значение рекомендации (может быть 0/1, может быть диапазон, например, от 0 до…

Примеры print !awk ‘BEGIN { print «line one\nline two\nline three» }’ line one line two line three Пробел — разделитель по-умолчанию. !awk ‘BEGIN { print «line one»,»line two»,»line three» }’ line one line two line three !awk ‘{ print $1,$2 }’ inventory-shipped | head -n3 Jan 13 Feb 15 Mar 15 Печать полей без запятой…

pwd() ‘/home/sergey/myvagrant’ Spark позволяет обрабатывать большие объемы рапределенных данных, которые хранятся в RAM на Hadoop фермах. В данном примере я покажу, каким образом можно применить данную технологию для подсчета частоты употребления слов в англоязычной версии «Война и Мир» Толстого. Логическим продолжением этого упражнения может быть решение таких практических задач как: recommender systems (collaborative filtering or…

2 основных способа: locate find 1. Locate Locate — самый быстрый способ, т.к. данные ищутся не на диске, а в базе данных /etc/updatedb.conf. База данных АВТОМАТИЧЕСКИ ОБНОВЛЯЕТСЯ РАЗ В ДЕНЬ. Для того, чтобы обновить базу принудительно: sudo updatedb locate: ФОРМАТ КОМАНДЫ locate option string-to-find OPTIONS: «-i» — case insensitive 2. Find find: ФОРМАТ КОМАНДЫ find…

pwd ‘/home/sergey/Py_Models_at_Work’ Распределение объема торгов по часам в течение дня неравномерно. Сначала приблизительно оценим эту неравномерность: Шаг 1. Просуммируем объем всех сделок в течение данного часа по всем торговым дням. Шаг 2. Нормируем полученные значения на общую сумму проведенных сделок. usdrub = pd.read_csv(‘./data/SiZ5.csv’,index_col=[0],usecols=[0,5], parse_dates=True) usdrub.columns = ['volume'] (usdrub.groupby(usdrub.index.hour).agg(‘sum’)/usdrub.sum()).\ plot(kind=’bar’, title=’Распределение объема сделок в течение дня’);…

R по сравнению с Python имеет продвинутые возможности отображения финансовой графики. Ниже, я привожу пошаговый алгоритм для построения графика в пакете quantmod на основе данных, передаваемых из Python Шаг 1: Загрузка данных в Python import pandas as pd micex = pd.read_csv(‘micex.csv’, index_col=’Date’, parse_dates=True) Шаг 2: Передача данных в R Передача данных в R происходит при…

© 2014 In R we trust.
Top
Follow us: