import matplotlib.pyplot as plt import numpy as np import pandas as pd df = pd.DataFrame({‘icao’: ['kk','bb', 'a1', 'a1']}) df icao 0 kk 1 bb 2 a1 3 a1 pd.DataFrame(data = {‘icao’: np.unique(df.icao, return_inverse=1)[1]}) icao 0 2 1 1 2 0 3 0

Stochastic Gradient Descent (SGD) — это метод, который подходит как для online обучения, или обучения в режиме реального времени, когда данные поступают постепенно, так и для Big Data. Причина универсальности этого метода состоит в том, что SGD не нужен полный объем данных для решения задач классификации или регрессионного анализа: апдейт модели происходит постепенно, по мере…

Матричные операции в R Для начала, создадим 2 матрицы: A <- matrix(1:4, 2,2) A ## [,1] [,2] ## [1,] 1 3 ## [2,] 2 4 B <- matrix(1:6, 3,2) B ## [,1] [,2] ## [1,] 1 4 ## [2,] 2 5 ## [3,] 3 6 Транспонирование матрицы: t(A) ## [,1] [,2] ## [1,] 1 2…

import math as mt import numpy as np import collections as cl Допустим, у нас есть список клиентов, интересы которых нам известны. user_items = [ ["Hadoop", "Big Data", "HBase", "Java", "Spark", "Storm", "Cassandra"], ["NoSQL", "MongoDB", "Cassandra", "HBase", "Postgres"], ["Python", "scikit-learn", "scipy", "numpy", "statsmodels", "pandas"], ["R", "Python", "statistics", "regression", "probability"], ["machine learning", "regression", "decision trees", "libsvm"],…

  import numpy as np import matplotlib.pyplot as plt %matplotlib inline   from math import log def logloss(p, y): epsilon = 10e-12 if p == 0: p += epsilon if p == 1: p -= epsilon if y == 1: return -log(p) if y == 0: return -log(1-p) def evaluate_logloss(p,labels): return sum(list(map(lambda x: logloss(p,x), labels)))/len(labels)…

  Простейший способ распечатать несколько переменных:   a = 12 b = 123.45 print(a, b, a * b) 12 123.45 1481.4   Следует отметить, что IPython представляет еще более простую конструкцию печати посредством tuple:   a, b, a * b (12, 123.45, 1481.4)   Если мы пользуемся первым способом, то мы можем указать желаемый разделитель,…

import pandas as pd from functools import reduce Map in bare Python a = [1,2,3,4,5] list(map(lambda x: x**2, a)) [1, 4, 9, 16, 25] list(filter(lambda x: x >= 4, a)) [4, 5] reduce(lambda x,y: x*y, a) 120 b = range(1000) %timeit list(map(lambda x: x**2, b)) 1000 loops, best of 3: 579 µs per loop %timeit…

  c1 = ['Russia', 'US', 'Germany'] c2 = ['007', '001', '049']   a = dict(Russia = ’007′, US = ’001′, Germany = ’049′ ) a {‘Germany’: ’049′, ‘Russia’: ’007′, ‘US’: ’001′}   b = {‘Russia’ : ’007′, ‘US’: ’001′, ‘Germany’: ’049′} b {‘Germany’: ’049′, ‘Russia’: ’007′, ‘US’: ’001′}   c = dict(zip(c1,c2)) c {‘Germany’: ’049′,…

Difference between bytes and strings When working with data inputs in Python — processing text, doing statistical analysis — we are working with strings. In [7]: type(‘café’) Out[7]: str When reading files from disc into Python we decode binary data into strings and when saving text to disc we encode stings to binary. str.encode() method is…

© 2014 In R we trust.
Top
Follow us: