Scikit-learn resumo método

Scikit-learn é um ponto focal para o trabalho da ciência de dados com Python, por isso, vale a pena saber quais métodos você mais precisa. A lista a seguir dá-lhe uma breve visão geral dos métodos mais importantes utilizados para análise de dados.

Video: Tutorial: scikit-learn - Machine Learning in Python with Contributor Jake VanderPlas

feature_extraction.FeatureHasher

Uso: Preparando seus dados

Descrição: O truque de hash, o que lhe permite acomodar um grande número de recursos em seu conjunto de dados

  • preprocessing.Binarizer

    Video: Intro to scikit-learn (I), SciPy2013 Tutorial, Part 1 of 3

    Uso: Preparando seus dados

    Descrição: Criar variáveis ​​binárias (valores de recurso para 0 ou 1)

  • preprocessing.Imputer

    Uso: Preparando seus dados

    Descrição: Os valores em falta de imputação

  • preprocessing.MinMaxScaler

    Uso: Preparando seus dados

    Descrição: Criar variáveis ​​vinculados por um valor mínimo e máximo

  • preprocessing.OneHotEncoder

    Uso: Preparando seus dados

    Descrição: Transforme características inteiros categóricas para os binários

  • preprocessing.StandardScaler

    Uso: Preparando seus dados

    Descrição: padronização variável, removendo a média e escala para unidade de variância

  • feature_extraction.text.CountVectorizer

    Uso: Preparando seus dados

    Descrição: Converter documentos de texto em uma matriz de dados de contagem

  • feature_extraction.text.HashingVectorizer

    Uso: Preparando seus dados

    Descrição: Diretamente converta o texto usando o truque hashing

  • feature_extraction.text.TfidfVectorizer

    Uso: Preparando seus dados

    Descrição: Cria um conjunto de dados de recursos TF-IDF.

  • feature_selection.RFECV

    Uso: seleção de características

    Descrição: selecção recurso automático

  • decomposition.PCA

    Uso: redução de dimensionalidade

    Descrição: Análise de componentes principais (PCA)

  • decomposition.RandomizedPCA

    Uso: redução de dimensionalidade

    Descrição: Análise de componentes principais (PCA) usando SVD randomizados

  • cross_validation.cross_val_score

    Uso: fase de validação cruzada



    Descrição: Estimar a pontuação de validação cruzada

  • cross_validation.KFold

    Uso: fase de validação cruzada

    Descrição: Dividir o conjunto de dados em dobras k para validação cruzada

  • cross_validation.StratifiedKFold

    Uso: fase de validação cruzada

    Descrição: validação estratificada que leva em conta a distribuição das classes que você prever

  • cross_validation.train_test_split

    Uso: fase de validação cruzada

    Descrição: Dividir os dados em conjuntos de treinamento e teste

  • grid_search.GridSearchCV

    Uso: otimização

    Descrição: busca exaustiva a fim de maximizar um algoritmo de aprendizado de máquina

  • linear_model.LinearRegression

    Uso: Predição

    Descrição: Regressão linear

  • linear_model.LogisticRegression

    Uso: Predição

    Descrição: Linear Regressão Logística

  • neighbors.KNeighborsClassifier

    Uso: Predição

    Descrição: classificação K-Vizinhos

  • naive_bayes.MultinomialNB

    Uso: Predição

    Descrição: Multinomial Naïve Bayes

  • metrics.accuracy_score

    Uso: avaliação Solution

    Descrição: pontuação de classificação de precisão.

  • metrics.f1_score

    Uso: avaliação Solution

    Descrição: Calcular a pontuação F1, equilibrando precisão e recordação

  • metrics.mean_absolute_error

    Uso: avaliação Solution

    Descrição: A média de erro de regressão erro absoluto

  • metrics.mean_squared_error

    Uso: avaliação Solution

    Descrição: A média de erro de regressão erro quadrado

  • metrics.roc_auc_score

    Uso: avaliação Solution

    Descrição: Calcular Área Sob a Curva (AUC) a partir de contagens de predição


  • Publicações relacionadas