导入包 import numpy as np import pandas as pd 导入数据 data = pd.read_csv("./datasets/Social_Network_Ads.csv") data.head() User ID Gender Age EstimatedSalary Purchased 0 15624510 Male 19 19000 0 1 15810944 Male 35 20000 0 2 15668575 Female 26 43000 0 3 15603246 Female 27 57000 0 4 15804002 Male 19 76000 0 X = data.iloc[:,[2,3]].values Y = data.iloc[:,4].values 交叉验证 from sklearn.model_selection import train_test_split X_train,X_test,Y_train,Y_test
皮尔逊相关系数 假设检验 步骤与概率论中假设检验的步骤一样。主要是统计量的构造 \[ t = r\sqrt{\frac{n-2}{1-r^2}} \] t为服从自由度为n-2的t分布 假设检验的条件 实验数据通常
精确率和召回率 混淆矩阵 True Positive(真正, TP):将正类预测为正类数. True Negative(真负 , TN):将负类预测为负类数. False Posi
参考:https://cuijiahua.com/blog/2017/11/ml_2_decision_tree_1.html 《机器学习》周
分类算法 主要区分一下生成模型和判别模型,首先要知道生成模型和判别模型都属于监督学习,即样本有其对应的标签的。还有一个概念就是硬分类和软分类,
灰色关联分析进行系统分析 灰色关联分析主要用于数据量较小,即样本较少的情况,别的情况使用回归分析等常规方法就可以。 步骤 1.画统计图 画图后配上简
一些我常用的学习的网站和书籍 编程前的准备 在编程之前需要哪些准备,这个讲座讲了我们学习编程缺失的课程 大学里的计算机课程通常专注于讲授从操作系统
BM25算法 BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,
信息检索就是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 布尔索引顾名思义