机器学习基础05DAY-全球简讯-青年机床网

机器学习基础05DAY-全球简讯

2023-03-27 06:35:05

来源：博客园

分类算法之k-近邻

k-近邻算法采用测量不同特征值之间的距离来进行分类

(资料图)

优点：精度高、对异常值不敏感、无数据输入假定
缺点：计算复杂度高、空间复杂度高
使用数据范围：数值型和标称型

一个例子弄懂k-近邻

电影可以按照题材分类，每个题材又是如何定义的呢？那么假如两种类型的电影，动作片和爱情片。动作片有哪些公共的特征？那么爱情片又存在哪些明显的差别呢？我们发现动作片中打斗镜头的次数较多，而爱情片中接吻镜头相对更多。当然动作片中也有一些接吻镜头，爱情片中也会有一些打斗镜头。所以不能单纯通过是否存在打斗镜头或者接吻镜头来判断影片的类别。那么现在我们有6部影片已经明确了类别，也有打斗镜头和接吻镜头的次数，还有一部电影类型未知。

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He"s not Really into dues	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
?	18	90	未知

那么我们使用K-近邻算法来分类爱情片和动作片：存在一个样本数据集合，也叫训练样本集，样本个数M个，知道每一个数据特征与类别对应关系，然后存在未知类型数据集合1个，那么我们要选择一个测试样本数据中与训练样本中M个的距离，排序过后选出最近的K个，这个取值一般不大于20个。选择K个最相近数据中次数最多的分类。那么我们根据这个原则去判断未知电影的分类

电影名称	与未知电影的距离
California Man	20.5
He"s not Really into dues	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

我们假设K为3，那么排名前三个电影的类型都是爱情片，所以我们判定这个未知电影也是一个爱情片。那么计算距离是怎样计算的呢？

欧氏距离那么对于两个向量点a1和a2之间的距离,可以通过该公式表示：

如果说输入变量有四个特征，例如（1，3，5，2）和（7，6，9，4）之间的距离计算为：

sklearn.neighbors

sklearn.neighbors提供监督的基于邻居的学习方法的功能，sklearn.neighbors.KNeighborsClassifier是一个最近邻居分类器。那么KNeighborsClassifier是一个类，我们看一下实例化时候的参数

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights="uniform", algorithm="auto", leaf_size=30, p=2, metric="minkowski", metric_params=None, n_jobs=1, **kwargs)**  """  :param n_neighbors：int，可选（默认= 5），k_neighbors查询默认使用的邻居数  :param algorithm：{"auto"，"ball_tree"，"kd_tree"，"brute"}，可选用于计算最近邻居的算法："ball_tree"将会使用 BallTree，"kd_tree"将使用 KDTree，“野兽”将使用强力搜索。"auto"将尝试根据传递给fit方法的值来决定最合适的算法。  :param n_jobs：int，可选（默认= 1),用于邻居搜索的并行作业数。如果-1，则将作业数设置为CPU内核数。不影响fit方法。  """import numpy as npfrom sklearn.neighbors import KNeighborsClassifierneigh = KNeighborsClassifier(n_neighbors=3)

Method

fit(X, y)

使用X作为训练数据拟合模型，y作为X的类别值。X，y为数组或者矩阵

X = np.array([[1,1],[1,1.1],[0,0],[0,0.1]])y = np.array([1,1,0,0])neigh.fit(X,y)

kneighbors(X=None, n_neighbors=None, return_distance=True)

找到指定点集X的n_neighbors个邻居，return_distance为False的话，不返回距离

neigh.kneighbors(np.array([[1.1,1.1]]),return_distance= False)neigh.kneighbors(np.array([[1.1,1.1]]),return_distance= False,an_neighbors=2)

predict(X)

预测提供的数据的类标签

neigh.predict(np.array([[0.1,0.1],[1.1,1.1]]))

predict_proba(X)

返回测试数据X属于某一类别的概率估计

neigh.predict_proba(np.array([[1.1,1.1]]))

K-邻近算法鸢尾花数据集案例

In [ ]:

from sklearn.datasets import load_iris  # 导入鸢尾花数据集from sklearn.preprocessing import StandardScaler # 导入特征工程标准化from sklearn.neighbors import KNeighborsClassifier # 导入K邻近模型from sklearn.model_selection import train_test_split# 导入划分训练集测试集方法import pandas as pd

In [ ]:

iris = load_iris()  # 实例化鸢尾花数据集df = pd.concat([pd.DataFrame(iris.data), pd.DataFrame(iris.target)],axis=1)df

Out[ ]:

0	1	2	3	0
0	5.1	3.5	1.4	0.2	0
1	4.9	3.0	1.4	0.2	0
2	4.7	3.2	1.3	0.2	0
3	4.6	3.1	1.5	0.2	0
4	5.0	3.6	1.4	0.2	0
...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	2
146	6.3	2.5	5.0	1.9	2
147	6.5	3.0	5.2	2.0	2
148	6.2	3.4	5.4	2.3	2
149	5.9	3.0	5.1	1.8	2

150 rows × 5 columns

In [ ]:

# 划分测试集和训练集x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.25)

In [ ]:

# 数据标准化# 实例化标准化类，传入训练集数据计方差标准std = StandardScaler().fit(x_train)#实例化训练集特征值x_train = std.transform(x_train)#实例化测试集特征值x_test = std.transform(x_test)

In [ ]:

# K邻近预测，K值为10knn = KNeighborsClassifier(n_neighbors=10)# 拟合k-nearest neighbors分类器knn.fit(x_train,y_train)# 查看预测样本的目标值y_predict = knn.predict(x_test)y_predict

Out[ ]:

array([0, 1, 0, 0, 1, 0, 2, 1, 2, 0, 1, 1, 0, 0, 0, 2, 0, 2, 1, 0, 2, 2,       0, 2, 2, 2, 1, 2, 1, 0, 1, 0, 0, 0, 1, 2, 1, 1])

In [ ]:

#查看预测准确度score = knn.score(x_test,y_test)score

Out[ ]:

0.9473684210526315

关键词：

机器学习基础05DAY-全球简讯

分类算法之k-近邻k-近邻算法采用测量不同特征值之间的距离来进行分类优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间

2023-03-27

快播：詹皇出战状态改为存疑：将在赛前决定是否登场 28天火速恢复太强

詹皇出战状态改为存疑：将在赛前决定是否登场28天火速恢复太强,湖人,詹皇,凯文杜兰特,勒布朗詹姆斯,勒布朗-詹姆斯,帕特里克·贝弗利

2023-03-27

科曼：说出一个直布罗陀球员？额…他们有位很会踢足球的10号|全球简讯

我一秒也没有犹豫过要不要改变它，我们将继续使用4-3-3并且进行改进，我100%确定。”瓜迪奥拉在我生日那天给我打电话，他向我表示祝贺，立刻就

2023-03-26

全球今亮点！睿昂基因：未来将大力推动淋巴瘤基因重排试剂盒、白血病15种融合基因试剂盒入院工作

睿昂基因近期接受机构调研时被问及“2023年初，国家放松了疫情防控的政策，请问公司产品的市场推广会如何变化呢？”公司表示，公司在市场推广

2023-03-26

excel如何提取工作表名称_excel 更改工作表名称

1、=VLOOKUP($A2,INDIRECT( "表 "&COLUMN(A1)& "! "& "$A1:$B23 "),2,0)A

2023-03-26

Java中restTemplate携带Header请求-全球速看

restTemplate发送POST请求时可以通过如下方法获取ResponseEntity：

2023-03-26

防艾知识进校园健康和谐惠师生

防艾知识进校园活动现场。3月21日，百色市右江区龙景街道卫计所和右江区卫生监督所工作人员来到右江区第八初级中学开展预防艾

2023-03-26

化险为夷的反义词

岌岌可危、风雨飘摇、摇摇欲倒、摇摇欲坠、危在旦夕、累卵之危、千钧一发等。化险为夷的解释：险：险阻；夷：平坦。化危险为平安。比喻转危为

2023-03-26

csol私服下载2022_csOL私服有么在那里下世界热消息

1、嗯~~只有cso-nst单机版~在对战平台上玩~。

2023-03-26

小白菜汆丸子的做法_小白菜汆丸子的教程

欢迎观看本篇文章，小勉来为大家解答以上问题。小白菜汆丸子的做法，小白菜汆丸子的教程很多人还不知道，现在让我们一起来看看吧

2023-03-26

资讯

车床

部分宠物店寄养价格上涨或因节日寄养需求增加

2021年度北京香山论坛专家视频会闭幕

行业

0	1	2	3	0
0	5.1	3.5	1.4	0.2	0
1	4.9	3.0	1.4	0.2	0
2	4.7	3.2	1.3	0.2	0
3	4.6	3.1	1.5	0.2	0
4	5.0	3.6	1.4	0.2	0
...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	2
146	6.3	2.5	5.0	1.9	2
147	6.5	3.0	5.2	2.0	2
148	6.2	3.4	5.4	2.3	2
149	5.9	3.0	5.1	1.8	2

0	1	2	3	0
0	5.1	3.5	1.4	0.2	0
1	4.9	3.0	1.4	0.2	0
2	4.7	3.2	1.3	0.2	0
3	4.6	3.1	1.5	0.2	0
4	5.0	3.6	1.4	0.2	0
...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	2
146	6.3	2.5	5.0	1.9	2
147	6.5	3.0	5.2	2.0	2
148	6.2	3.4	5.4	2.3	2
149	5.9	3.0	5.1	1.8	2

0	1	2	3	0
0	5.1	3.5	1.4	0.2	0
1	4.9	3.0	1.4	0.2	0
2	4.7	3.2	1.3	0.2	0
3	4.6	3.1	1.5	0.2	0
4	5.0	3.6	1.4	0.2	0
...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	2
146	6.3	2.5	5.0	1.9	2
147	6.5	3.0	5.2	2.0	2
148	6.2	3.4	5.4	2.3	2
149	5.9	3.0	5.1	1.8	2