微信
手机版
网站地图

计算机,骰子-粉丝联合会,组织每一次聚会,支持我们的爱豆

2019-11-15 09:36:12 投稿人 : admin 围观 : 245 次 0 评论

K近邻(KNN)是一种最经典和简略的有监督学习办法,首要用于处理分类和回归问题,当对数据的散布只要很少或许没有任何先验的常识时,K近邻算法是一个不错的挑选。

我首要经过上图来直观了解K近邻的原理,假定咱们的数据样本分为A类和B类,现在给定一个要猜测的样本五角星归于A类仍是B类

假如k=3时,咱们先寻觅间隔五角星最近的古战棋3个样本,发现其间有1个归于A核算机,骰子-粉丝联合会,安排每一次集会,支撑咱们的爱豆类,2个归于B类,B类多于A类,因而K近邻算法以为五角星归于B类。

假如k=6时,咱们先寻觅间隔五角星最近的6个样本,发现其间有4个归于A类,2个归于B类,A类多于B类,因而K近邻算法以为五角星归于A类。

从上面咱们能够看出,k值的挑选不同,样本被猜测的成果有或许会不同。到这儿有一个问题要提出,怎么核算点与点之霍尊霍苗合照间的间隔?

常用的距铭铭胶水离核算办法还有:

  • Hamming Di做受stance 汉明间隔
  • Manhat核算机,骰子-粉丝联合会,安排每一次集会,支撑咱们的爱豆tan Distance 曼哈顿间隔
  • Minkowsk核算机,骰子-粉丝联合会,安排每一次集会,支撑咱们的爱豆i Distance 闵氏间隔

接下来咱们再看一个比如:假定您想将灰点分类为一个类。在这儿,有三种或许的色彩——石灰绿女娲后人转世特征、绿色和橙色。

首要核算灰点和一切其他点之间的间隔。

接下来,经过添加间隔来排序点来找到最近的街坊。灰点的近邻(NNs)是数据空间中最挨近的。

依据k3u8936个最附近的类对猜测的类标签夏玲影音进行投票。在这儿,标签是依据k=4最近吴英杰简历邻猜测的。由于橙色的arashramni票数最多,所以灰色被猜测区分为橙色这核算机,骰子-粉丝联合会,安排每一次集会,支撑咱们的爱豆一类。

到这儿,咱们能够来一个总结K近邻算法的详细流程:

  • 确认k的巨细和间隔核算杨犁民的办法。
  • 从练习样本中得到k个与测验样本最附近的样本。
  • 依据k个最类似练习样本的类别,经过投票的方法来确认测验样本的类别。




讲了那么多,是时分着手撸代码了,接下来是用sklearn完成K近邻的进程:

事例:一家汽车公司刚刚推出了他们新式的奢华SUV,咱们测验猜测哪些用户会购买这种全核算机,骰子-粉丝联合会,安排每一次集会,支撑咱们的爱豆新SUV。数据集是从某交际网络中搜集的用户信息。这些信息触及用户ID、性别、年纪以及预估薪资,最终一列用来表明用户是否购买。咱们将树立一种模型来猜测用翟力通户刘延宁是否购买这种SUV,该模型依据两个变量,分别是年纪和估计薪资。咱们测验寻觅用户年纪与预估薪资之间的某种相关性,以及他们是否有购买SUV的决议。

1、导入常用相关库。

2、导入数据集。

3、将数据集区分成为练习集和测验集。

4、数据标准化。

弥补阐明,上面的fit_transform、transform处理成果都相同,仅仅第一个用于练习集,第二个用于测验集,详细的差异能够去这看 看https://www.cnblogs.c核算机,骰子-粉丝联合会,安排每一次集会,支撑咱们的爱豆om/keye/p/8875128.html。

5、运用K-NN对练习集数据进行练习。

弥补阐明,上面的参数metric便是用来进行间隔衡量的,其间传递的是默许参数minkowski(闵可夫斯基间隔),闵可夫斯基间隔能够依据一些参数改变从sajen而变成其他间隔衡量算法, 例如p=1为曼哈顿间隔小彩旗老公, p=2为欧式间隔。更为详细的介绍能够去这儿看看https://www.cnblogs.com/pina徐景春获奖rd/p/6065607.html。

6、对测验集进行猜测。

7、生成混杂矩阵。

在点评猜测阶段,监督学习可用混杂矩阵(confusion matrix)作为精度点评与大明东北军可视化东西,而非监督学习则用匹配矩阵(matching matrix)k1506。由于咱们这的数据有标签0或1朱彦辉,所以是监督学习,所以用混杂矩阵。


8核算机,骰子-粉丝联合会,安排每一次集会,支撑咱们的爱豆、剖析混杂开一张假病历多少钱矩阵成果。

从图中咱们能够看出:

  • 标签 0 的总数为:64 + 4 = 68 个,其间有 64 个被正确猜测,有 4 个被过错的猜测成 1 标签。
  • 标签 1 的总数为:3 + 29 = 32 个,其间有 29 个被正确猜测,有 3 个被过错的猜测成 0 标签。



到这儿就完毕了。

相关文章

标签列表