16 | DBScan 聚类:打破形状的限制,使用密度聚类

上一节课我讲解了 K-means 算法,那是一种基于划分的方法。今天我要介绍一种基于密度的聚类算法:DBSCAN(Density-Based Spatial Clustering of Applications with Noise),依旧先来看一个例子。一个例子想象有一个很大的广场,上面种了很多的鲜花和绿草。快要到国庆节了,园丁要把上面的鲜花和绿[...]

15 | k-means 聚类:擒贼先擒王,找到中心点,它附近的都是一类

关于分类算法,我的讲解已经告一段落,从这一小节开始,我们进入聚类算法的学习。不知道你是否对前面讲解的“什么是聚类问题”还有印象,我在这里再简单介绍一下。聚类算法属于无监督学习,与分类算法这种有监督学习不同的是,聚类算法事先并不需要知道数据的类别标签,而只是根据数据特征去学习,找到相似数据的特征,然后把已知的数据集划分成几个不同的类别。比如说我们有一[...]

14 | 实践 1:使用 XGB 实现酒店信息消歧

前面我们讲解了数据挖掘思维,也介绍了一些数据挖掘所使用的算法,那么今天我们就从实际情况出发,看看数据挖掘该如何在工作中发挥作用。XGB 算法我们在前面的章节已经做过一些了解,它是由决策树衍生出来的一种算法,在做实验和工业生产中都有非常好的效果。有一天,酒店的业务人员突然找到我,说希望我们能够提供一个算法服务去为酒店信息做一个自动化的匹配,以通过算法[...]

13 | 人工神经网络:当前最火热的深度学习基础

自从 2016 年 Alpha Go 打败了李世石,神经网络和深度学习就已经进入了广大人民群众的视野,这个方向已经变得越来越火热,各路专家层出不穷地改进算法以及预训练模型,让人眼花缭乱。但是实际上人工神经网络算法早在几十年前就已经有了,只不过随着算力的进步以及科学家们不懈的改良,现在有了更加优秀的效果和广阔的应用,那么今天我就来介绍一下人工神经网络[...]

12 | 支持向量机(SVM):用一条线分开红豆与绿豆

今天要介绍的算法叫作支持向量机(Support Vector Machine,SVM)算法。这个算法在 1995 年就已经被发表出来了,由于在文本分类任务上面表现优异,SVM 算法很快就如日中天,成为机器学习的主流算法。在后面很长一段时间里,都有大量的学者对它进行了深入研究和改进,甚至写了很多相关的书籍。下面我们从一个例子出发,去看看这个算法是基于[...]

11 | 朴素贝叶斯:算一算你是否要买延误险

本节课讲解第三个分类算法——朴素贝叶斯,我依然以一个例子开头,带领你进入朴素贝叶斯算法的世界,通过算法原理、算法优缺点的讲解,带你算一算是否要买航空延误险。最后我们再动手来写一下代码,看看如何使用朴素贝叶斯来进行分类。一个例子最近看到一则新闻,王女士从 2015 年开始,凭借自己对航班和天气的分析,成功地购买了大约 900 次飞机延误险并获得延误赔[...]

10 | 决策树:女神使用的约会决策

今天是分类算法的第二课时,我们今天要介绍的是一个应用非常广泛的模型——决策树。首先我依然会从一个例子出发,看看女神是怎样决策要不要约会的;然后分析它的算法原理、思路形成的过程;由于决策树非常有价值,还衍生出了很多高级版本,在扩展内容里我也进行了简要的介绍。希望通过本课时的学习,你可以掌握决策树的思路以及使用方法,并能够尝试用它来解决遇到的问题。一个[...]

09 | KNN 算法:近朱者赤,近墨者黑

你好,从这一课时开始,我们将进入“模块三:分类问题”的学习。在算法部分,我会介绍一个跟算法思想相关的小例子,然后介绍算法的优缺点和适用场景,对于部分算法我将给出算法模块的调用方法,此外一些扩展的内容我会放在最后讲解。在每一个类型的算法最后,我都尽量安排一节小小的实践课,一起来看看数据挖掘是如何做的。今天我要讲的这个算法是最近邻算法(K-Neares[...]