24 | 实践 5:使用 fastText 进行新闻文本分类

你好,欢迎来到第 24 课时,这是我们的最后一节实践课,也是我们的数据挖掘思维与实战的最后一节正课。在这节课中,我将为你讲解数据挖掘在自然语言处理领域最典型的应用——文本分类,并带领你一步步解决文本分类的问题。话不多说,让我们开始课程吧。fastText 算法这里我们先简单介绍一下 fastText,因为我们在前面没有提到过这个算法,你可能有点疑惑[...]

23 | word2vec:让文字可以进行逻辑运算,女人+王冠=女王

在上一节课,我们简单介绍了自然语言处理的发展历史,然后讲解了 TF-IDF 算法的计算过程,那是一个非常古老的关键词计算方法。今天,我们要学习自然语言处理的再次爆发期产生的一种新算法:词嵌入算法。简单来说,词嵌入算法就是使用一个低维度的向量来表示一个词,并且距离相近的向量在实际的词含义上也是相近的,比如说“炸鸡”的向量与“啤酒”的向量距离就要比“炸[...]

22 | TF-IDF:一种简单、古老,但有用的关键词提取技术

其实到上一节,数据挖掘的四种常见问题和算法,我们已经学习完了,从这一小节,我们进入到自然语言处理的相关学习。我觉得自然语言处理是数据挖掘领域最有意思、最有深度的部分。与我们前面算法所处理的结构化数据不同,自然语言是由人们自由表达的内容,显然是一些非格式化的数据,并且存在着歧义、多义、无序等特点,所以要从这些语言文字中挖掘出有价值的信息也不是一件简单[...]

21 | 实践 4:用关联分析找到景点与玩法的关系

在前面的实践课程中,有的是注重对数据挖掘流程的讲解,有的是注重对算法实施的讲解。在这节课里,我们注重从实际的场景出发,使用数据挖掘流程来处理我们的景点与玩法的关系。接下来就让我们一起走进场景中,看看如何解决业务中的实际问题吧。理解业务在马蜂窝平台,有数以千万计的用户写下了他们旅行的感受,记录了他们旅行的瞬间;更有数以亿计的用户在浏览这些旅行相关的内[...]

20 | Apriori 与 FP-Growth:不得不再说一遍啤酒与尿布的故事

这一课时,我们进入第四种数据挖掘算法——关联分析的学习。关联分析是一种无监督学习,它的目标就是从大数据中找出那些经常一起出现的东西,不管是商品还是其他什么 item,然后靠这些结果总结出关联规则以用于后续的商业目的或者其他项目需求。一个例子不管你在哪一个数据挖掘课堂上,几乎都会听到这样一个“都市传说”:在一个大型超市中,数据分析人员整理了一整年的购[...]

19 | 实践 3:使用线性回归预测房价

这次的实践是针对我们的回归算法进行的练习。我们依然从数据获取、模型训练以及效果评估几个步骤来练习,看看如何使用线性回归来预测房价。数据获取与我们之前使用的鸢尾花数据集一样,波士顿房价数据集也是一个非常常用的公开数据集。你可以在下面的页面中下载数据。当然,该数据集也被纳入了 sklearn 中,你可以使用 sklearn 中的数据加载方法来获取该数据[...]

18 | 线性回归与逻辑回归:找到一个函数去拟合数据

经过了这么久的学习,我们终于结束了分类和聚类算法的相关内容,这一课时我将为你讲解关于回归算法的内容。从标题可以看出来,我们这次课程会涉及线性回归和逻辑回归,这两个回归有什么样的含义呢?虽然都叫作回归,它们的处理方式有什么不同呢?带着这些问题,我们就开始本课时的学习吧。一个例子我们还是先从一个例子出发。想象你已经是一家公司的 CEO,你的公司旗下有着[...]

17 | 实践 2:如何使用 word2vec 和 k-means 聚类寻找相似的城市

在第一个实践课(使用 XGB 实现酒店信息消歧)中其实没有涉及太多的代码,主要是以介绍思路为主。在这一课时中,我将提供一个较为完整的代码,带领你亲自实践一下。理解业务在旅行场景下,城市——我们通常称为目的地,是一个很重要的信息。根据用户对于目的地的偏好,我们既可以把目的地作为一个特征用于推荐系统中,也可以把目的地当作一个被推荐的信息直接推荐给用户。[...]