前言
本文转载自优达学城《机器学习工程师》
scikit-learn 的安装
检查您是否装有可用的 python。优达学城使用 python 2.7 作为示例代码和在浏览器中完成作业的代码。
我们会使用 pip 来安装一些程序包。首先,在此处获取并安装 pip。如果你使用Anaconda, 你可以用 conda 命令来安装包。
使用 pip 或 anaconda 来安装 scikit-learn:
- 打开 Terminal(mac 下是 Terminal, PC 是 cmd)
用下列命令安装 sklearn pip install scikit-learn
或者conda install scikit-learn
- 如果你不用 pip 或者 conda,可以在这里找到安装说明。
关于 scikit-learn 版本的重要通知
scikit-learn 最近把稳定版升级到了 v0.18。这次升级改变了一些我们将要在课程中讲到的函数的调用方法,例如:train_test_split、gridSearchCV、ShuffleSplit 和 learning_curves。scikit-learn 网站上的文档已经更新到了 v0.18。但是 Katie 导师的讲解以及优达学城(Udacity)的练习,作业还是基于v0.17。如果你需要查询 scikit-learn 的文档,请查询 v0.17 的说明,而非 v0.18。近期我们会把内容统一升级成 v0.18。
这个论坛链接提供了更加详细的说明。如果你还有疑问,可以在论坛和微信群里提出。
Scikit-learn 代码
在接下来的部分中,Katie 会演示如何将 scikit-learn(或 sklearn)文档与在“机器学习简介”课程中介绍的高斯朴素贝叶斯模型一起使用。对于本练习,您不必熟悉朴素贝叶斯或者 Katie 演示的代码,而是要熟悉 sklearn 的布局,以便之后能评估和验证任何数据模型。
在即将开始的“监督式机器学习”课程中,我们会更详细地介绍朴素贝叶斯以及其他有用的受监督模型,并运用我们在本课程中学到的知识评估每个模型的优缺点。
如果想提前了解一下朴素贝叶斯,请查看此链接。
sklearn使用入门
在谷歌上搜索“sklearn naive bayes”即可。
高斯朴素贝叶斯示例
http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html
有关地形数据的高斯 NB 部署
studentMain.py
1 | # -*- coding: UTF-8 -*- |
class_vis.py
1 | # -*- coding: UTF-8 -*- |
prep_terrain_data.py
1 | # -*- coding: UTF-8 -*- |
ClassifyNB.py
1 | # -*- coding: UTF-8 -*- |