为何要学习新算法?
任何数据分析师具备的一项关键技能就是不断从机器学习中得到新的认识,这也是本节课的学习目标。这节课的内容是一个迷你项目。目标是用你选择的算法来做地形分类,并由你自己进行研究和部署。
可选的算法如下:
1、k nearest neighbors(k 最近邻 或 KNN)
2、random forest(随机森林)
3、adaboost(有时也叫“被提升的决策树”)
我们无法检查你的结果,因为你有太多的算法和参数组合可以尝试了,但是你看到过我们上一个算法(朴素贝叶斯、SVM、决策树)所得出的准确率,因此你可以自行评估新的算法是否更好。
你将在 choose_your_own/your_algorithm.py 文件中寻找初始代码来准备你的数据。以下视频还给出了更多你应该遵循的算法和过程的细节,不过你需要自行去发现。祝你好运!
学习算法的步骤
1、搜索相关资料,大致了解这个算法,能够向朋友解释这个算法。
2、查找sklearn中关于这个算法的文档,运行文档给的demo。
3、使用算法对实际问题进行预测。
4、对算法进行评估,准确率和速度。
挑战
我们使用任一这些算法(朴素贝叶斯、SVM、决策树、AdaBoost、随机森林、KNN)能够获得的最高准确率是 93.6%。这是一个有趣的挑战:你可以打败我们吗?如果可以,请在方框中写下你的方法(算法和参数)。
答:knn算法,准确率94%。
源码分享
https://github.com/voidking/ud120-projects
书签
机器学习入门
https://cn.udacity.com/course/intro-to-machine-learning--ud120