特征缩放迷你项目

项目简介

在上一个项目中,你将安然人物的财务数据作为输入,对这些人物执行了 k-均值聚类。我们将更新那部分工作,以包含被缩放的特征,看看会有怎样的变化。

缩放类型

回顾 K-均值聚类迷你项目最后一部分。我们当时没有详细探讨缩放算法而部署了缩放,但是你现在更加了解具体的缩放算法了,并且可以分析出我们使用的是哪类缩放。

哪类缩放被部署了?

计算重缩放特征

对你在上一节课中的 k 均值聚类代码的“salary”和“exercised_stock_options”特征(仅这两项特征)运用特征缩放。 原始值为 20 万美元的“salary”特征和原始值为 1 百万美元的“exercised_stock_options”特征的重缩放值会是多少? (确保呈现浮点型而非整数型数字!)
答:0.17962407,0.02902059

何时部署特征缩放

有人可能会质疑是否必须重缩放财务数据,也许我们希望 10 万美元的工资和 4 千万美元的股票期权之间存在巨大差异。如果我们想基于“from_messages”(从一个特定的邮箱帐号发出的电子邮件数)和“salary”来进行集群化会怎样? 在这种情形下,特征缩放是不必要的,还是重要的?
答:重要的。

源码分享

https://github.com/voidking/ud120-projects

书签

机器学习入门
https://cn.udacity.com/course/intro-to-machine-learning--ud120

0%