特征选择迷你项目 发表于 2017-02-28 分类于 engineering , machinelearning项目简介Katie 在视频中解释了她在为“作者识别”项目准备 Chris 和 Sara 的邮件时遇到的一个问题, 即一个特征过于强大(就像签名一样,可以说给了算法一个有失公平的优势)。你将在此亲自探究这一发现。 阅读全文 »
文本学习迷你项目 发表于 2017-02-26 分类于 engineering , machinelearning项目简介本节课开始,你使用大量监督式分类算法,根据作者来识别邮件。 在这些项目中,我们为你做了预处理,将输入邮件转换到 TfIdf 中,这样你就能向算法提供这些邮件了。 现在,你将自行完成预处理工作,以便你能从原始数据直接得到经过处理的特征。你将得到两个文本文件:一个包含来自 Sara 的所有邮件,一个包含 Chris 的邮件。 你还将访问 parseOutText() 函数,该函数接受作为参数的已读邮件,并且返回包含邮件中所有(被词干化的)单词的字符串。 阅读全文 »
特征缩放迷你项目 发表于 2017-02-26 分类于 engineering , machinelearning项目简介在上一个项目中,你将安然人物的财务数据作为输入,对这些人物执行了 k-均值聚类。我们将更新那部分工作,以包含被缩放的特征,看看会有怎样的变化。 阅读全文 »
K-均值聚类迷你项目 发表于 2017-02-22 分类于 engineering , machinelearning项目简介在此项目中,我们会将 k-均值聚类应用于安然财务数据。当然,我们最终的目标是识别相关人员;既然我们有了已标记数据,调用 k-均值聚类这种非监督式方法就不成问题。尽管如此,在此项目中,你仍然会获得 k-均值的一些实际操作经验并尝试特征缩放,这会让你预先了解下一课的材料。可在此处找到安然数据集。 阅读全文 »
异常值迷你项目 发表于 2017-02-22 分类于 engineering , machinelearning项目简介此项目有两部分。在第一部分中将运行回归,然后识别并删除具有最大残差的 10% 的点。然后,根据 Sebastian 在课程视频中所建议的,从数据集中删除那些异常值并重新拟合回归。在第二部分中,你将熟悉安然财务数据中的一些异常值,并且了解是否/如何删除它们。 阅读全文 »