有监督学习、无监督学习
有监督学习、无监督学习
什么是有监督学习、无监督学习
一、有监督学习(Supervised Learning)
1.1定义
在监督学习中,模型使用标记数据集进行训练,其中模型学习每种类型的数据。训练过程完成后,模型会根据测试数据(训练集的子集)进行测试,然后预测输出。
.
.
1.2.监督学习的步骤
首先确定训练数据集的类型
收集/收集标记的训练数据(一般可能需要手动标记)
将训练数据集拆分为训练数据集、测试数据集和验证数据集。
确定训练数据集的输入特征,这些特征应该有足够的知识使模型能够准确地预测输出。
确定适合模型的算法,如支持向量机、决策树等。
在训练数据集上执行算法。有时我们需要验证集作为控制参数,它们是训练数据集的子集。
通过提供测试集来评估模型的准确性。如果模型预测出正确的输出,这意味着我们的模型是准确的。
.
.
1.3算法的类型
监督学习可以进一步分为两类问题:回归和分类。
1.回归
如果输入变量和输出变量之间存在关系,则使用回归算法。它用于预测连续变量,例如天气预报、市场趋势等。以下是一些流行的回归算法,它们属于监督学习:
线性回归 回归树 非线性回归 贝叶斯线性回归 多项式回归
2.分类
当输出变量是分类时使用分类算法,这意味着有两个类别,例如是 - 否,男性 - 女性,真假等。垃圾邮件过滤,是否为垃圾等。
可能用到的算法:
随机森林 决策树 逻辑回归 支持向量机
常见的「有监督学习」的机器学习方法
支持向量机(Support Vector Machines)
神经网络算法(Neural network algorithm)
线性回归(linear regression)
逻辑回归(logistic regression)
朴素贝叶斯(naive Bayes)
线性判别分析(linear discriminant analysis)
决策树(decision trees)
K-近邻(k-nearest neighbor algorithm)
.
.
1.4.算法的优缺点
监督学习的优点
在监督学习的帮助下,模型可以根据先前的经验预测输出。
在监督学习中,我们可以对对象的类别有一个准确的认识。
监督学习模型帮助我们解决各种现实问题,例如欺诈检测、垃圾邮件过滤等。
训练数据都是有标注的,花费较多。
监督学习的缺点
监督学习模型不适合处理复杂的任务。
如果测试数据与训练数据集不同,监督学习无法预测正确的输出。
训练需要大量的计算时间。
在监督学习中,我们需要足够的关于对象类别的知识。
训练数据都是有标注的,花费较多。
.
.
.
二、 无监督学习(Unsupervised Learning)
2.1.定义
其中模型使用未标记的数据集进行训练,并允许在没有任何监督的情况下对该数据进行操作,模型本身会从给定数据中找到隐藏的模式和见解。它可以比作在学习新事物时发生在人脑中的学习。
.
2.2算法的类型
无监督学习算法可以进一步分为两类问题:聚类和关联
聚类:聚类是一种将对象分组为聚类的方法,使得具有最多相似性的对象保留在一个组中,并且与另一组的对象具有较少或没有相似性。聚类分析发现数据对象之间的共性,并根据这些共性的存在和不存在对它们进行分类。
关联:关联规则是一种无监督学习方法,用于查找大型数据库中变量之间的关系。它确定在数据集中一起出现的项目集。关联规则使营销策略更加有效。例如购买 X 商品(假设是面包)的人也倾向于购买 Y(黄油/果酱)商品。关联规则的一个典型例子是市场篮子分析。
无监督学习算法
以下是一些流行的无监督学习算法:
K-means 聚类
KNN(k-最近邻)
层次聚类
异常检测
神经网络
主成分分析
独立成分分析
先验算法
奇异值分解
常见的「无监督学习」的机器学习方法如下:
聚类
主成分分析方法(PCA)
密度估计(Density Estimation)
异常检测(Anomaly Detection)
.
.
2.3算法优缺点
无监督学习的优势
与监督学习相比,无监督学习用于更复杂的任务,因为在无监督学习中,我们没有标记的输入数据。
无监督学习更可取,因为与标记数据相比,它更容易获得未标记数据。
无监督学习的缺点
无监督学习本质上比监督学习更难,因为它没有相应的输出。
无监督学习算法的结果可能不太准确,因为输入数据没有标记,并且算法事先不知道确切的输出。
原文链接:http://t.csdn.cn/HZMJ3此文更加详细全面
本文参考上文大部
更多推荐
所有评论(0)