根据数据集组成不同,可以把机器学习算法分为:
监督学习无监督学习半监督学习强化学习定义:输入数据是由输入特征值和目标值所组成。
(资料图片)
函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。
例如:预测房价,根据样本集拟合出一条连续曲线。
例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。
定义:输入数据是由输入特征值组成,没有目标值。
输入数据没有被标记,也没有确定的结果。样本数据类别未知;需要根据样本间的相似性对样本集进行类别划分。有监督,无监督算法对比:
定义:训练集同时包含有标记样本数据和未标记样本数据。
监督学习训练方式:
半监督学习训练方式:
定义:实质是make decisions 问题,即自动进行决策,并且可以做连续决策。
举例:
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素:agent, action, reward, environment, observation;
强化学习的目标就是获得最多的累计奖励。
监督学习和强化学习的对比
监督学习 | 强化学习 | |
|---|---|---|
反馈映射 | 输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出。 | 输出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。 |
反馈时间 | 做了比较坏的选择会立刻反馈给算法。 | 结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏。 |
输入特征 | 输入是独立同分布的。 | 面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入。 |
视点!流行性感冒预防知识有哪些 预防流感的4个重要原则
世界看热讯:怎么保存豆腐不烂不坏 豆腐如何保存
世界快看点丨栗子熟了为什么不是黄色的?
天天微动态丨浙江多地发放春节“就地过年”消费券 支持企业稳岗留工
今日精选:天奈科技: 天奈科技关于召开2023年第一次临时股东大会的通知
【环球新要闻】乌鲁木齐今年粮食作物种植面积较去年增幅26.34% 产量增幅27.21%
天天滚动:航民股份(600987)12月26日主力资金净卖出343.75万元
世界观焦点:今日收涨后是什么虽需再观察但是
环球新消息丨“新十条”全面落地实施 九毛九再捐百万抗疫物资
【全球播资讯】“魔法头像”让人欢喜让人忧
【天天快播报】Meta花7.25亿美元摆平剑桥分析丑闻诉讼:创历史最高金额
环球动态:借呗贷款逾期2个月拖欠多久上征信
天天观点:一路走好!知名导演谢晋儿子因新冠去世,其他三个儿女也英年早逝
每日简讯:盗窃300元应判多久
天天速读:中科环保董秘回复:2022年公司主要项目情况
世界今热点:智慧城市板块12月22日跌0.08%,恒锋信息领跌,北向资金增持6.09亿元
世界消息!4.1GW!全球最大海上风电场刷新
全球快播:大兴·星光城推出二期新品
热资讯!广西谋求将边境一线打造成世界一流旅游目的地
环球报道:云南能投董秘回复:截至2022年12月20日,公司合并普通账户和融资融券信用账户持有人数为36,113