监督学习

定义:

监督学习是一种基于已标记数据进行训练的机器学习方法。训练数据由输入特征和对应的目标输出(标签)组成,模型的目标是学习输入与输出之间的映射关系,以便对新数据进行准确的预测。

无监督学习

定义:

无监督学习是在没有预先标记的数据上进行训练的机器学习方法。模型需要自行发现数据的结构、模式或分布,以揭示数据中的隐藏信息。

自监督学习(额外补充)

定义:

自监督学习是一种特殊的无监督学习,模型从数据本身生成标签进行训练,旨在学习数据的有效表示。

特点:

Read more »

给定一个训练集,对新输入的实例,在训练集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,我们就把该输入实例分为这个类。

算法描述

输入:训练数据集 $T = {x_1, y_1, x_2, y_2, \dots, x_N, y_N}$,其中 $x_i \in X$ 为实例的特征向量,$y_i \in {c_1, c_2, \dots, c_m}$ 为实例的类别;实例特征向量 $x$

输出:实例 $x$ 所属的类别 $y$

  1. 根据给定的距离度量方式,在训练集 $T$ 中找到与 $x$ 最邻近的 $k$ 个点,涵盖着 $k$ 个点的区域记住 $N_k(x)$

  2. 在 $N_k(x)$ 中根据分类决策规则决定 $x$ 的类别 $y$

$$y = \underset{c_j}{\arg\max} \sum_{x_i \in N_k(x)} I(y_i = c_j)$$

其中 $I(y_i = c_j)$ 为指示函数,当 $y_i = c_j$ 的时候 $I = 1$,否则 $I = 0$

KNN的基本要素

对于一个确定的训练集,只要确定了距离度量、k值和分类决策规则,就能对任何一个新的实例,确定它的分类。

距离度量

Read more »