笔记

第2章

笔记

2.1 监督学习的概念

分类问题与回归问题是监督学习框架中最重要的两类问题

2.2 数据集与损失函数

。如何找到这样的f函数的过程叫做优化（optimization），

2.3 泛化

对于在训练的时候没有见过的数据，它也需要有比较好的表现。这样的能力叫做泛化（generalization）。

2.4 过拟合与欠拟合

采取一些措施来降低过拟合的影响。这个过程被称为正则化（regularization）。正则化针对问题的具体特点，采用不同的方法，降低函数的表达能力。

2.6 无监督与半监督学习

聚类，就是对于给定的数据按照某个标准分类
K平均算法的目标是找到一个聚类方案，使得它包含k个聚类，且各个聚类的点到其中心的平均距离尽可能小。
由于K平均算法是一个启发式算法，它不一定总能找到最优的解。但在实际运行过程中，它往往能够给出较好的聚类分配方案。同时，也可以证明K平均算法一定会收敛，因为它每次给出的聚类分配方案中，每个点到中心点的距离都是在不断减小的

练习

优化与泛化的区别

优化和泛化是两个在数学、计算机科学及数据科学中常见但不同的概念。以下是对这两个概念的简单描述和区别。

优化

优化是指在给定约束条件下，寻找某个目标函数的最优解。其核心目的是通过分析和调整系统的各个因素，以达到最佳的效果或性能。优化通常涉及以下几个方面：

目标函数：需要最小化或最大化的量。

决策变量：影响目标函数的变量。

约束条件：限制决策变量取值范围的条件。

泛化

泛化是指将从特定数据集或样本中获得的发现应用于更广泛人群的能力。在统计学和机器学习中，泛化能力是评估模型性能的重要指标。一个好的模型不仅在训练数据上表现良好，还应能在未见过的数据上保持良好的预测能力。泛化涉及：

模式识别：从数据中识别出可用来推断更大群体的模式或趋势。

避免过拟合：确保模型不会仅仅记住训练数据，而是能够有效地处理新数据。

在数据科学中，泛化能力强的模型能够更好地适应变化，提供更准确的预测。

区别

特征优化泛化

定义寻找最优解以实现特定目标将特定样本的发现应用于更广泛人群

目的提高系统效能或性能提高模型对新数据的预测能力

应用领域数学、工程、经济等数据科学、机器学习

关键概念目标函数、决策变量、约束条件模式识别、过拟合

5．请计算以下一维无监督分类问题，已知数据点为1，2，3，6，7，9，请随机选择初始点，利用欧氏距离作为距离函数使用K平均算法计算二分类问题。

6．请计算以下二维无监督分类问题，已知数据点为（0，0），（2，0），（1，9），（3，1），（1，8），（5，6），请随机选择初始点，利用欧氏距离作为距离函数使用K平均算法计算三分类问题。

7．在第5题和第6题中，如果改变距离函数（例如变成L1范数或者其他距离函数），对最后的结果会有什么影响？

在K均值算法中，距离函数的选择对最终的聚类结果有重要影响。欧氏距离（L2范数）是最常用的距离函数，但如果改用其他距离函数（如L1范数、余弦相似度等），可能会导致不同的聚类结果。

问题1：一维无监督分类问题

数据点

1, 2, 3, 6, 7, 9

原结果（欧氏距离）

簇1：1, 2, 3

簇2：6, 7, 9

中心点：2 和 7.33

改用L1范数（曼哈顿距离）

L1范数的计算公式为：( d(x, y) = |x - y| )

第一步：随机选择初始中心点

假设初始中心点仍为2和6。

第二步：分配数据点到最近的簇

计算每个数据点到中心点的L1距离，并分配簇。

数据点距离C1 (2) 距离C2 (6) 分配簇

1 1 - 2 1 - 6 1

2 2 - 2 2 - 6 1

3 3 - 2 3 - 6 1

6 6 - 2 6 - 6 2

7 7 - 2 7 - 6 2

9 9 - 2 9 - 6 2

分配结果：

簇1：1, 2, 3

簇2：6, 7, 9

第三步：更新中心点

计算每个簇的新中心点（L1范数的中心点是中位数）。

簇1的中位数：2

簇2的中位数：7

更新后的中心点： - 中心点1（C1）：2 - 中心点2（C2）：7

第四步：重新分配数据点

重新计算距离并分配簇。

数据点距离C1 (2) 距离C2 (7) 分配簇

1 1 6 簇1

2 0 5 簇1

3 1 4 簇1

6 4 1 簇2

7 5 0 簇2

9 7 2 簇2

分配结果不变： - 簇1：1, 2, 3 - 簇2：6, 7, 9

结论

在这个一维问题中，使用L1范数（曼哈顿距离）与欧氏距离的结果相同。这是因为在一维空间中，L1范数和L2范数的排序是一致的。

问题2：二维无监督分类问题

数据点

(0, 0), (2, 0), (1, 9), (3, 1), (1, 8), (5, 6)

原结果（欧氏距离）

簇1：(0, 0)

簇2：(2, 0), (3, 1)

簇3：(1, 9), (1, 8), (5, 6)

中心点：(0, 0), (2.5, 0.5), (2.33, 7.67)

改用L1范数（曼哈顿距离）

L1范数的计算公式为：( d((x_1, y_1), (x_2, y_2)) = |x_1 - x_2| + |y_1 - y_2| )

第一步：随机选择初始中心点

假设初始中心点仍为(0, 0), (2, 0), (1, 9)。

第二步：分配数据点到最近的簇

计算每个数据点到中心点的L1距离，并分配簇。

数据点距离C1 (0,0) 距离C2 (2,0) 距离C3 (1,9) 分配簇

(0,0) 0 2 10 簇1

(2,0) 2 0 10 簇2

(1,9) 10 10 0 簇3

(3,1) 4 2 11 簇2

(1,8) 9 9 1 簇3

(5,6) 11 9 9 簇3

分配结果： - 簇1：(0, 0) - 簇2：(2, 0), (3, 1) - 簇3：(1, 9), (1, 8), (5, 6)

第三步：更新中心点

计算每个簇的新中心点（L1范数的中心点是中位数）。

簇1的中位数：(0, 0)

簇2的中位数：((2 + 3)/2, (0 + 1)/2) = (2.5, 0.5)

簇3的中位数：((1 + 1 + 5)/3, (9 + 8 + 6)/3) = (2.33, 7.67)

更新后的中心点： - 中心点1（C1）：(0, 0) - 中心点2（C2）：(2.5, 0.5) - 中心点3（C3）：(2.33, 7.67)

第四步：重新分配数据点

重新计算距离并分配簇。

数据点距离C1 (0,0) 距离C2 (2.5,0.5) 距离C3 (2.33,7.67) 分配簇

(0,0) 0 3 10 簇1

(2,0) 2 1 10 簇2

(1,9) 10 10 2 簇3

(3,1) 4 1 10 簇2

(1,8) 9 9 1 簇3

(5,6) 11 7 5 簇3

分配结果： - 簇1：(0, 0) - 簇2：(2, 0), (3, 1) - 簇3：(1, 9), (1, 8), (5, 6)

结论

在这个二维问题中，使用L1范数（曼哈顿距离）与欧氏距离的结果相同。这是因为数据点的分布和初始中心点的选择使得两种距离函数的分配结果一致。

总结

一维问题：L1范数和L2范数的结果相同，因为在一维空间中，距离的排序一致。

二维问题：L1范数和L2范数的结果也相同，但这是因为数据分布和初始中心点的选择较为简单。在更复杂的数据分布中，L1范数和L2范数可能会导致不同的聚类结果。

其他距离函数：如果改用其他距离函数（如余弦相似度），结果可能会显著不同，因为余弦相似度关注的是向量的方向而非绝对距离。

特征	优化	泛化
定义	寻找最优解以实现特定目标	将特定样本的发现应用于更广泛人群
目的	提高系统效能或性能	提高模型对新数据的预测能力
应用领域	数学、工程、经济等	数据科学、机器学习
关键概念	目标函数、决策变量、约束条件	模式识别、过拟合

数据点	距离C1 (2)	距离C2 (6)	分配簇
1	1 - 2	1 - 6	1
2	2 - 2	2 - 6	1
3	3 - 2	3 - 6	1
6	6 - 2	6 - 6	2
7	7 - 2	7 - 6	2
9	9 - 2	9 - 6	2

数据点	距离C1 (0,0)	距离C2 (2,0)	距离C3 (1,9)	分配簇
(0,0)	0	2	10	簇1
(2,0)	2	0	10	簇2
(1,9)	10	10	0	簇3
(3,1)	4	2	11	簇2
(1,8)	9	9	1	簇3
(5,6)	11	9	9	簇3