迁移回来了

2026-04-23 13:39:28 +08:00
commit 35aa1b3559
250 changed files with 17010 additions and 0 deletions
@@ -0,0 +1,195 @@
+---
+title: "朴素贝叶斯算法 讲解及示例（课程作业）"
+description: 
+date: 2026-04-12T22:10:40+08:00
+image: 
+math: 
+license: 
+rooms: 
+    - '书房' 
+hidden: false
+comments: false
+draft: false
+---
+### 朴素贝叶斯算法
+#### 1.简介
+朴素贝叶斯算法的原理，是通过贝叶斯公式$$\underbrace{P(Y|X)}_{{后验}} = \frac{\overbrace{P(X|Y)}^{{似然}}\cdot\overbrace{P(Y)}^{先验}}{\underbrace{P(X)}_{证据}}$$由
+- “先验”$P(Y_j)$（样本中目标事件$Y_j$的发生频率）
+- “似然”$P(X_i|Y_j)$（样本中目标事件$Y_j$发生时，各“证据”$X_i$的出现频率）
+
+计算得到“后验”$P(Y_j|X_i)$（给定待判断的“证据”$X_i$，该“证据”出现的情况下目标事件$Y_j$的发生概率），通过比较后验的大小，来判断该“证据”出现的情况下最可能发生什么事件。  
+由于$P(X_i)$固定，实际上只需要计算固定$i$下的$P(Y_jX_i)$（被称为“联合概率”）并比较大小，最大的$P(Y_jX_i)$对应的$Y_j$即为判断结果。  
+#### 2.“朴素”的理解
+“朴素”的含义，是各个“证据”$X_i$的发生是相互“条件独立”事件。也就是说，在“条件”事件$Y_j$发生下，各个“证据”$X_i$的发生是相互独立事件。公式为： $$P(X_mX_n|Y_j)=P(X_m|Y_j)\cdot P(X_n|Y_j)$$
+这直接决定了给定多个待判断的“证据”$x_1,x_2,\cdots,x_n$时，“后验”$P(Y_j|x_1x_2\cdots x_n)$的计算公式：$$
+P(Y_j|x_1x_2\cdots x_n)=P(Y_j)\cdot\frac{\Pi_{k=1}^nP(x_k|Y_j)}{P(x_1\cdots x_n)}
+$$
+（本文以“多项式”朴素贝叶斯算法为例，其它类别还有“高斯”（“证据”在区间内连续分布）以及“伯努利”（“证据”只有0和1））
+实际上只需要计算“联合概率”$P(Y_j)\cdot\Pi_{k=1}^nP(x_k|Y_j)$。  
+由于计算机的浮点数精度误差，为了防止过多连乘把上述结果约成0，一般取对数，比较不同$Y_j$下$\ln P(Y_j)+\Sigma_{k=1}^n\ln P(x_k|Y_j)$的大小，来判断给定证据$x_1,x_2,\cdots,x_n$下最可能出现哪个$Y_j$。  
+简单来说，“朴素”决定多“证据”下“后验”的计算公式。
+#### 3.“似然”的计算讲解
+由于“先验”$P(Y_j)$可以直接通过统计得到，“后验”$P(Y_j|X_i)$由上述公式计算而得，因此算法的技术主要在于“似然”$P(X_i|Y_j)$的计算。  
+一个比较常用的技术是：**拉普拉斯平滑**。这个技术被用来解决某个$P(X_i|Y_j)=0$的情况，也就是在样本中，某个事件$Y_j$下，某个“证据”$X_i$从未出现过的情况。  
+若放任$P(X_i|Y_j)=0$，可能会在给出待判断“证据”$X_i$时，$\ln P(X_i|Y_j)$不存在，以及所有的$P(Y_jX_i)=0$，无法通过比较得出目标$Y_j$。  
+为了解决这个问题，在计算“似然”$P(X_i|Y_j)$时，将每个$X_i$的出现频数增加1（被称为$\alpha=1$的拉普拉斯平滑，最为常用），得到新的“似然”计算公式：$$
+P(X_i|Y_j)=\frac{N(X_i|Y_j)+1}{N(Y_j)+m}
+$$
+其中$m$表示所有会出现的“证据”$X_i$的种类数。
+#### 4.示例与相关代码
+问题：判断一封邮件是**垃圾邮件（Spam）**，还是**正常邮件（Ham）**。
+已知的样本数据：
+| 邮件 | 类别 | 包含的单词 |
+|------|------|-----------|
+| 邮件1 | Spam | 免费，优惠 |
+| 邮件2 | Spam | 免费 |
+| 邮件3 | Ham | 你好 |
+| 邮件4 | Ham | 优惠，你好 |
+
+所有“证据”：**免费、优惠、你好**$\to m=3$
+1. 计算先验$P(Y_j)$
+   根据样本数据：$P(Spam)=\frac{1}{2},P(Ham)=\frac{1}{2}$。
+2. 计算似然$P(X_i|Y_j)$（使用$\alpha=1$的拉普拉斯平滑）：
+   **Spam**：
+$$\begin{align*}
+P(免费|Spam)=\frac{2+1}{3+3}&=\frac{1}{2}\\
+P(优惠|Spam)=\frac{1+1}{3+3}&=\frac{1}{3}\\
+P(你好|Spam)=\frac{0+1}{3+3}&=\frac{1}{6}
+\end{align*}
+$$
+**Ham**：
+$$\begin{align*}
+P(免费|Ham)=\frac{0+1}{3+3}&=\frac{1}{6}\\
+P(优惠|Ham)=\frac{1+1}{3+3}&=\frac{1}{3}\\
+P(你好|Ham)=\frac{2+1}{3+3}&=\frac{1}{2}
+\end{align*}
+$$
+1. 用“朴素”条件独立假设计算后验
+   1. 示例邮件：包含“证据”：**免费、你好**
+    首先计算每个事件对应的“联合概率”$P(Y_j)\cdot\Pi_{k=1}^n(x_k|Y_j)$
+    **Spam**事件：$$\begin{align*}
+    &P(Spam)P(免费|Spam)P(你好|Spam)\\
+    &=\frac{1}{2}\cdot\frac{1}{2}\cdot\frac{1}{6}\\
+    &=\frac{1}{24}
+    \end{align*}
+    $$
+    （使用对数：$\ln P(Spam)+\ln P(免费|Spam)+\ln P(你好|Spam)=-\ln24$）  
+    **Ham**事件：$$\begin{align*}
+    &P(Ham)P(免费|Ham)P(你好|Ham)\\
+    &=\frac{1}{2}\cdot\frac{1}{6}\cdot\frac{1}{2}\\
+    &=\frac{1}{24}
+    \end{align*}
+    $$
+    （使用对数：$\ln P(Ham)+\ln P(免费|Ham)+\ln P(你好|Ham)=-\ln24$）  
+    两者相等，说明有相等把握认为该邮件为Spam或Ham。
+   2. 示例邮件：包含“证据”：**免费、优惠**
+    首先计算每个事件对应的“联合概率”$P(Y_j)\cdot\Pi_{k=1}^n(x_k|Y_j)$
+    **Spam**事件：$$\begin{align*}
+    &P(Spam)P(免费|Spam)P(优惠|Spam)\\
+    &=\frac{1}{2}\cdot\frac{1}{2}\cdot\frac{1}{3}\\
+    &=\frac{1}{12}
+    \end{align*}
+    $$
+    （使用对数：$\ln P(Spam)+\ln P(免费|Spam)+\ln P(优惠|Spam)=-\ln12$）  
+    **Ham**事件：$$\begin{align*}
+    &P(Ham)P(免费|Ham)P(优惠|Ham)\\
+    &=\frac{1}{2}\cdot\frac{1}{6}\cdot\frac{1}{3}\\
+    &=\frac{1}{36}
+    \end{align*}
+    $$
+    （使用对数：$\ln P(Ham)+\ln P(免费|Ham)+\ln P(优惠|Ham)=-\ln36$）  
+    $\frac{1}{12}>\frac{1}{36}$或$-\ln12>-\ln36$，表明最有可能是Spam。  
+
+示例代码：
+```matlab
+X_train=[                   % 训练样本（每行代表一封邮件，每列代表一个关键词）
+    1,      1,      0;  % Spam
+    1,      0,      0;  % Spam
+    0,      0,      1;  % Ham
+    0,      1,      1;  % Ham
+];%“免费”   “优惠”  “你好”
+y_train=[1,1,0,0]';         % 标签：1表示垃圾邮件，0表示正常邮件
+n_samples=length(y_train);
+n_spam=sum(y_train==1);
+n_ham=sum(y_train==0);      % 计算先验概率
+P_spam=n_spam/n_samples;    % P(Spam)
+P_ham=n_ham/n_samples;      % P(Ham)
+alpha=1,m=3;                % 拉普拉斯平滑法计算似然概率
+% 分别统计 Spam 和 Ham 类中每个特征的出现次数
+spam_samples = X_train(y_train == 1, :);  % Spam类样本
+ham_samples = X_train(y_train == 0, :);   % Ham类样本
+
+% 计算各类别的总词数（分母 N(Y_j)）
+N_spam = sum(sum(spam_samples));   % Spam类总词数 = 3
+N_ham = sum(sum(ham_samples));     % Ham类总词数 = 3
+
+% 计算每个特征在各类别中出现的次数（分子 N(X_i|Y_j)）
+N_feat_spam = sum(spam_samples, 1);  % [2, 1, 0]
+N_feat_ham = sum(ham_samples, 1);    % [0, 1, 2]
+
+% 应用拉普拉斯平滑公式：P(X_i|Y_j) = (N(X_i|Y_j) + alpha) / (N(Y_j) + alpha*m)
+P_feat_spam = (N_feat_spam + alpha) / (N_spam + alpha * m);  % [0.5, 0.333, 0.167]
+P_feat_ham = (N_feat_ham + alpha) / (N_ham + alpha * m);     % [0.167, 0.333, 0.5]
+
+% 测试邮件1：包含 [免费, 你好]
+test_mail_1 = [1, 0, 1];  % 免费=是，优惠=否，你好=是
+fprintf('测试邮件1：[免费, 你好]\n');
+
+% 计算联合概率（非对数形式）
+joint_spam_1 = P_spam * prod(P_feat_spam(test_mail_1 == 1));
+joint_ham_1 = P_ham * prod(P_feat_ham(test_mail_1 == 1));
+
+% 计算对数形式（防止数值下溢）
+log_joint_spam_1 = log(P_spam) + sum(log(P_feat_spam(test_mail_1 == 1)));
+log_joint_ham_1 = log(P_ham) + sum(log(P_feat_ham(test_mail_1 == 1)));
+
+fprintf('  联合概率: Spam=%.4f, Ham=%.4f\n', joint_spam_1, joint_ham_1);
+fprintf('  对数形式: Spam=%.4f, Ham=%.4f\n', log_joint_spam_1, log_joint_ham_1);
+if joint_spam_1 > joint_ham_1
+    fprintf('  → 预测结果: 垃圾邮件(Spam)\n');
+elseif joint_spam_1 < joint_ham_1
+    fprintf('  → 预测结果: 正常邮件(Ham)\n');
+else
+    fprintf('  → 预测结果: 无法判断（概率相等）\n');
+end
+
+fprintf('\n');
+
+% 测试邮件2：包含 [免费, 优惠]
+test_mail_2 = [1, 1, 0];  % 免费=是，优惠=是，你好=否
+fprintf('测试邮件2：[免费, 优惠]\n');
+
+joint_spam_2 = P_spam * prod(P_feat_spam(test_mail_2 == 1));
+joint_ham_2 = P_ham * prod(P_feat_ham(test_mail_2 == 1));
+
+log_joint_spam_2 = log(P_spam) + sum(log(P_feat_spam(test_mail_2 == 1)));
+log_joint_ham_2 = log(P_ham) + sum(log(P_feat_ham(test_mail_2 == 1)));
+
+fprintf('  联合概率: Spam=%.4f, Ham=%.4f\n', joint_spam_2, joint_ham_2);
+fprintf('  对数形式: Spam=%.4f, Ham=%.4f\n', log_joint_spam_2, log_joint_ham_2);
+if joint_spam_2 > joint_ham_2
+    fprintf('  → 预测结果: 垃圾邮件(Spam)\n');
+elseif joint_spam_2 < joint_ham_2
+    fprintf('  → 预测结果: 正常邮件(Ham)\n');
+else
+    fprintf('  → 预测结果: 无法判断（概率相等）\n');
+end
+```
+运行结果：
+```
+测试邮件1：[免费, 你好]
+  联合概率: Spam=0.0417, Ham=0.0417
+  对数形式: Spam=-3.1781, Ham=-3.1781
+  → 预测结果: 无法判断（概率相等）
+
+测试邮件2：[免费, 优惠]
+  联合概率: Spam=0.0833, Ham=0.0278
+  对数形式: Spam=-2.4849, Ham=-3.5835
+  → 预测结果: 垃圾邮件(Spam)
+```
+与手动计算相吻合。
+#### 5.应用场景
+- 文本分类：垃圾邮件识别、情感分析、新闻分类
+- 推荐系统：基于用户行为的兴趣分类
+- 医疗诊断：根据症状初步判断疾病
+- 信用评估：判断用户是否会违约