MNIST手写数字识别实战：逻辑回归、SVM与CNN对比

MNIST 是机器学习领域最经典的数据集之一，被称为”Hello World”级别的入门任务。本文将通过实战，使用三种不同的模型——逻辑回归、SVM 和 CNN——来完成手写数字识别，并从准确率、训练效率、泛化能力等多个维度进行对比分析。

实验环境

本实验使用 Python 语言，选用两个主流框架：

scikit-learn（v1.8.0）：用于构建逻辑回归模型和 SVM 模型。scikit-learn 是 Python 最流行的机器学习库之一，提供了简单高效的分类、回归、聚类等算法实现。
TensorFlow/Keras（v2.21.0）：用于构建 CNN 卷积神经网络模型。Keras 作为 TensorFlow 的高级 API，用几行代码就能搭建复杂的神经网络。

数据准备

MNIST 数据集包含 70000 张 28×28 像素的手写数字灰度图片，涵盖 0~9 共 10 个类别。实验中将前 60000 张作为训练集，后 10000 张作为测试集。

对于逻辑回归和 SVM 模型，每张图片被展开为 784 维特征向量；对于 CNN 模型，保留原始的 28×28×1 灰度图像格式。所有像素值归一化到 0~1 范围。

模型一：逻辑回归

逻辑回归虽然名字带”回归”，实际上是一种经典的线性分类算法。本实验使用 scikit-learn 的 LogisticRegression，参数设置：

max_iter=100：最大迭代次数
solver='lbfgs'：优化器

核心训练代码

from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter=100, solver="lbfgs")
logistic_model.fit(X_train, y_train)
joblib.dump(logistic_model, "models/logistic_regression_mnist.pkl")

训练耗时约 8.50 秒。

模型二：支持向量机（SVM）

支持向量机通过寻找最大化类别间隔的超平面来进行分类。使用 LinearSVC 构建线性 SVM：

核心训练代码

from sklearn.svm import LinearSVC

svm_model = LinearSVC(C=1.0, max_iter=3000)
svm_model.fit(X_train, y_train)
joblib.dump(svm_model, "models/linear_svm_mnist.pkl")

训练耗时约 38.50 秒，明显比逻辑回归慢。

模型三：卷积神经网络（CNN）

CNN 更适合图像任务，因为它能通过卷积层提取边缘、笔画、形状等局部特征。使用 Keras Sequential 模型：

核心训练代码

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout

cnn_model = Sequential([
    Conv2D(32, kernel_size=(3, 3), activation="relu", input_shape=(28, 28, 1)),
    MaxPooling2D(pool_size=(2, 2)),
    Conv2D(64, kernel_size=(3, 3), activation="relu"),
    MaxPooling2D(pool_size=(2, 2)),
    Flatten(),
    Dense(128, activation="relu"),
    Dropout(0.5),
    Dense(10, activation="softmax")
])

cnn_model.compile(optimizer="adam", loss="categorical_crossentropy", metrics=["accuracy"])
cnn_model.fit(X_train, y_train_cat, epochs=5, batch_size=128, validation_split=0.1)
cnn_model.save("models/cnn_mnist.keras")

训练耗时约 34.61 秒。

模型评估与对比

在 MNIST 测试集（10000 张图片）上，使用 Accuracy、Precision、Recall 和 F1-Score 四个指标进行评估：

模型对比结果

模型	Accuracy	训练时间
逻辑回归	blue	8.50s
SVM	green	38.50s
CNN	red	34.61s

CNN 的评估结果如下：

CNN评估结果

三个模型在测试集上都达到了 91% 以上的准确率，说明 MNIST 是一个相对成熟的数据集。但 CNN 的各项指标接近 0.99，明显优于两个传统模型。

混淆矩阵分析

混淆矩阵能直观展示模型在每个数字类别上的分类表现，对角线越亮说明识别越准确。

逻辑回归混淆矩阵：

逻辑回归混淆矩阵

SVM混淆矩阵：

SVM混淆矩阵

CNN混淆矩阵：

CNN混淆矩阵

从混淆矩阵可以看出，三个模型的大部分预测都集中在对角线上。逻辑回归和 SVM 在数字 4/9、5/6、7/3 等形态相似的数字之间仍存在一定的误判。而 CNN 的混淆矩阵对角线更加集中，误分类数量明显更少。

自制手写数字测试

标准测试集表现好 ≠ 实际效果好。为了检验模型的真实泛化能力，我用画图工具手写了 0~9 共 10 张数字图片：

自制手写数字图片

图片预处理

自制图片不能直接输入模型——它们是白底黑字的大画布，而 MNIST 是 28×28 的黑底白字灰度图。我设计了一套预处理流程：

读取图片并转为灰度图
自动寻找数字笔画区域，裁剪多余空白
保持比例缩放到 20×20 以内
居中放入 28×28 白色画布
反色处理，使白底黑字接近 MNIST 的黑底白字
像素值归一化到 0~1

核心预处理代码：

核心预处理代码

def preprocess_image(image_path):
    img = Image.open(image_path).convert("L")
    arr = np.array(img)
    mask = arr < 250  # 找到数字区域

    rows = np.where(mask.any(axis=1))[0]
    cols = np.where(mask.any(axis=0))[0]
    
    # 裁剪数字区域
    img = img.crop((cols[0], rows[0], cols[-1] + 1, rows[-1] + 1))
    img.thumbnail((20, 20))  # 保持比例缩放

    # 居中放入 28×28 画布
    new_img = Image.new("L", (28, 28), color=255)
    paste_left = (28 - img.width) // 2
    paste_top = (28 - img.height) // 2
    new_img.paste(img, (paste_left, paste_top))

    # 反色 + 归一化
    new_img = ImageOps.invert(new_img)
    arr = np.array(new_img).astype("float32") / 255.0
    return arr.reshape(1, -1)