文字点选验证码模型训练指南

本指南旨在为训练文字点选验证码（Word Image Click Captcha）识别模型提供架构建议、数据准备策略及训练流程指导。

1. 问题分析

文字点选验证码通常包含两个部分：

提示图（Prompt/Target）：展示需要点击的文字（通常是1-3个汉字）。
背景图（Background）：包含若干个经过扭曲、干扰处理的文字，用户需要按照提示图的顺序点击背景图中的对应文字。

核心任务是：在背景图中找到与提示图语义或形状匹配的文字位置。

2. 推荐模型架构

针对此类问题，主要有两种主流的技术路线：

方案 A：孪生网络 (Siamese Network) —— 推荐

由于汉字数量巨大（常用字约3500个），且验证码中的字体变化多端，直接进行几千类的分类任务（Classification）往往需要海量标注数据，且对生僻字泛化能力差。

孪生网络通过学习“图像相似度”来解决问题，而不是学习“这是什么字”。

原理：将“提示文字”和“背景中的候选文字”分别输入同一个特征提取网络（如 ResNet18/ResNet50），提取出高维特征向量。计算两个向量的距离（欧氏距离或余弦相似度）。距离越小，代表两个字越相似。
优点：
- 支持 Few-Shot/Zero-Shot：即使训练集中没见过的字，只要字体风格相似，也能判断它们是同一个字。
- 数据利用率高：通过构造正负样本对进行训练。
网络结构建议：
- Backbone: ResNet18 或 MobileNetV3 (轻量高效)。
- Head: 全连接层降维 (如降至 128 维或 256 维)。
- Loss Function: Triplet Margin Loss (三元组损失) 或 Contrastive Loss。

方案 B：目标检测 (YOLO系列)

如果背景图中的文字位置不固定（不是固定的网格布局），或者背景干扰极其严重，可以使用目标检测模型。

原理：直接训练 YOLO 模型检测背景图中的“文字”对象。
用法：
1. 单类检测：训练 YOLO 只检测“文字”这一类，输出所有文字的坐标 (Bounding Box)。
2. 后续匹配：将检测出的文字区域裁剪下来，再通过上述的孪生网络或简单的CNN分类器与提示字进行匹配。
模型建议：YOLOv8n 或 YOLOv11n (Nano版本)，速度极快，适合实时验证。

方案 C：端到端分类 (Classification)

如果验证码的字符集较小（例如只有数字或少量汉字），可以直接训练一个多分类网络。

原理：输入图片，输出类别索引。
局限性：不适合数千类的汉字识别，除非有百万级的标注数据。

3. 数据准备 (Data Preparation)

数据是模型效果的关键。建议结合真实数据和合成数据。

3.1 真实数据采集

来源：利用现有的自动化脚本收集验证失败和成功的图片。
标注：
- 对于 YOLO：使用 LabelImg 或 AnyLabeling 标注文字坐标。
- 对于孪生网络/分类：将背景图切分为单独的小图，并按文件夹分类（例如 dataset/A/01.jpg, dataset/B/02.jpg）。

3.2 合成数据 (Synthetic Data) —— 核心策略

由于真实样本覆盖所有汉字很难，强烈建议通过代码生成合成数据。

素材：收集 50-100 种常用中文字体文件 (.ttf)。
背景：收集各种噪点背景、干扰线、纹理图。
生成流程：
1. 随机选取一个汉字。
2. 随机选取一种字体。
3. 进行随机变换：旋转 (-30°~+30°)、缩放、弹性形变 (Elastic Transform)、高斯模糊、椒盐噪声。
4. 粘贴到随机背景上。
规模：建议生成 2万+ 张小图用于预训练。

4. 训练流程建议 (Training Pipeline)

以 孪生网络 (Metric Learning) 为例：

第一阶段：数据预处理

尺寸归一化：将所有文字小图 Resize 到统一尺寸（如 64x64 或 128x128）。
灰度化：如果颜色不重要，转为单通道灰度图以减少计算量。
增强：在训练时实时进行数据增强（ColorJitter, RandomAffine）。

第二阶段：模型构建

使用 PyTorch 或 TensorFlow 构建模型。建议使用 PyTorch。

加载预训练的 ResNet18 (pretrained=True)。
修改最后的全连接层 (fc)，输出维度设为 128。

第三阶段：训练 (Training)

构建三元组 (Anchor, Positive, Negative)：
- Anchor: 提示图中的字（或合成的标准字）。
- Positive: 背景图中对应的正确字（经过扭曲的）。
- Negative: 背景图中其他的错误字。
优化器：AdamW, Learning Rate = 1e-3 (配合 CosineAnnealingLR)。
Loss：TripletLoss(margin=1.0)。
Batch Size：建议 64 或 128。

第四阶段：验证与测试

使用验证集评估准确率。
关键指标：Top-1 Accuracy（在N个候选字中，与Anchor距离最小的那个字是否是正确答案）。

5. 部署

导出：训练完成后，将模型导出为 ONNX 格式，以获得更快的推理速度和跨平台能力。