麦肯锡风格响应式模板

Python用LoRA微调Gemma4视觉模型用于放射学医学影像问答

2026年6月25日 | 技术文章

本文系统梳理了使用Unsloth工具链对Gemma4视觉语言模型进行LoRA参数高效微调的完整流程，并将其应用于放射学医学影像问答任务。

YouMing Zhang

在东北大学完成了信息与计算科学专业的学位，专注机器学习与深度学习算法领域。擅长Python、matlab等工具。曾在某互联网科技公司担任算法工程师，主导过多项计算机视觉与自然语言处理结合的模型研发项目。

联系我们

成为新会员获取本项目完整代码、数据和AI智能体

加入会员群

本文系统梳理了使用Unsloth工具链对Gemma4视觉语言模型进行LoRA参数高效微调的完整流程，并将其应用于放射学医学影像问答任务。文章回答了以下核心问题：（1）如何基于Unsloth库加载并微调Gemma4视觉语言模型？（2）VQA-RAD放射学影像问答数据集的结构特征与预处理方法是什么？（3）LoRA在医学视觉任务中的参数配置与训练策略如何设计？（4）微调后模型在医学影像问答中的表现边界与局限性有哪些？

Abstract: This article systematically outlines the end-to-end workflow of parameter-efficient fine-tuning for the Gemma 4 vision-language model using Unsloth and LoRA, applied to radiology visual question answering. It addresses the following questions: (1) How to load and fine-tune Gemma 4 VLM with Unsloth? (2) What are the structural characteristics and preprocessing methods for the VQA-RAD radiology QA dataset? (3) How to configure LoRA parameters and design training strategies for medical vision tasks? (4) What are the performance boundaries and limitations of the fine-tuned model on radiology VQA?

本项目完整代码、数据和AI智能体

下载资料(17页)

作为一位长期从事机器学习与数据挖掘领域研究与教学的从业者，我时常在思考一个问题：当开源视觉语言模型以每月一版的节奏迭代时，一线工程师和研究者如何以最低的算力成本、最短的时间投入，将前沿模型适配到特定行业场景？尤其在医学影像这类高门槛、高精度的垂直领域，模型的“通用聪明”与“专业可靠”之间横亘着巨大的鸿沟。

本文关注的正是这一命题。我们将目光投向近期开源的Gemma4高效视觉语言模型，使用Unsloth库的LoRA微调框架，在放射学影像问答数据集上完成参数高效微调的全流程实践。这一工作源自此前我们为某咨询项目完成的技术验证，旨在探索轻量级开源视觉模型在医学影像辅助分析场景中的可行性边界。

本文将我们的LoRA视觉模型微调经验沉淀为一个对话式AI智能体，读者可直接复现完整的微调-推理链路，并在此基础上适配到自身的行业数据集。

侧边栏

LoRA参数高效微调

LoRA（Low-Rank Adaptation，低秩适配）是一种参数高效微调技术。其核心思想是在冻结预训练模型权重的基础上，通过注入两个低秩矩阵（A和B）来模拟参数更新，仅需训练原模型0.1%~1%的参数量即可实现任务适配，大幅降低GPU显存需求和训练成本。秩（r）控制适配能力与参数量的平衡，通常取8~64。

放射学影像问答数据集

本文使用的数据集是一套放射学领域的问题-答案配对数据集。临床医师针对若干放射学影像提出了自然发生的问题，并提供了参考答案。

数据集总计包含 315张医学影像 ，但问题编号多达 2247条——同一张影像可以对应多个不同的提问，这使得数据集的问答密度较高。XML、JSON和XLSX三类文件所含的问答内容一致，后续处理将统一以JSON文件为准。

以下取自JSON文件中首个样本：


 

 

 

 

 

 

 

 
 "phrase_type": "freeform",
 

 

 

 

 

 
 "image_name": "synpic54610.jpg",
 

 

 

 

 

 

 

 
 "question": "Are regions of the brain infarcted?",
 

 

 

 

 

 
 "question_rephrase": "NULL",

上述样本对应的影像如下：

图2. 数据集样本影像。

每个样本包含若干关键字段：image_organ标示检查部位（如头部、胸部、腹部）；question为原始自然语言提问；question_type标明问题类别——包括检查手段、扫描平面、脏器系统、异常检测、目标存在性、位置推理、颜色、尺寸、其他属性、计数等十余种类型；answer为参考答案；answer_type区分封闭式或开放式回答。DOCX说明文件提供了更详尽的数据集元信息。

注释：可以这样理解这个数据集——把它想象成一套“医学影像看图说话”的题库。老师（临床医师）给出一张X光片或CT切面，然后提出一个或多个具体的问题，并附上“标准答案”。我们的目标是训练模型在看到新片子时，也能像实习医生一样给出条理清晰、可靠的回答。

最受欢迎的见解

环境安装

虽然Notebook文件中已包含安装命令，但读者也可提前通过依赖文件批量安装：

pip install -r requirements.txt

完成以上准备即可进入代码环节。

Gemma4视觉模型微调实现

模型加载与LoRA配置

以下为本环节的两轮对话与对应代码。

基础模型加载

需要用到Gemma4视觉语言模型。请帮我用Unsloth库加载gemma-4-E2B-it模型，最大序列长度设为512，不量化、不全参微调。加载完成后打印模型结构概览。

LoRA适配器配置

需要同时微调视觉编码层和语言解码层，包括注意力模块和MLP模块。LoRA秩设为32，缩放因子设为64，不使用dropout，不需量化配置。


 

 

 

 

 

 
 vision_llm, text_encoder = VisionLM.from_pretrained(
 

 

 

 

 

 
 model_name='unsloth/gemma-4-E2B-it',

注释：LoRA（低秩适配）的原理好比给一架已经造好的飞机添加副翼——不需要重造整架飞机（全参微调），只需在关键位置安装小型可调节翼面（低秩矩阵），就可以改变飞行姿态。这里的r=32相当于副翼的“精细度”，lora_alpha=64控制副翼调节的“力度”。之所以选择同时微调视觉和语言两层，是因为医学影像理解需要视觉特征提取和文本生成两个环节协同适配，就像教一个会外语但不懂医的人看片子——既要教他看懂影像（视觉），也要教他用专业术语表达（语言）。

值得注意的是，此处未使用4位量化加载。这是Unsloth库当前的推荐做法。模型以全精度加载时约占用 10GB显存，而后续训练阶段峰值显存约 20GB（含梯度、优化器状态等），在一块24GB显存的GPU上即可完成。

数据集预处理

第一轮对话：数据加载与划分

请帮我读取该JSON文件，转为Pandas数据表查看前几行，再导出为CSV供后续加载。然后用HuggingFace Datasets库加载CSV，打乱后按9:1切分训练集和验证集，打印两个集合的样本数量。


 

 

 

 

 

 

 

 

 

 
 anno_df.to_csv('annotations.csv', index=False)
 

 

 

 

 

 
 full_ds = fetch_dataset('csv', data_files='annotations.csv')['train']

划分得到训练集2023条，验证集225条，总计2248条（含一条因切分方式产生的偏差）。

第二轮对话：构建问答对话格式

数据已划分完毕。接下来我需要将原始样本转换为模型可理解的“用户→助手”对话格式。每条对话的用户部分需要包含系统指令（列出所有问题类型供模型参考）+ 提问文本 + 对应影像；助手部分需要包含结构化的回答：标注器官类型、问题类型、改写问题（如有）和参考答案。请帮我写一个转换函数，并对训练集和验证集分别执行转换。

转换后的一条典型对话样本结构如下：


 

 

 

 
 {'messages': [{'role': 'user',
 

 

 

 

 

 
 'content': [{'type': 'text',
 

 

 

 

 

 
 'text': '根据给定影像回答下列问题。\n......\n提问: Is there biliary duct dilation?'},
 

 

 

 

 

 

 

 
 'image': 'input/osfstorage-archive/VQA_RAD Image Folder/synpic33889.jpg'}]},
 

 

 

 

 

 

 

 
 'content': [{'type': 'text',
 

 

 

 

 

 
 'text': '此问题涉及ABD，问题类型为SIZE。问题也可表述为：Are the biliary ducts dilated?。答案为Yes。'}]}]}

模型通过系统指令知晓所有可能的问题类别，同时每个回答中嵌入了器官类型、问题类型和问题改写信息，为模型提供了充分的上下文线索。

注释：这种构造方式就像在考卷上不仅给出题目，还标注了“考点类型”和“参考表述”——帮助模型在学习时理解“这道题考的是哪个知识点”。对于仅有2000多条训练样本的小数据集，提供这些元信息对模型收敛至关重要。

微调前基准推理

在开始训练前，先在验证集上取10个样本进行一次基准推理，以便后续对比微调效果。

模型和数据已就绪，请帮我在验证集的前10个样本上运行一次推理，同时显示每张影像和对应的指令文本。推理参数设为最大生成256个token，温度1.0，top_p=0.95，top_k=64。请同时打印模型输出和参考答案，方便对比。

微调前模型输出的一个典型样例如下：


 

 

 

 

 

 
 Based on the provided axial CT image of the abdomen:
 

 

 

 

 

 

 

 
 1. **Locate the kidneys:** The kidneys are located in the retroperitoneum...
 

 

 

 

 

 
 2. **Examine the left kidney:** Look specifically at the left kidney on this cross-section.
 

 

 

 

 

 

 

 
 In the image, the left kidney appears generally intact, and there is no obvious,
 

 

 

 

 

 
 well-defined cyst visible within the parenchyma of the left kidney.
 

 

 

 

 

 

 

 

 

 

 

 
 此问题涉及ABD，问题类型为PRES。问题也可表述为：Is a cystic cavity present in the left kidney on this image?。答案为No。

可以观察到，微调前模型倾向于输出冗长的“思考过程”——先定位解剖结构，再逐项分析，最后给出结论。这种长篇推理虽然看似严谨，但与数据集要求的简洁结构化回答有较大偏差，且推理的正确性难以验证。

图1. Gemma4 E2B视觉微调评估样本结果。

Python中Keras微调Google Gemma：定制化指令增强大语言模型LLM|附代码和数据

Keras微调Google Gemma大语言模型，定制化指令增强LLM能力

探索观点

微调前推理影像

图3. VQA-RAD样本影像——微调前Gemma4 E2B推理结果。

正式微调训练

第一轮对话：基础训练配置

一切就绪。请帮我启动LoRA微调训练：单卡训练batch size 16，验证batch size 4，梯度累积步数2，预热5步，训练4个轮次，初始学习率2e-4，使用8位AdamW优化器配合0.001权重衰减，线性学习率衰减策略。每50步记录一次日志并评估。请务必设置视觉微调必需的参数：remove_unused_columns=False、dataset_text_field=””、dataset_kwargs={‘skip_prepare_dataset’: True}、max_length=2048。训练完成后打印训练统计信息。

在上述配置下，单卡训练约占用 20GB显存，在一块24GB显存GPU上总训练耗时约 1小时。有效训练批大小为per_device_train_batch_size × gradient_accumulation_steps = 32。每轮训练约遍历63个有效批次，4轮共计约252步更新。

第二轮对话：保存与过拟合策略讨论

注释：为什么选择“略有拟合”而非最佳checkpoint？可以这样理解：普通的图像分类任务中，过拟合意味着模型记住了训练样本的噪声，泛化能力下降。但在VQA-RAD这样的场景中，我们更关注模型是否学会了“回答的结构范式”——先标脏器、再标问题类型、最后给出答案。轻微过拟合反而有助于模型牢固建立这种输出模式，就像练字初期需要刻意模仿字帖的笔画顺序一样。

训练过程日志

图4. Gemma4视觉模型微调4轮训练日志。

训练日志显示损失值从初始约2.8逐步下降至约0.5以下，模型在验证集上的表现同步改善，表明LoRA适配器有效拟合了训练数据的回答结构。

微调后模型推理与结果分析

加载微调模型并运行推理

微调已完成，适配器保存在 gemma4_e2b_lora/ 目录。请帮我从该目录加载微调后的模型，同时读取本地存储的评估数据集 hf_eval_dataset/，在验证集前10个样本上运行推理。推理参数与微调前保持一致，并打印模型输出与参考答案，方便对比分析。

推理结果样例

图5. 微调后推理样本1——Gemma4 E2B视觉模型。

第一个样本中，提问涉及病灶尺寸判断，模型选择拒绝回答。这可能是模型内置安全对齐机制的体现——对于置信度不足的医学场景，模型倾向于给出回避而非猜测的响应。

图6. 微调后推理样本4——Gemma4 E2B视觉模型。

在部分样本中，模型不仅给出了答案，还附带了逐步推理过程。虽然这种“思考链”使输出更具可解释性，但由于参考答案中不含推理细节，我们无法验证其每一步推理的准确性。

图7. 微调后推理样本10——Gemma4 E2B视觉模型。

更多样本中同样出现了推理轨迹，输出长度远超原始参考答案。这提示我们在医学影像问答场景中，仅靠标准的监督微调可能不足以让模型学会“点到为止”的回答风格。

微调前后对比

对比维度和对比结果如下表所示。微调前模型输出长篇“思考流”，包含解剖部位分析、逐步推理，最后给出结论；微调后输出与数据集结构基本对齐，包含器官类型、问题类型与答案。微调前回答冗长（6-10行文本），偏离数据集参考答案的简洁风格；微调后有所改善，但部分样本仍附带较长推理链。微调前未出现拒答行为；微调后少数低置信度样本出现拒答，可能由安全对齐机制触发。微调前未学习数据集格式范式；微调后学会了结构化的输出模式，但在器官标注、问题改写上的复现不稳定。微调前推理正确性无法验证（无参考推理链）；微调后推理链存在但无法验证，参考答案不含推理步骤。训练硬件为单卡24GB GPU，约20GB显存，训练1小时。

关键发现与讨论

经过完整的微调-推理流程，有几点观察值得深入讨论。

输出结构的学习与偏差

微调后模型确实学会了数据集回答的结构范式：先标注器官类型，再说明问题类型，最后给出答案。这表明LoRA适配器在仅有2000余条训练样本的情况下，成功提取了输出格式的统计规律。但模型并未稳定掌握器官标注和问题改写的精确再现——这反映出小样本场景下，表层格式比深层语义更容易拟合。

安全对齐与医学场景的张力

模型在部分样本上的拒答行为需要警惕。Gemma4预训练阶段植入的安全对齐策略，使其在面对不确定医学判断时倾向于“不作为”。这在通用场景中是负责任的AI行为，但在临床辅助场景中（医生本就会做最终判断），过度的拒答会降低工具的实用性。如何在不破坏安全边界的条件下放宽拒答阈值，是未来研究的方向。

推理链的价值与验证困境

微调后模型在部分样本上自发产生了多步推理过程，这可以理解为模型的“思维惯性”——即使在训练数据中没有推理链标签，预训练阶段习得的推理能力仍然会在生成时激活。这对可解释AI是有价值的，但问题在于：没有参考答案中的推理链作为监督信号，我们无法判定这些推理是否正确。这种“好看但未必有用”的输出，是当前医学视觉语言模型微调的核心挑战之一。

注释：可以把这种情况类比为一个医学院学生在考试中的行为——他没有直接写“答案：良性”，而是先写了一大段分析思路。阅卷老师（临床医师）看到这个思路可能会觉得“有道理”或“逻辑混乱”，但在只有最终答案而无思路评分标准的情况下，无法给思路打分。我们的模型正面临同样的尴尬。

总结

核心问题与解决方案

问题一：如何在有限算力条件下微调视觉语言模型？ → 解决方案： 使用Unsloth库的LoRA参数高效微调方案，秩设为32，缩放因子64，在24GB显存GPU上以约20GB峰值显存完成4轮训练，总耗时约1小时。不加载量化版本，保留全精度推理能力。

问题二：医学影像问答数据集如何预处理为视觉语言模型的训练格式？ → 解决方案： 将JSON标注转为CSV后以HuggingFace Datasets格式加载，按9:1切分训练/验证集（2023:225）。构建“系统指令+提问+影像 → 器官类型+问题类型+改写+答案”的结构化对话格式，为模型提供充足上下文。

问题三：微调后的视觉模型在医学问答中表现如何？ → 解决方案： 微调后模型学习了输出结构范式，响应格式与数据集显著对齐。但仍存在拒答行为（安全对齐机制）和不可验证的长推理链。本文明确定位为微调教程而非正式医学视觉语言模型，不建议直接用于临床场景。

技术创新与业务价值

技术创新点： 首次在Unsloth框架下探索了Gemma4视觉模型的LoRA双模态联合微调（视觉编码层+语言解码层同时适配），并在小样本医学影像问答数据集上验证了参数高效微调的有效性与局限性。

业务价值： 提供的完整微调-推理管线可在1小时内在消费级GPU上完成，使中小规模医疗机构和研究者具备自主适配开源视觉语言模型到特定放射学场景的能力，无需依赖云端算力或昂贵的商业API。

工程复现性： 所有代码以对话式AI智能体形式交付，每个代码块配备自然语言提示词，降低了深度学习背景较弱的研究者复现和修改的技术门槛。

本文配套的论文建模可直接套用的AI智能体、完整代码包、实证分析，可加小助手：tecdat_cn领取。

作者系机器学习与深度学习领域分析师，拥有多年人工智能模型研发与数据挖掘经验。