Python丁香医生平台医生与患者评论数据分析：LightGBM、LDA主题模型、因果推断、聚类、PSM| 附代码数据

2025年10月21日 | 数据分析报告

随着在线医疗行业从 “流量红利” 转向 “质量竞争”，平台如何通过数据挖掘优化医患匹配、提升服务质量，成为突破增长瓶颈的关键。作为数据科学团队，我们曾为多家医疗平台提供数据分析咨询服务，本文内容正改编自此前为在线医疗头部平台设计的用户生态优化项目 —— 通过对丁香医生平台的医生信息与患者评论数据深度分析，解决 “如何识别高价值医生”“患者核心诉求是什么”“服务行为是否真能提升满意度” 等核心业务问题。

Jiasen Chen

在南京大学完成工业工程专业相关学业，专注深度学习、数理金融与数据采集分析领域，擅长R语言、Python、C++，在数据采集分析与深度学习应用方面具备扎实技术能力。

联系我们

本项目报告、代码和数据资料已分享至交流社群

加入会员群

项目概述 随着互联网技术的深度渗透，在线医疗服务已成为现代医疗体系的重要组成部分，深刻地改变了传统的医患交互模式。丁香医生作为国内领先的在线健康服务平台，已汇聚了海量的医生专业信息与患者反馈数据。这些高维度、大规模的数据不仅是平台的核心数字资产，更蕴含着优化服务质量、实现精准医患匹配、提升运营效率的巨大潜力。因此，本项目旨在应用大数据分析技术，对丁香医生平台的公开数据进行系统性的采集、处理与深度挖掘，以探索其内在规律，并提炼出具有商业价值和现实意义的洞见。

为系统性地发掘丁香医生平台数据的价值，本项目设定了以下四个核心研究目标：

医生群体结构分析与画像构建： 运用非监督学习算法（K-Means聚类）对医生群体进行数据驱动的分层，识别并描绘具有不同特征的医生群体画像，从而深入理解平台医生生态的构成与多样性。
患者核心需求与体验洞察： 利用自然语言处理技术（LDA主题模型）对患者评论文本进行深度挖掘，提炼患者的核心关切、情感诉求及就医体验的关键维度，为服务质量的针对性提升提供依据。
关键成功因素的量化识别： 综合运用探索性数据分析（EDA）与多种监督学习模型，量化分析影响医生服务定价、患者满意度及平台流量分配等关键结果变量的核心驱动因素，并评估其相对重要性。
数据驱动的战略建议提炼： 基于上述分析结果，为平台在运营策略、产品优化、医生激励机制及精准营销等方面，提供具备实证基础和可操作性的战略与战术建议。

本项目综合运用了以下技术栈：

数据采集：Python (Requests, Selenium)
数据处理：Pandas, NumPy, re
数据可视化：Matplotlib, Seaborn
机器学习：Scikit-learn (KMeans, PCA, RandomForestClassifier), LightGBM
自然语言处理：Jieba, pyLDAvis

侧边栏

相关知识

1. 丁香医生平台：国内领先在线健康服务平台，汇聚海量医生信息与患者反馈，提供在线咨询、问诊等服务，是在线医疗行业重要数据来源。

2. LightGBM：基于梯度提升决策树（GBDT）的高性能算法，具有高效处理大规模表格数据、高精度预测的特点，常用于评分预测、因素识别等场景。

3. LDA主题模型：潜在狄利克雷分配模型，非结构化文本挖掘工具，可从海量评论文本中自动提取潜在主题，如患者对医生专业素养、服务态度的关注等。

4. K-Means聚类：无监督学习算法，通过计算数据点距离实现群体分层，可构建医生群体画像，识别不同职业发展路径的医生群体。

5. PSM（倾向性评分匹配）：因果推断方法，通过匹配处理组与对照组模拟随机对照实验，可量化服务行为对患者满意度的净因果效应。

6. 多元回归分析：量化多个自变量对因变量影响的统计方法，可识别医生服务定价的关键驱动因素，如稀缺性品牌资产、职称、从业经验等。

数据获取与处理 本项目构建了一套完整的数据工程流水线，从元数据采集到最终的结构化数据输出，流程清晰，自动化程度高。整个流程主要分为四个阶段：准备工作，采集所有科室列表及其ID，为后续爬取奠定基础；数据采集，利用并发爬虫，高效获取每位医生的详细信息与全量评论；数据存储，将原始数据以JSON格式分层级、分文件存储，便于管理和追溯；数据处理，通过解析脚本，将分散的JSON数据清洗、整合，输出为可供分析的CSV宽表。

系统的核心功能由一系列Python脚本实现，各脚本职责明确、相互协作：

科室爬虫.py
功能：采集所有科室的名称和链接，作为数据采集的入口。
医生id爬虫.py
功能：根据科室ID，分页抓取各科室下的所有医生列表信息。
并发爬虫.py
功能：核心数据采集脚本，使用多线程并发抓取每位医生的详细个人信息和全量患者评论。
alldoctor.py
功能：将分散的医生基本信息JSON文件，解析并整合成一个总的医生特征宽表CSV。
评论汇总.py
功能：将分散的医生评论JSON文件，按科室进行汇总，为文本分析做准备。
辅助与测试脚本
功能：包含单爬虫、单文件解析等脚本，用于调试和验证核心逻辑。

部分数据如下：

数据清洗与特征工程

在获得原始数据后，我们进行了系统的数据清洗和特征工程，以提升数据质量，并为后续建模做准备。主要步骤包括：

缺失值处理：对关键数值型特征（如consult_price）中的缺失值，基于业务理解采用零值或中位数进行填充；对描述性文本的缺失，则填充为空字符串。
数据转换：将非结构化的响应时间文本（如“xx分钟”、“xx小时”）统一转换为数值型的“分钟”单位。
地理特征衍生：从location_name字段中提取出city（城市）、city_tier（城市等级）、is_municipality（是否直辖市）等结构化特征。
标签特征工程：对specialty_tags（专业标签）进行频率分析，提取高频标签作为独热编码特征；从hospital_info_tag中提取出hosp_type_百强医院、hosp_type_三甲医院等关键二值特征。
文本特征二值化：将practice_experience（实践经历）和academic_experience（学术经历）等文本描述，转换为表示“有/无”的二值特征。

字段表

字段名	数据类型	中文含义
doctor_id	int64	医生唯一标识符
nickname	object	医生昵称
gender	int64	性别
title	object	职称
consult_price	float64	图文咨询价格

视频

视频讲解：CatBoost、梯度提升 (XGBoost、LightGBM)心理健康数据

最受欢迎的见解

探索性数据分析（EDA） 通过对核心字段的描述性统计分析，我们勾勒出丁香医生平台医生的整体画像，其主要特征如下：平台医生以主治医师 (46.0%) 和副主任医师 (35.4%) 为绝对主力，二者合计占比超过80%，表明平台医生群体具备扎实的专业水准和临床经验；90.0% 的医生来自三甲医院，93.1% 的医生所在医院为医保定点机构，反映平台在医生准入上具有较高门槛，核心医生资源高度集中于国内优质医疗机构；超过半数（53.6%）的医生从业年限超过10年，近四成（37.5%）拥有医学博士学位，超过八成（81.6%）具备在线处方权，这些数据共同印证平台医生群体的资深性与专业性。

核心发现与业务洞察

洞察一：探索性分析的核心洞察

分析显示，医生的从业经验与职称等级存在高达0.58的强正相关性。同时，这两者均与服务价格显著正相关。这表明平台的定价体系在很大程度上遵循了传统医疗领域“论资排辈”的价值逻辑，资历是医生服务价值的核心体现。

洞察二：平台流量分布呈现显著的“马太效应”

服务量相关指标，如total_comment（总评论数）和patient_count（服务患者数），均呈现严重的长尾分布。少数头部医生占据了平台绝大部分的患者与流量资源，而超过半数的医生服务量相对较小。这揭示了平台生态中流量高度集中的现状。

洞察三：价格敏感带清晰，200元是重要心理价位

绝大多数在线图文咨询服务的定价集中在50至150元人民币区间。服务定价超过200元的医生占比仅为2.0%，表明高价位服务在当前市场环境下仍属小众，平台的主流用户对价格较为敏感。

CNN-LSTM、GRU、XGBoost、LightGBM风电健康诊断、故障与中国银行股票预测应用实例

该文章介绍了CNN-LSTM、GRU、XGBoost、LightGBM等算法在风电健康诊断、故障检测及中国银行股票预测中的应用，提供了丰富的建模思路与实践案例，对数据分析爱好者具有较高参考价值。

探索观点

医生群体聚类与LDA主题建模 通过K-Means聚类分析，我们识别出八类具有不同特征的医生群体：群体5（顶尖科室精英领袖），规模极小(0.4%)，拥有最高平均从业年限（24年），临床与学术均卓越，半数任职全国顶尖科室；群体7（顶尖科室核心专家），99%在全国前十顶尖科室工作，平均15年经验，是顶级医疗机构中坚；群体4（资深学术临床型领军人物），平均21.6年经验，临床与学术活跃度高，是大型医院学科带头人；群体3（学术临床双修型中坚力量），平台规模最大（26.8%），平均10年经验，是“青壮派”，双线发展代表行业未来潜力；群体6（经验丰富的临床实干家），近20年经验，侧重临床实践，解决复杂临床问题；群体0&2（均衡发展型医师），14-17年经验，临床与学术均涉猎；群体1（资深非一线/转型专家），23.0%的庞大群体，16年资历但临床学术活跃度低，可能转向其他领域。

LDA主题建模：洞察患者核心诉求

针对平台海量非结构化评论文本，采用LDA主题建模技术，提炼出四大跨科室共性主题：

主题一：专业素养与服务态度 (Professionalism and Service Attitude)

核心词：“耐心”、“专业”、“详细”、“细致”、“感谢”
解读：所有科室最普适高频主题，构成患者满意度基石，患者既关注诊疗专业性，也重视医生沟通方式与人文关怀。

e”>主题二：诊疗效果与问题解决 (Treatment Effectiveness and Problem Resolution)

核心词：“有效”、“好转”、“解决”、“恢复”、“建议”
解读：患者最核心诉求，直接关联医疗服务核心价值，体现患者对“问题解决”的根本期待。

主题三：响应效率与沟通体验 (Response Efficiency and Communication Experience)

核心词：“回复快”、“及时”、“沟通”、“方便”、“耐心解答”
解读：在线医疗独特场景下的关键体验维度，响应速度直接影响患者对平台服务的感知。

主题四：用药与治疗方案 (Medication and Treatment Plan)

核心词：“药”、“用药”、“处方”、“治疗”、“方案”
解读：与医疗干预直接相关的主题，体现患者对具体治疗措施的关注。

科室特异性主题差异

除共性主题外，各科室还呈现出独特的关注焦点：

妇产科：对“怀孕”、“月经”等生理周期相关问题的高度关注。
儿科：家长对“孩子”、“宝宝”症状的细致描述与担忧表达。
皮肤科：对“皮肤”、“症状”、“外观”等外在表现的关注。
精神心理科：对“情绪”、“心理”、“压力”等内在状态的描述。

LightGBM模型构建与解释 为量化识别影响医生服务定价的核心驱动因素，我们构建了以consult_price为因变量的LightGBM回归模型。模型性能评估显示，R²达到0.81，表明模型能解释81%的价格变异，具有较高的拟合优度。通过特征重要性分析，我们识别出影响医生服务定价的十大核心因素（按重要性排序）：

医院层级与品牌（hosp_rank_top10、hosp_type_三甲医院）：顶尖医院品牌溢价显著，反映医疗服务的“稀缺性品牌资产”。
职称等级（title_主任医师、title_副主任医师）：职称是专业能力的重要信号，直接影响定价。
学术资质（academic_degree_博士）：高学历医生服务定价显著更高。
临床经验（working_years）：经验积累对定价有正向影响。
服务能力认证（has_prescription_right_有）：具备处方权的医生服务价值更高。
地域因素（city_tier_一线城市）：一线城市医生服务定价存在地域溢价。

模型应用：服务定价策略优化

基于模型发现，我们提出“三维定价矩阵”策略：以医院层级为纵轴、职称为横轴、专业领域稀缺性为第三维度，构建动态定价体系。对高价值医生群体（如群体5和7），可适度释放品牌溢价；对潜力医生（如群体3），可基于学术资质和服务能力制定阶梯式定价，激励其提升服务质量。

因果推断与PSM分析 为验证“医生主动提供用药建议”这一服务行为是否真能提升患者满意度，我们采用倾向性评分匹配（PSM）方法控制混杂变量，模拟随机对照实验。分析结果显示：在控制医生资历、科室、医院层级等变量后，提供用药建议的医生比未提供的医生，其患者满意度评分平均高出0.32分（5分制），且该差异在统计上高度显著（p<0.01）。这表明主动提供用药建议是提升患者体验的有效服务策略，具有明确的因果效应。