Python丁香医生平台医生与患者评论数据分析:LightGBM、LDA主题模型、因果推断、聚类、PSM| 附代码数据
随着在线医疗行业从 “流量红利” 转向 “质量竞争”,平台如何通过数据挖掘优化医患匹配、提升服务质量,成为突破增长瓶颈的关键。作为数据科学团队,我们曾为多家医疗平台提供数据分析咨询服务,本文内容正改编自此前为在线医疗头部平台设计的用户生态优化项目 —— 通过对丁香医生平台的医生信息与患者评论数据深度分析,解决 “如何识别高价值医生”“患者核心诉求是什么”“服务行为是否真能提升满意度” 等核心业务问题。
本项目报告、代码和数据资料已分享至交流社群
项目概述 随着互联网技术的深度渗透,在线医疗服务已成为现代医疗体系的重要组成部分,深刻地改变了传统的医患交互模式。丁香医生作为国内领先的在线健康服务平台,已汇聚了海量的医生专业信息与患者反馈数据。这些高维度、大规模的数据不仅是平台的核心数字资产,更蕴含着优化服务质量、实现精准医患匹配、提升运营效率的巨大潜力。因此,本项目旨在应用大数据分析技术,对丁香医生平台的公开数据进行系统性的采集、处理与深度挖掘,以探索其内在规律,并提炼出具有商业价值和现实意义的洞见。
为系统性地发掘丁香医生平台数据的价值,本项目设定了以下四个核心研究目标:
- 医生群体结构分析与画像构建: 运用非监督学习算法(K-Means聚类)对医生群体进行数据驱动的分层,识别并描绘具有不同特征的医生群体画像,从而深入理解平台医生生态的构成与多样性。
- 患者核心需求与体验洞察: 利用自然语言处理技术(LDA主题模型)对患者评论文本进行深度挖掘,提炼患者的核心关切、情感诉求及就医体验的关键维度,为服务质量的针对性提升提供依据。
- 关键成功因素的量化识别: 综合运用探索性数据分析(EDA)与多种监督学习模型,量化分析影响医生服务定价、患者满意度及平台流量分配等关键结果变量的核心驱动因素,并评估其相对重要性。
- 数据驱动的战略建议提炼: 基于上述分析结果,为平台在运营策略、产品优化、医生激励机制及精准营销等方面,提供具备实证基础和可操作性的战略与战术建议。
本项目综合运用了以下技术栈:
- 数据采集:Python (Requests, Selenium)
- 数据处理:Pandas, NumPy, re
- 数据可视化:Matplotlib, Seaborn
- 机器学习:Scikit-learn (KMeans, PCA, RandomForestClassifier), LightGBM
- 自然语言处理:Jieba, pyLDAvis
数据获取与处理 本项目构建了一套完整的数据工程流水线,从元数据采集到最终的结构化数据输出,流程清晰,自动化程度高。整个流程主要分为四个阶段:准备工作,采集所有科室列表及其ID,为后续爬取奠定基础;数据采集,利用并发爬虫,高效获取每位医生的详细信息与全量评论;数据存储,将原始数据以JSON格式分层级、分文件存储,便于管理和追溯;数据处理,通过解析脚本,将分散的JSON数据清洗、整合,输出为可供分析的CSV宽表。
系统的核心功能由一系列Python脚本实现,各脚本职责明确、相互协作:
- 科室爬虫.py
功能:采集所有科室的名称和链接,作为数据采集的入口。 - 医生id爬虫.py
功能:根据科室ID,分页抓取各科室下的所有医生列表信息。 - 并发爬虫.py
功能:核心数据采集脚本,使用多线程并发抓取每位医生的详细个人信息和全量患者评论。 - alldoctor.py
功能:将分散的医生基本信息JSON文件,解析并整合成一个总的医生特征宽表CSV。 - 评论汇总.py
功能:将分散的医生评论JSON文件,按科室进行汇总,为文本分析做准备。 - 辅助与测试脚本
功能:包含单爬虫、单文件解析等脚本,用于调试和验证核心逻辑。
部分数据如下:
数据清洗与特征工程
在获得原始数据后,我们进行了系统的数据清洗和特征工程,以提升数据质量,并为后续建模做准备。主要步骤包括:
- 缺失值处理:对关键数值型特征(如consult_price)中的缺失值,基于业务理解采用零值或中位数进行填充;对描述性文本的缺失,则填充为空字符串。
- 数据转换:将非结构化的响应时间文本(如“xx分钟”、“xx小时”)统一转换为数值型的“分钟”单位。
- 地理特征衍生:从location_name字段中提取出city(城市)、city_tier(城市等级)、is_municipality(是否直辖市)等结构化特征。
- 标签特征工程:对specialty_tags(专业标签)进行频率分析,提取高频标签作为独热编码特征;从hospital_info_tag中提取出hosp_type_百强医院、hosp_type_三甲医院等关键二值特征。
- 文本特征二值化:将practice_experience(实践经历)和academic_experience(学术经历)等文本描述,转换为表示“有/无”的二值特征。
字段表
字段名 |
数据类型 |
中文含义 |
doctor_id |
int64 |
医生唯一标识符 |
nickname |
object |
医生昵称 |
gender |
int64 |
性别 |
title |
object |
职称 |
consult_price |
float64 |
图文咨询价格 |
视频讲解:CatBoost、梯度提升 (XGBoost、LightGBM)心理健康数据
探索性数据分析(EDA) 通过对核心字段的描述性统计分析,我们勾勒出丁香医生平台医生的整体画像,其主要特征如下:平台医生以主治医师 (46.0%) 和副主任医师 (35.4%) 为绝对主力,二者合计占比超过80%,表明平台医生群体具备扎实的专业水准和临床经验;90.0% 的医生来自三甲医院,93.1% 的医生所在医院为医保定点机构,反映平台在医生准入上具有较高门槛,核心医生资源高度集中于国内优质医疗机构;超过半数(53.6%)的医生从业年限超过10年,近四成(37.5%)拥有医学博士学位,超过八成(81.6%)具备在线处方权,这些数据共同印证平台医生群体的资深性与专业性。
核心发现与业务洞察
洞察一:探索性分析的核心洞察
分析显示,医生的从业经验与职称等级存在高达0.58的强正相关性。同时,这两者均与服务价格显著正相关。这表明平台的定价体系在很大程度上遵循了传统医疗领域“论资排辈”的价值逻辑,资历是医生服务价值的核心体现。
洞察二:平台流量分布呈现显著的“马太效应”
服务量相关指标,如total_comment(总评论数)和patient_count(服务患者数),均呈现严重的长尾分布。少数头部医生占据了平台绝大部分的患者与流量资源,而超过半数的医生服务量相对较小。这揭示了平台生态中流量高度集中的现状。
洞察三:价格敏感带清晰,200元是重要心理价位
绝大多数在线图文咨询服务的定价集中在50至150元人民币区间。服务定价超过200元的医生占比仅为2.0%,表明高价位服务在当前市场环境下仍属小众,平台的主流用户对价格较为敏感。

CNN-LSTM、GRU、XGBoost、LightGBM风电健康诊断、故障与中国银行股票预测应用实例
该文章介绍了CNN-LSTM、GRU、XGBoost、LightGBM等算法在风电健康诊断、故障检测及中国银行股票预测中的应用,提供了丰富的建模思路与实践案例,对数据分析爱好者具有较高参考价值。
探索观点医生群体聚类与LDA主题建模 通过K-Means聚类分析,我们识别出八类具有不同特征的医生群体:群体5(顶尖科室精英领袖),规模极小(0.4%),拥有最高平均从业年限(24年),临床与学术均卓越,半数任职全国顶尖科室;群体7(顶尖科室核心专家),99%在全国前十顶尖科室工作,平均15年经验,是顶级医疗机构中坚;群体4(资深学术临床型领军人物),平均21.6年经验,临床与学术活跃度高,是大型医院学科带头人;群体3(学术临床双修型中坚力量),平台规模最大(26.8%),平均10年经验,是“青壮派”,双线发展代表行业未来潜力;群体6(经验丰富的临床实干家),近20年经验,侧重临床实践,解决复杂临床问题;群体0&2(均衡发展型医师),14-17年经验,临床与学术均涉猎;群体1(资深非一线/转型专家),23.0%的庞大群体,16年资历但临床学术活跃度低,可能转向其他领域。
LDA主题建模:洞察患者核心诉求
针对平台海量非结构化评论文本,采用LDA主题建模技术,提炼出四大跨科室共性主题:
主题一:专业素养与服务态度 (Professionalism and Service Attitude)
- 核心词:“耐心”、“专业”、“详细”、“细致”、“感谢”
- 解读:所有科室最普适高频主题,构成患者满意度基石,患者既关注诊疗专业性,也重视医生沟通方式与人文关怀。
e”>主题二:诊疗效果与问题解决 (Treatment Effectiveness and Problem Resolution)
- 核心词:“有效”、“好转”、“解决”、“恢复”、“建议”
- 解读:患者最核心诉求,直接关联医疗服务核心价值,体现患者对“问题解决”的根本期待。
主题三:响应效率与沟通体验 (Response Efficiency and Communication Experience)
- 核心词:“回复快”、“及时”、“沟通”、“方便”、“耐心解答”
- 解读:在线医疗独特场景下的关键体验维度,响应速度直接影响患者对平台服务的感知。
主题四:用药与治疗方案 (Medication and Treatment Plan)
- 核心词:“药”、“用药”、“处方”、“治疗”、“方案”
- 解读:与医疗干预直接相关的主题,体现患者对具体治疗措施的关注。
科室特异性主题差异
除共性主题外,各科室还呈现出独特的关注焦点:
- 妇产科:对“怀孕”、“月经”等生理周期相关问题的高度关注。
- 儿科:家长对“孩子”、“宝宝”症状的细致描述与担忧表达。
- 皮肤科:对“皮肤”、“症状”、“外观”等外在表现的关注。
- 精神心理科:对“情绪”、“心理”、“压力”等内在状态的描述。
点击跳至底部获取更多资讯
LightGBM模型构建与解释 为量化识别影响医生服务定价的核心驱动因素,我们构建了以consult_price为因变量的LightGBM回归模型。模型性能评估显示,R²达到0.81,表明模型能解释81%的价格变异,具有较高的拟合优度。通过特征重要性分析,我们识别出影响医生服务定价的十大核心因素(按重要性排序):
- 医院层级与品牌(hosp_rank_top10、hosp_type_三甲医院):顶尖医院品牌溢价显著,反映医疗服务的“稀缺性品牌资产”。
- 职称等级(title_主任医师、title_副主任医师):职称是专业能力的重要信号,直接影响定价。
- 学术资质(academic_degree_博士):高学历医生服务定价显著更高。
- 临床经验(working_years):经验积累对定价有正向影响。
- 服务能力认证(has_prescription_right_有):具备处方权的医生服务价值更高。
- 地域因素(city_tier_一线城市):一线城市医生服务定价存在地域溢价。
模型应用:服务定价策略优化
基于模型发现,我们提出“三维定价矩阵”策略:以医院层级为纵轴、职称为横轴、专业领域稀缺性为第三维度,构建动态定价体系。对高价值医生群体(如群体5和7),可适度释放品牌溢价;对潜力医生(如群体3),可基于学术资质和服务能力制定阶梯式定价,激励其提升服务质量。
因果推断与PSM分析 为验证“医生主动提供用药建议”这一服务行为是否真能提升患者满意度,我们采用倾向性评分匹配(PSM)方法控制混杂变量,模拟随机对照实验。分析结果显示:在控制医生资历、科室、医院层级等变量后,提供用药建议的医生比未提供的医生,其患者满意度评分平均高出0.32分(5分制),且该差异在统计上高度显著(p<0.01)。这表明主动提供用药建议是提升患者体验的有效服务策略,具有明确的因果效应。
异质性分析:不同场景下的策略效果差异
进一步的亚组分析发现,该策略的效果在不同科室和医生群体中存在显著差异:
- 在妇产科和儿科,效果最为显著(满意度提升0.45-0.50分),表明家长和孕产妇群体对用药指导需求更强烈。
- 对中低职称医生(群体3和6),该策略的边际效益更高,提示可作为年轻医生提升服务质量的突破口。
结论与建议 本研究通过对丁香医生平台的多维度数据分析,揭示了在线医疗服务生态的关键特征与规律,并提炼出以下战略建议:
1. 医生分层运营策略
基于聚类结果,对不同医生群体实施差异化运营:
- 对顶尖专家(群体5、7):打造“名医工作室”IP,突出其稀缺性,适度提高服务定价,配套专属运营资源。
- 对潜力医生(群体3):设计“学术-临床”双线成长路径,提供在线服务技能培训,通过阶梯定价激励其提升服务量。
- 对资深非一线医生(群体1):开发“慢病管理”、“健康咨询”等轻量级服务场景,激活其经验价值。
2. 患者体验优化方案
基于LDA主题发现,构建“三维体验提升模型”:
- 专业信任维度:突出医生职称、学术背景等信任信号,在医生详情页增加“专业擅长”可视化展示。
- 沟通效率维度:优化医生响应时效考核机制,对响应速度快的医生给予流量倾斜。
- 结果感知维度:引导医生在回复中明确“诊疗建议”和“预期效果”,强化患者对服务价值的感知。
3. 平台生态平衡机制
针对流量“马太效应”,设计动态平衡机制:
- 实施“新星扶持计划”:对高潜力年轻医生(群体3)给予初始流量倾斜,设置“服务质量达标-流量奖励”正向循环。
- 优化匹配算法:综合考虑医生负荷、患者需求紧急程度、科室匹配度等多因素,实现更均衡的流量分配。
- 建立“服务能力认证体系”:通过多维度指标评估医生服务能力,而非仅依赖历史评分,为优质新医生提供展示机会。
4. 数据驱动的精细化运营
构建“医生成长指数”:整合从业年限、服务量、患者满意度、学术活跃度等多维度数据,动态评估医生发展轨迹,为不同阶段医生提供精准赋能。
开发“患者需求图谱”:基于LDA主题模型结果,构建科室级、疾病级的需求标签体系,实现患者需求与医生专长的智能匹配。
研究局限与未来展望 本研究存在三方面局限:数据覆盖范围有限,仅包含丁香医生平台的公开数据,未涉及其他在线医疗平台,可能存在平台特异性偏差;横截面数据难以捕捉医生服务行为与患者满意度的动态变化关系;部分关键变量(如医生实际收入、平台算法规则)无法获取,可能影响模型解释力。
未来研究可从三方面拓展:
- 开展多平台对比研究,揭示不同在线医疗生态的共性规律与差异化特征。
- 构建 longitudinal 数据集,运用面板模型分析医患互动的动态演化过程。
- 结合平台后台数据,深入研究算法推荐机制对医患匹配效率的影响。
随着人工智能技术在医疗领域的深度应用,在线医疗服务将向“精准化”、“个性化”、“智能化”方向演进。本研究构建的分析框架与发现,可为这一演进过程提供数据驱动的决策支持,最终促进在线医疗生态的健康可持续发展。
每日分享最新报告和数据资料至会员群
关于会员群
- 会员群主要以数据研究、报告分享、数据工具讨论为主;
- 加入后免费阅读、下载相关数据内容,并同步海内外优质数据文档;
- 老用户可九折续费。
- 提供报告PDF代找服务
非常感谢您阅读本文,如需帮助请联系我们!
