本项目报告、代码和数据资料已分享至交流社群

加入会员群

项目概述 随着互联网技术的深度渗透,在线医疗服务已成为现代医疗体系的重要组成部分,深刻地改变了传统的医患交互模式。丁香医生作为国内领先的在线健康服务平台,已汇聚了海量的医生专业信息与患者反馈数据。这些高维度、大规模的数据不仅是平台的核心数字资产,更蕴含着优化服务质量、实现精准医患匹配、提升运营效率的巨大潜力。因此,本项目旨在应用大数据分析技术,对丁香医生平台的公开数据进行系统性的采集、处理与深度挖掘,以探索其内在规律,并提炼出具有商业价值和现实意义的洞见。

为系统性地发掘丁香医生平台数据的价值,本项目设定了以下四个核心研究目标:

  1. 医生群体结构分析与画像构建: 运用非监督学习算法(K-Means聚类)对医生群体进行数据驱动的分层,识别并描绘具有不同特征的医生群体画像,从而深入理解平台医生生态的构成与多样性。
  2. 患者核心需求与体验洞察: 利用自然语言处理技术(LDA主题模型)对患者评论文本进行深度挖掘,提炼患者的核心关切、情感诉求及就医体验的关键维度,为服务质量的针对性提升提供依据。
  3. 关键成功因素的量化识别: 综合运用探索性数据分析(EDA)与多种监督学习模型,量化分析影响医生服务定价、患者满意度及平台流量分配等关键结果变量的核心驱动因素,并评估其相对重要性。
  4. 数据驱动的战略建议提炼: 基于上述分析结果,为平台在运营策略、产品优化、医生激励机制及精准营销等方面,提供具备实证基础和可操作性的战略与战术建议。

本项目综合运用了以下技术栈:

  1. 数据采集:Python (Requests, Selenium)
  2. 数据处理:Pandas, NumPy, re
  3. 数据可视化:Matplotlib, Seaborn
  4. 机器学习:Scikit-learn (KMeans, PCA, RandomForestClassifier), LightGBM
  5. 自然语言处理:Jieba, pyLDAvis

数据获取与处理 本项目构建了一套完整的数据工程流水线,从元数据采集到最终的结构化数据输出,流程清晰,自动化程度高。整个流程主要分为四个阶段:准备工作,采集所有科室列表及其ID,为后续爬取奠定基础;数据采集,利用并发爬虫,高效获取每位医生的详细信息与全量评论;数据存储,将原始数据以JSON格式分层级、分文件存储,便于管理和追溯;数据处理,通过解析脚本,将分散的JSON数据清洗、整合,输出为可供分析的CSV宽表。

系统的核心功能由一系列Python脚本实现,各脚本职责明确、相互协作:

  1. 科室爬虫.py
    功能:采集所有科室的名称和链接,作为数据采集的入口。
  2. 医生id爬虫.py
    功能:根据科室ID,分页抓取各科室下的所有医生列表信息。
  3. 并发爬虫.py
    功能:核心数据采集脚本,使用多线程并发抓取每位医生的详细个人信息和全量患者评论。
  4. alldoctor.py
    功能:将分散的医生基本信息JSON文件,解析并整合成一个总的医生特征宽表CSV。
  5. 评论汇总.py
    功能:将分散的医生评论JSON文件,按科室进行汇总,为文本分析做准备。
  6. 辅助与测试脚本
    功能:包含单爬虫、单文件解析等脚本,用于调试和验证核心逻辑。

部分数据如下:

数据清洗与特征工程

在获得原始数据后,我们进行了系统的数据清洗和特征工程,以提升数据质量,并为后续建模做准备。主要步骤包括:

  • 缺失值处理:对关键数值型特征(如consult_price)中的缺失值,基于业务理解采用零值或中位数进行填充;对描述性文本的缺失,则填充为空字符串。
  • 数据转换:将非结构化的响应时间文本(如“xx分钟”、“xx小时”)统一转换为数值型的“分钟”单位。
  • 地理特征衍生:从location_name字段中提取出city(城市)、city_tier(城市等级)、is_municipality(是否直辖市)等结构化特征。
  • 标签特征工程:对specialty_tags(专业标签)进行频率分析,提取高频标签作为独热编码特征;从hospital_info_tag中提取出hosp_type_百强医院、hosp_type_三甲医院等关键二值特征。
  • 文本特征二值化:将practice_experience(实践经历)和academic_experience(学术经历)等文本描述,转换为表示“有/无”的二值特征。

字段表

字段名

数据类型

中文含义

doctor_id

int64

医生唯一标识符

nickname

object

医生昵称

gender

int64

性别

title

object

职称

consult_price

float64

图文咨询价格

视频

视频讲解:CatBoost、梯度提升 (XGBoost、LightGBM)心理健康数据

探索性数据分析(EDA) 通过对核心字段的描述性统计分析,我们勾勒出丁香医生平台医生的整体画像,其主要特征如下:平台医生以主治医师 (46.0%) 和副主任医师 (35.4%) 为绝对主力,二者合计占比超过80%,表明平台医生群体具备扎实的专业水准和临床经验;90.0% 的医生来自三甲医院,93.1% 的医生所在医院为医保定点机构,反映平台在医生准入上具有较高门槛,核心医生资源高度集中于国内优质医疗机构;超过半数(53.6%)的医生从业年限超过10年,近四成(37.5%)拥有医学博士学位,超过八成(81.6%)具备在线处方权,这些数据共同印证平台医生群体的资深性与专业性。

核心发现与业务洞察

洞察一:探索性分析的核心洞察

分析显示,医生的从业经验与职称等级存在高达0.58的强正相关性。同时,这两者均与服务价格显著正相关。这表明平台的定价体系在很大程度上遵循了传统医疗领域“论资排辈”的价值逻辑,资历是医生服务价值的核心体现。

洞察二:平台流量分布呈现显著的“马太效应”

服务量相关指标,如total_comment(总评论数)和patient_count(服务患者数),均呈现严重的长尾分布。少数头部医生占据了平台绝大部分的患者与流量资源,而超过半数的医生服务量相对较小。这揭示了平台生态中流量高度集中的现状。

洞察三:价格敏感带清晰,200元是重要心理价位

绝大多数在线图文咨询服务的定价集中在50至150元人民币区间。服务定价超过200元的医生占比仅为2.0%,表明高价位服务在当前市场环境下仍属小众,平台的主流用户对价格较为敏感。

相关技术图片

​CNN-LSTM、GRU、​XGBoost、LightGBM风电健康诊断、故障与中国银行股票预测应用实例

该文章介绍了CNN-LSTM、GRU、XGBoost、LightGBM等算法在风电健康诊断、故障检测及中国银行股票预测中的应用,提供了丰富的建模思路与实践案例,对数据分析爱好者具有较高参考价值。

探索观点

医生群体聚类与LDA主题建模 通过K-Means聚类分析,我们识别出八类具有不同特征的医生群体:群体5(顶尖科室精英领袖),规模极小(0.4%),拥有最高平均从业年限(24年),临床与学术均卓越,半数任职全国顶尖科室;群体7(顶尖科室核心专家),99%在全国前十顶尖科室工作,平均15年经验,是顶级医疗机构中坚;群体4(资深学术临床型领军人物),平均21.6年经验,临床与学术活跃度高,是大型医院学科带头人;群体3(学术临床双修型中坚力量),平台规模最大(26.8%),平均10年经验,是“青壮派”,双线发展代表行业未来潜力;群体6(经验丰富的临床实干家),近20年经验,侧重临床实践,解决复杂临床问题;群体0&2(均衡发展型医师),14-17年经验,临床与学术均涉猎;群体1(资深非一线/转型专家),23.0%的庞大群体,16年资历但临床学术活跃度低,可能转向其他领域。

LDA主题建模:洞察患者核心诉求

针对平台海量非结构化评论文本,采用LDA主题建模技术,提炼出四大跨科室共性主题:

主题一:专业素养与服务态度 (Professionalism and Service Attitude)

  1. 核心词:“耐心”、“专业”、“详细”、“细致”、“感谢”
  2. 解读:所有科室最普适高频主题,构成患者满意度基石,患者既关注诊疗专业性,也重视医生沟通方式与人文关怀。

e”>主题二:诊疗效果与问题解决 (Treatment Effectiveness and Problem Resolution)

  1. 核心词:“有效”、“好转”、“解决”、“恢复”、“建议”
  2. 解读:患者最核心诉求,直接关联医疗服务核心价值,体现患者对“问题解决”的根本期待。

主题三:响应效率与沟通体验 (Response Efficiency and Communication Experience)

  1. 核心词:“回复快”、“及时”、“沟通”、“方便”、“耐心解答”
  2. 解读:在线医疗独特场景下的关键体验维度,响应速度直接影响患者对平台服务的感知。

主题四:用药与治疗方案 (Medication and Treatment Plan)

  1. 核心词:“药”、“用药”、“处方”、“治疗”、“方案”
  2. 解读:与医疗干预直接相关的主题,体现患者对具体治疗措施的关注。

科室特异性主题差异

除共性主题外,各科室还呈现出独特的关注焦点:

  • 妇产科:对“怀孕”、“月经”等生理周期相关问题的高度关注。
  • 儿科:家长对“孩子”、“宝宝”症状的细致描述与担忧表达。
  • 皮肤科:对“皮肤”、“症状”、“外观”等外在表现的关注。
  • 精神心理科:对“情绪”、“心理”、“压力”等内在状态的描述。

LightGBM模型构建与解释 为量化识别影响医生服务定价的核心驱动因素,我们构建了以consult_price为因变量的LightGBM回归模型。模型性能评估显示,R²达到0.81,表明模型能解释81%的价格变异,具有较高的拟合优度。通过特征重要性分析,我们识别出影响医生服务定价的十大核心因素(按重要性排序):

  1. 医院层级与品牌(hosp_rank_top10、hosp_type_三甲医院):顶尖医院品牌溢价显著,反映医疗服务的“稀缺性品牌资产”。
  2. 职称等级(title_主任医师、title_副主任医师):职称是专业能力的重要信号,直接影响定价。
  3. 学术资质(academic_degree_博士):高学历医生服务定价显著更高。
  4. 临床经验(working_years):经验积累对定价有正向影响。
  5. 服务能力认证(has_prescription_right_有):具备处方权的医生服务价值更高。
  6. 地域因素(city_tier_一线城市):一线城市医生服务定价存在地域溢价。

模型应用:服务定价策略优化

基于模型发现,我们提出“三维定价矩阵”策略:以医院层级为纵轴、职称为横轴、专业领域稀缺性为第三维度,构建动态定价体系。对高价值医生群体(如群体5和7),可适度释放品牌溢价;对潜力医生(如群体3),可基于学术资质和服务能力制定阶梯式定价,激励其提升服务质量。

因果推断与PSM分析 为验证“医生主动提供用药建议”这一服务行为是否真能提升患者满意度,我们采用倾向性评分匹配(PSM)方法控制混杂变量,模拟随机对照实验。分析结果显示:在控制医生资历、科室、医院层级等变量后,提供用药建议的医生比未提供的医生,其患者满意度评分平均高出0.32分(5分制),且该差异在统计上高度显著(p<0.01)。这表明主动提供用药建议是提升患者体验的有效服务策略,具有明确的因果效应。

异质性分析:不同场景下的策略效果差异

进一步的亚组分析发现,该策略的效果在不同科室和医生群体中存在显著差异:

  • 在妇产科和儿科,效果最为显著(满意度提升0.45-0.50分),表明家长和孕产妇群体对用药指导需求更强烈。
  • 对中低职称医生(群体3和6),该策略的边际效益更高,提示可作为年轻医生提升服务质量的突破口。

结论与建议 本研究通过对丁香医生平台的多维度数据分析,揭示了在线医疗服务生态的关键特征与规律,并提炼出以下战略建议:

1. 医生分层运营策略

基于聚类结果,对不同医生群体实施差异化运营:

  • 对顶尖专家(群体5、7):打造“名医工作室”IP,突出其稀缺性,适度提高服务定价,配套专属运营资源。
  • 对潜力医生(群体3):设计“学术-临床”双线成长路径,提供在线服务技能培训,通过阶梯定价激励其提升服务量。
  • 对资深非一线医生(群体1):开发“慢病管理”、“健康咨询”等轻量级服务场景,激活其经验价值。

2. 患者体验优化方案

基于LDA主题发现,构建“三维体验提升模型”:

  1. 专业信任维度:突出医生职称、学术背景等信任信号,在医生详情页增加“专业擅长”可视化展示。
  2. 沟通效率维度:优化医生响应时效考核机制,对响应速度快的医生给予流量倾斜。
  3. 结果感知维度:引导医生在回复中明确“诊疗建议”和“预期效果”,强化患者对服务价值的感知。

3. 平台生态平衡机制

针对流量“马太效应”,设计动态平衡机制:

  • 实施“新星扶持计划”:对高潜力年轻医生(群体3)给予初始流量倾斜,设置“服务质量达标-流量奖励”正向循环。
  • 优化匹配算法:综合考虑医生负荷、患者需求紧急程度、科室匹配度等多因素,实现更均衡的流量分配。
  • 建立“服务能力认证体系”:通过多维度指标评估医生服务能力,而非仅依赖历史评分,为优质新医生提供展示机会。

4. 数据驱动的精细化运营

构建“医生成长指数”:整合从业年限、服务量、患者满意度、学术活跃度等多维度数据,动态评估医生发展轨迹,为不同阶段医生提供精准赋能。

开发“患者需求图谱”:基于LDA主题模型结果,构建科室级、疾病级的需求标签体系,实现患者需求与医生专长的智能匹配。

研究局限与未来展望 本研究存在三方面局限:数据覆盖范围有限,仅包含丁香医生平台的公开数据,未涉及其他在线医疗平台,可能存在平台特异性偏差;横截面数据难以捕捉医生服务行为与患者满意度的动态变化关系;部分关键变量(如医生实际收入、平台算法规则)无法获取,可能影响模型解释力。

未来研究可从三方面拓展:

  1. 开展多平台对比研究,揭示不同在线医疗生态的共性规律与差异化特征。
  2. 构建 longitudinal 数据集,运用面板模型分析医患互动的动态演化过程。
  3. 结合平台后台数据,深入研究算法推荐机制对医患匹配效率的影响。

随着人工智能技术在医疗领域的深度应用,在线医疗服务将向“精准化”、“个性化”、“智能化”方向演进。本研究构建的分析框架与发现,可为这一演进过程提供数据驱动的决策支持,最终促进在线医疗生态的健康可持续发展。