数据分析师 Prompt 指令库
个人 AI 武器库 · 已验证好用的 Prompt 合集
覆盖数据分析师、商业分析师、经营分析师日常高频场景,每条指令均经过实战验证,支持一键复制,持续迭代更新。50条精选指令 × 8大场景分类 × 35+已验证。
📖 使用指南:如何将 Prompt 变成你的武器
STEP 1 · 选
按场景分类找到需要的 Prompt,点击展开查看完整指令
STEP 2 · 改
将 Prompt 中的【】占位符替换为你的实际数据、场景、参数
STEP 3 · 验
在 ChatGPT / Claude / DeepSeek 等工具中执行,观察输出质量
STEP 4 · 存
将好用的结果和调整后的 Prompt 收藏到你的个人知识库
🔍
🧹数据清洗与预处理7 条指令
01
Pandas 数据质量全面诊断
一键生成数据质量报告:缺失值、重复值、异常值、数据类型
已验证核心
▼📋 完整 Prompt
我有一份数据集,请帮我用 Python (Pandas) 进行全面的数据质量诊断,包括: 1. 基本信息:行数、列数、每列的数据类型、内存占用 2. 缺失值分析:每列缺失数量、缺失率、缺失模式(MCAR/MAR/MNAR 判断) 3. 重复值检测:完全重复行和关键列重复的识别 4. 异常值检测:对数值列用 IQR 方法和 Z-Score 方法分别检测 5. 数据一致性:检查日期格式、类别编码、数值范围是否合理 6. 生成一份简洁的数据质量评分卡(每列 0-100 分) 请输出完整的 Python 代码,并解释每步的结果含义。数据集文件路径为【data.csv】
💡 使用技巧:将【data.csv】替换为实际文件路径。适合拿到新数据集的第一步操作,快速了解数据质量全貌。
02
缺失值智能填充策略
根据缺失模式自动选择最优填充方法(KNN/Iterative/中位数/前向填充)
已验证
▼📋 完整 Prompt
请帮我处理数据集中的缺失值,要求: 1. 先分析每列的缺失率和缺失模式 2. 对缺失率 > 50% 的列,建议直接删除并说明理由 3. 对缺失率 10%-50% 的列,用 KNNImputer / IterativeImputer 填充 4. 对缺失率 < 10% 的数值列,用中位数填充;分类列用众数填充 5. 对时间序列列,用前向填充 (ffill) 或线性插值 6. 每步填充后验证分布是否偏移(用 KS 检验对比填充前后分布) 7. 输出填充前后的描述性统计对比表 数据集:【df.describe() 结果或前10行数据】
💡 使用技巧:将数据集的前几行或 describe() 结果粘贴进去,AI 可以根据实际数据特征给出针对性方案。对时间序列数据特别有效。
03
多源数据合并与对齐
多表 Join、时间对齐、维度统一处理的完整方案
已验证常用
▼📋 完整 Prompt
我有多个数据源需要合并分析: - 表A:订单表(order_id, user_id, order_date, amount, city) - 表B:用户表(user_id, register_date, user_level, channel) - 表C:城市表(city, province, city_tier, population) 请帮我: 1. 设计合并逻辑(用哪种 Join,以哪个表为主表) 2. 检查合并前后的行数变化,说明原因 3. 如果存在一对多关系,说明如何聚合 4. 时间维度对齐:如果表A是日粒度、表C是月粒度,如何处理 5. 输出完整的 Python 合并代码,包含数据验证步骤 6. 生成合并后的数据字典
💡 使用技巧:把自己的实际表名和字段名替换进去。尤其注意说明各表之间的关联键和时间粒度。
04
文本数据清洗与标准化
中文文本、地址、企业名称的清洗与归一化处理
已验证
▼📋 完整 Prompt
我有一列【企业名称/地址/酒店名称】数据需要清洗标准化,请帮我用 Python 实现: 1. 去除特殊字符、多余空格、全角半角统一 2. 公司后缀标准化:将"有限公司""有限责任公司""股份有限公司"统一为简称 3. 地址标准化:提取省/市/区三级并补全缺失层级 4. 模糊匹配去重:对相似但不完全相同的名称用 fuzzywuzzy/difflib 进行匹配度计算 5. 输出清洗前后的对比样本(前20条) 6. 统计清洗影响了多少条记录 示例数据:【粘贴你的数据】
💡 使用技巧:对于酒店名称、企业名称、地址等中文文本数据特别有用。需要安装 fuzzywuzzy 和 python-Levenshtein 库。
05
大规模数据分块处理
处理超出内存的大文件(GB级别CSV/Excel),分块读写+进度监控
已验证常用
▼📋 完整 Prompt
我有一个【X GB】的大型 CSV 文件,无法一次性读入内存。请帮我用 Python 实现分块处理: 1. 使用 pandas 的 chunksize 参数分块读取(建议 chunk size 如何确定?) 2. 每个 chunk 进行【描述你要做的处理,如:过滤、聚合、转换】 3. 将处理后的结果增量写入输出文件 4. 使用 tqdm 显示处理进度 5. 如果处理逻辑涉及全局聚合(如求整体的中位数),请给出两阶段方案 6. 内存监控:每处理 N 个 chunk 输出当前内存占用 文件路径:【your_file.csv】,预估大小:【X GB】,总行数约:【N 行】
💡 使用技巧:对于百万行以上的数据必备。如果数据在数据库中,优先用 SQL 做预处理再导出。chunksize 建议从 50000-100000 开始尝试。
06
日期时间特征工程
从日期列自动提取时间特征用于建模(含节假日、周期性编码)
已验证
▼📋 完整 Prompt
我有一个日期列【date_column】,请帮我做完整的日期特征工程: 1. 基础特征:年、月、日、季度、星期几(数字+中文)、是否周末 2. 周期性编码:对月份和星期用 sin/cos 变换(避免12月和1月距离被模型误判) 3. 节假日特征:标注中国法定节假日、调休工作日(请用 chinese_calendar 库) 4. 时间距离特征:距离今天的天数、距离年初的天数、距离月初的天数 5. 特殊周期:第几周、是否月初/月末、是否季初/季末 6. 如果是交易数据,额外标注:发薪日(每月10/15/20号)、618/双11等大促日期 请输出完整的 Python 代码。
💡 使用技巧:时间序列建模和预测任务的必备步骤。sin/cos 变换对树模型和神经网络都有效。需要 pip install chinese_calendar。
07
数据脱敏与隐私保护
对敏感字段进行脱敏处理,同时保留数据分析价值
实用
▼📋 完整 Prompt
我需要对数据集进行脱敏处理,保留数据分析价值的同时保护隐私: 1. 手机号:保留前3后4,中间用****替代(如 138****1234) 2. 身份证号:保留前6后4,中间用****替代 3. 姓名:替换为随机生成的假名(使用 Faker 库),保持性别比例 4. 经纬度:在原始值上加随机偏移(半径【500】米内),保证相对位置关系 5. 金额:乘以随机系数(0.95-1.05),保持分布形态和统计特征 6. 脱敏后验证:检查脱敏前后关键统计量(均值、标准差、分位数)是否保持一致 数据集列名:【列出需要脱敏的列名】
💡 使用技巧:在分享数据给外部团队或做演示时必备。Faker 库可以生成中文假名。金额脱敏的随机系数范围可根据敏感度调整。
🔍探索性数据分析(EDA)6 条指令
08
一键生成 EDA 完整报告
自动生成包含分布、相关性、异常值的综合探索报告(Plotly交互图表)
已验证核心常用
▼📋 完整 Prompt
请对我的数据集进行完整的探索性数据分析(EDA),包括以下模块: 【模块一:整体概览】 - 数据形状、各列数据类型、内存占用 - 数值列的五数概括(min, Q1, median, Q3, max)+ 均值 + 标准差 - 分类列的基数(唯一值数量)和 Top 5 频次 【模块二:单变量分布】 - 数值列:直方图 + KDE 密度曲线 + 箱线图(并排展示) - 分类列:柱状图(按频次降序,标注占比) - 标注偏度、峰度,判断是否正态分布 【模块三:双变量关系】 - 数值×数值:相关性热力图(标注系数),散点图矩阵 Top 5 强相关对 - 数值×分类:分组箱线图 + ANOVA F 值 - 分类×分类:堆叠柱状图 + 卡方检验 p 值 【模块四:目标变量分析】 - 如果指定了目标列,展示目标变量的分布形态和各特征与目标变量的关系强度排序 【模块五:关键发现总结】 - 列出 5-10 个最有价值的发现,标注需要进一步深入分析的方向 请输出完整的 Python 代码(用 plotly 做交互式图表),并将关键图表内联显示。
💡 使用技巧:这是最常用的 EDA Prompt,拿到新数据后第一步运行。如果有目标变量(如 GMV、是否转化),请在 Prompt 中指定。
09
特征相关性深度分析
多方法交叉验证特征间的真实关系(Pearson/Spearman/MIC/VIF)
已验证
▼📋 完整 Prompt
请对我的数据集做深度的特征相关性分析,不要只用 Pearson 相关系数: 1. 线性相关:Pearson 相关系数矩阵(标注显著性 p 值) 2. 非线性相关:Spearman 秩相关系数 + 最大信息系数 (MIC) 3. 多重共线性:VIF 方差膨胀因子检测(VIF>10 的特征标注) 4. 冗余特征对:相关系数 > 0.85 的特征对列表 5. 对 Top 10 强相关对,分别画散点图 + 回归线 + loess 平滑线 6. 如果数据量足够大,用 Boruta 或 SHAP 做特征重要性排序 7. 结论:哪些特征组合可以合并?哪些可以降维? 请输出完整的 Python 代码和解读。
💡 使用技巧:特征工程和建模前的必做步骤。MIC 对发现非线性关系特别有用(如 U 型关系)。需要 pip install minepy boruta。
10
时间序列数据 EDA
针对时序数据的专项探索:STL分解、ACF/PACF、变点检测、节假日效应
已验证常用
▼📋 完整 Prompt
我有一份时间序列数据【描述:如每日GMV/酒店入住率/订单量】,请进行专项 EDA: 1. 整体趋势:画折线图 + 移动平均线(7天/30天),标注趋势方向 2. 季节性分解:STL 或 classical decomposition,分解为趋势+季节+残差 3. 周期性检测:用自相关图 (ACF) 和偏自相关图 (PACF) 检测周期模式 4. 周效应分析:按星期几分组箱线图,标注哪些星期几显著偏高/偏低 5. 月效应分析:按月分组,看是否有明显的月度规律 6. 节假日效应:对比节假日 vs 非节假日的均值差异(t 检验) 7. 变点检测:用 ruptures 库检测时间序列中的结构突变点 8. 异常日期识别:用 IQR 或 Isolation Forest 找出异常高/低的日期 请输出完整的 Python 代码(使用 plotly 做交互图表)。
💡 使用技巧:酒旅/电商/出行等业务数据分析的必用 Prompt。变点检测能帮你找到业务策略生效的时间点。需要 pip install ruptures。
11
用户行为漏斗分析
从曝光到转化的全链路漏斗诊断,定位流失最大环节+优化建议
已验证常用
▼📋 完整 Prompt
请帮我做一个完整的用户行为漏斗分析: 1. 定义漏斗层级:【如:曝光→点击→详情页浏览→加购/收藏→下单→支付】 2. 计算每一层的 UV 和 PV,以及层间转化率 3. 计算每层的流失率,标注流失最大的环节("漏斗最窄处") 4. 按用户分层(新用户/老用户、高活/低活)分别画漏斗,对比差异 5. 按时间维度(按天/按周)看转化率趋势,检测是否有恶化 6. 分析流失用户的特征:在流失前一步做了什么?有什么共同特征? 7. 给出优化建议:哪个环节最值得优先优化?预期提升空间多大? 数据样例格式:【user_id, step, timestamp, ...】
💡 使用技巧:电商/内容/广告分析的标配。关键是定义好漏斗层级——不要太粗(看不到问题)也不要太细(数据太稀疏)。
12
RFM 用户分层分析
基于最近一次消费、频率、金额的用户价值分层(含3D可视化+画像)
已验证核心
▼📋 完整 Prompt
请对我的用户交易数据进行 RFM 分析: 1. R (Recency):计算每个用户距离最近一次消费的天数 2. F (Frequency):计算每个用户的消费频次 3. M (Monetary):计算每个用户的消费总金额 4. 对 R、F、M 分别用五分位数法打分(1-5分) 5. 根据 RFM 总分将用户分为 5-8 个层级: - 重要价值客户(R高F高M高)/ 重要发展客户(R高F低M高) - 重要保持客户(R低F高M高)/ 重要挽留客户(R低F低M高)/ 一般价值客户... 6. 画 3D 散点图(R×F×M,颜色区分层级) 7. 每个层级的用户画像:平均年龄/城市/偏好品类 8. 针对每个层级给出差异化的运营策略建议 数据字段:【user_id, order_date, order_amount】
💡 使用技巧:用户运营的基础方法。打分阈值可根据业务实际调整(不一定用五分位,也可以用二八原则)。酒旅场景可以将 M 替换为核销金额。
13
多维交叉分析(透视表自动化)
自动生成多维度交叉分析表,ANOVA检验+热力图+洞察摘要
已验证
▼📋 完整 Prompt
请对我的数据集做自动化多维度交叉分析: 1. 指定指标列:【如 GMV、订单量、核销率】 2. 指定维度列:【如 城市等级、星期几、节假日类型、用户层级】 3. 对每个指标×每个维度,计算交叉统计表(均值、总和、样本量) 4. 对每个维度分组,做 ANOVA 或 Kruskal-Wallis 检验,找出有显著差异的维度 5. 对有显著差异的维度,做事后两两比较(Tukey HSD) 6. 用热力图可视化交叉结果 7. 自动生成洞察摘要:"【维度A】对【指标X】影响最大,其中【分组1】比【分组2】高 XX%" 请输出完整代码。
💡 使用技巧:当你有多个维度需要交叉看时,这个 Prompt 能大幅节省时间。关键是维度不要太多(3-4个为宜),否则组合爆炸。
📊统计建模与机器学习8 条指令
14
预测模型全流程搭建
从数据准备到模型部署的完整预测建模流程(XGBoost/LightGBM/SHAP)
已验证核心常用
▼📋 完整 Prompt
我需要搭建一个【分类/回归/时间序列预测】模型来预测【目标变量】。请帮我完成完整的建模流程: 【数据准备】1.特征工程:缺失值处理、类别编码、数值标准化、特征交叉 2.训练集/验证集/测试集划分(时间序列用时间切分,非时序用随机切分)3.如果样本不均衡,用 SMOTE/欠采样/类别权重处理 【模型训练】4.至少训练4种模型:线性模型+树模型(XGBoost/LightGBM)+正则化模型(Ridge/Lasso)+集成模型(RandomForest) 5.对树模型做特征重要性排序和SHAP值分析 【模型评估】6.回归:MAE/RMSE/MAPE/R²/残差分布图;分类:AUC-ROC/Precision-Recall/F1/混淆矩阵/KS值 7.学习曲线判断是否过拟合/欠拟合 8.5-fold CV均值和标准差 【模型解释】9.SHAP Summary Plot + 单样本Waterfall图 10.部分依赖图(PDP)展示关键特征的非线性效应 【输出】11.模型对比表(各指标横向对比)12.最优模型的参数和配置 13.业务可落地的预测方案建议 请输出完整的 Python 代码。
💡 使用技巧:建模任务的万能模板。需要指定任务类型(分类/回归/时序)和目标变量。如果数据量大,优先用 LightGBM,速度快且效果好。
15
时间序列预测(多模型对比)
Prophet/ARIMA/LightGBM时序多模型对比预测与评估
已验证常用
▼📋 完整 Prompt
我有一份时间序列数据【描述:如每日GMV/酒店预订量】,需要做未来【N天/N周】的预测。请帮我用多种方法对比: 1. Prophet(Facebook):自动检测节假日效应、趋势变化点、周季节性。加入中国法定节假日和调休。输出趋势分量、周效应、节假日效应的分解图。 2. SARIMA:自动搜索最优(p,d,q)(P,D,Q,s)参数。用auto_arima或网格搜索。残差白噪声检验(Ljung-Box)。 3. LightGBM时序:将时序转为监督学习格式。滞后特征(lag 1/7/30)。滚动窗口统计特征。日期特征(星期几、月份、季度等)。 4. 模型对比:回测最近【30】天作为测试集,对比三个模型的MAE/MAPE/RMSE。画出预测值vs真实值对比图。画出未来【N】天的预测区间(置信区间80%/95%)。 5. 业务建议:根据预测结果给出业务决策建议。 请输出完整的 Python 代码。
💡 使用技巧:需要pip install prophet。Prophet对业务数据(有周末效应和节假日效应)表现最好。至少要有2-3个完整周期的历史数据。
16
K-Means 聚类 + 用户画像
从聚类到可落地的用户/商家分层画像(肘部法则+轮廓系数+雷达图)
已验证核心
▼📋 完整 Prompt
请帮我用 K-Means 聚类做用户/商家分层分析: 【数据准备】1.选择合适的聚类特征(标准化处理)2.用肘部法则+轮廓系数确定最优K值 3.PCA降维到2D用于可视化 【聚类分析】4.执行K-Means聚类 5.画PCA 2D散点图按聚类结果着色 6.画雷达图展示每个聚类的特征均值 7.计算每个聚类的规模和占比 【画像生成】8.对每个聚类输出完整用户画像:核心特征均值对比表、与全局均值的偏离方向和幅度、为该聚类命名(如"高频高消型""价格敏感型""沉睡型"等) 【策略建议】9.针对每个聚类给出差异化的运营/营销策略 10.评估每个聚类的商业价值(当前贡献+增长潜力) 请输出完整的 Python 代码(用 plotly 做交互图表)。
💡 使用技巧:分层运营的基础方法。特征选择是关键——选什么特征决定了聚类结果的含义。建议先用业务经验筛选5-8个核心特征。
17
因果推断:DID 双重差分
评估策略/政策/活动的真实因果效应(平行趋势检验+安慰剂检验)
已验证常用
▼📋 完整 Prompt
我需要用 DID(双重差分法)评估【某个策略/活动/政策】的真实效果: 【背景】处理组:【哪些城市/用户受到了策略影响】;对照组:【哪些没有受到策略影响】;干预时间:【策略生效日期】;观测指标:【如 GMV/订单量/核销率】;数据时间范围:【干预前N天→干预后N天】 请帮我完成: 1. 平行趋势检验(最关键!):画处理组和对照组在干预前的时间趋势图。用事件研究法检验干预前各期的系数是否显著≠0。如果平行趋势不成立,给出替代方案(PSM-DID/合成控制法)。 2. DID模型估计:标准DID回归 Y=β0+β1*Treat+β2*Post+β3*(Treat×Post)+ε。加入控制变量的扩展DID。汇报ATT(处理组的平均处理效应)。 3. 稳健性检验:安慰剂检验(假设干预提前发生,看"伪处理效应"是否显著)。替换对照组(用不同方法构造对照组,看结果是否稳健)。 4. 结果可视化:画处理组vs对照组的趋势对比图(标注干预时间线)。画事件研究法的系数图(含置信区间)。 请输出完整的 Python 代码和结果解读。
💡 使用技巧:平行趋势假设是DID的生命线——如果处理组和对照组在干预前趋势不一致,DID结果不可信。需要pip install linearmodels。
18
Shapley Value 特征归因
用SHAP解释模型,量化每个特征对预测的贡献(Summary/Waterfall/Force Plot)
已验证
▼📋 完整 Prompt
我已经训练好了一个【XGBoost/LightGBM/RandomForest】模型,请帮我用 SHAP 做完整的特征归因分析: 1. 全局特征重要性:SHAP Summary Plot(蜂群图)展示每个特征的整体影响方向和大小。SHAP Bar Plot特征重要性的均值排序。 2. 特征效应分析:SHAP Dependence Plot展示Top5特征的SHAP值vs特征值的散点图。识别非线性效应和交互效应。 3. 单样本解释:SHAP Waterfall图选3个典型样本(高/中/低预测值),解释为什么模型给出这个预测。SHAP Force Plot单样本加性归因可视化。 4. 业务指标归因:如果目标变量是【GMV/订单量】,将SHAP值换算为业务贡献量。例如:"用户层级"特征贡献了+15%的GMV增量,"折扣力度"贡献了+8%。 5. 交互效应检测:SHAP Interaction Values检测Top5特征对之间的交互效应。用SHAP dependence plot的着色来可视化交互。 请输出完整的 Python 代码(使用 shap 库)。
💡 使用技巧:SHAP是目前最主流的模型解释工具。注意:SHAP计算量大,如果数据量超过10万行,建议先采样再计算。需要pip install shap。
19
假设检验完整流程
从问题定义到统计结论的标准化检验流程(t检验/ANOVA/卡方/效应量)
已验证
▼📋 完整 Prompt
请帮我完成一个完整的假设检验流程: 【业务问题】:【描述你要验证的业务假设,如:"新策略是否提升了核销率?"】 请帮我: 1. 明确H0和H1:H0(原假设)=策略无效两组无差异;H1(备择假设)=策略有效两组有显著差异 2. 选择检验方法:如果是两组均值比较→先检验方差齐性(Levene),再选择独立t检验或Welch t检验;如果是配对样本→配对t检验;如果数据不服从正态分布→Mann-Whitney U检验;如果是多组比较→单因素ANOVA+Tukey HSD事后检验;如果是分类变量→卡方检验 3. 检验前提验证:正态性检验(Shapiro-Wilk/KS检验);方差齐性检验(Levene/Bartlett);如果前提不满足推荐替代的非参数方法 4. 执行检验并解读:汇报检验统计量、p值、效应量(Cohen's d/η²);画分布对比图(箱线图+小提琴图+p值标注);给出置信区间 5. 业务结论:用非统计语言解释结果;评估"统计显著"是否等于"业务显著"(效应量是否足够大);给出下一步行动建议 请输出完整的 Python 代码。
💡 使用技巧:注意区分"统计显著"和"业务显著"——大样本下很小的差异也可能统计显著,但可能没有业务意义。效应量(Cohen's d)比p值更能说明实际影响。
20
回归分析诊断与解读
完整的OLS回归建模、四大诊断图、VIF检验、逐步回归/LASSO
已验证
▼📋 完整 Prompt
请帮我做完整的回归分析(以【目标变量】为因变量): 1. 模型构建:OLS回归(使用statsmodels输出完整回归表);如果存在多重共线性(VIF>10),用Ridge/Lasso替代;逐步回归或LASSO做特征选择 2. 模型诊断(四大诊断图):Residuals vs Fitted检验线性假设和同方差性;Q-Q Plot检验残差正态性;Scale-Location检验同方差性;Residuals vs Leverage检验异常值和杠杆点(Cook's Distance) 3. 模型检验:F检验模型整体显著性;R²和Adjusted R²;每个系数的t检验和置信区间;异方差检验(Breusch-Pagan/White检验);自相关检验(Durbin-Watson,对时间序列数据) 4. 结果解读:用业务语言解读每个显著变量的系数含义;区分"相关性"和"因果性"的警示;给出预测公式 5. 如果模型诊断不通过,给出改进方案(变量变换/加权最小二乘/稳健回归) 请输出完整的 Python 代码。
💡 使用技巧:回归分析的核心不是跑模型,而是诊断和解读。四大诊断图一定要画——很多时候R²很高但模型假设被严重违反。
21
生存分析(用户留存/流失预测)
Kaplan-Meier+Cox模型分析用户生命周期(中位生存时间+风险比)
已验证
▼📋 完整 Prompt
请帮我用生存分析研究用户/商家的留存和流失: 【数据说明】起始事件:【如用户首次下单/商家首次入驻】;终点事件:【如用户连续30天未下单/商家退出平台】;删失数据:【研究结束时仍未发生终点事件的样本】;协变量:【如用户渠道、首单金额、城市等级】 请帮我完成: 1. Kaplan-Meier生存曲线:整体中位生存时间。按不同分组(渠道/城市/首单金额分层)画KM曲线。Log-rank检验不同组的生存曲线是否有显著差异。 2. Cox比例风险模型:建模并输出每个协变量的风险比(Hazard Ratio)。检验比例风险假设(Schoenfeld残差)。如果违反比例风险假设,考虑分层Cox或时变系数。 3. 预测与应用:预测每个用户未来【30/60/90】天的留存概率。识别"高风险流失用户"(留存概率<某阈值)。画校准曲线验证预测准确性。 4. 业务建议:哪些因素对留存影响最大?高风险用户有什么共同特征?应该在什么时间点(如第7天/第14天)进行干预? 请输出完整的 Python 代码(使用 lifelines 库)。
💡 使用技巧:生存分析比简单的"XX天留存率"包含更多信息——它考虑了删失数据和时间维度。需要pip install lifelines。特别适合订阅制/会员制的业务。
🎨数据可视化6 条指令
22
交互式仪表板一键生成
用Plotly生成交互式业务看板(KPI卡片+趋势图+热力图+联动)
已验证核心常用
▼📋 完整 Prompt
请帮我用 Plotly 生成一个交互式业务数据看板,要求: 【布局】:2行×3列的subplot布局(或根据图表数量自动调整) 【图表内容】:1.左上:核心KPI卡片(总GMV、订单量、核销率、客单价,带环比箭头)2.中上:日度趋势折线图(含7日移动平均线,支持时间范围缩放)3.右上:品类/城市占比饼图或环形图(Top5+其他)4.左下:城市/品类排名横向柱状图 5.中下:热力图(如星期几×小时的订单量热力图)6.右下:散点图或气泡图(如订单量vs核销率,气泡大小=GMV) 【交互功能】:所有图表支持hover显示详细数据;图表之间联动(点击饼图的一个品类,其他图表过滤到该品类);支持时间范围选择器;支持导出为PNG 【样式要求】:深色主题(dark template);统一配色方案;标题清晰、坐标轴标签完整 请输出完整的 Python 代码。
💡 使用技巧:业务汇报和日常监控的利器。Plotly的make_subplots可以实现复杂布局。如果需要分享给非技术人员,可以导出为独立HTML文件。
23
ECharts 复杂图表生成
桑基图、关系图、中国地图、漏斗图、雷达图等高级图表
已验证
▼📋 完整 Prompt
请帮我用 ECharts 生成一个【桑基图/关系图/中国地图/漏斗图/雷达图/仪表盘】: 【图表类型】:【选择一种】 【数据说明】:【描述你的数据结构和含义】 【样式要求】:深色背景(#0f1119),配合亮色数据元素;渐变色方案,避免使用默认配色;添加tooltip交互提示;如果是桑基图,标注每个节点的流量大小;如果是关系图,支持拖拽和缩放;响应式设计,适配不同屏幕 请输出完整的 HTML 代码(包含 CDN 引入的 ECharts)。
💡 使用技巧:ECharts在中文环境下比Plotly更友好,特别适合桑基图(用户流转)、关系图(实体关联)、中国地图(区域数据)等场景。
24
对比分析可视化
多组对比、前后对比、竞品对比的专业图表(小提琴图/斜率图/雷达图)
已验证
▼📋 完整 Prompt
我需要做【A组vsB组/干预前vs干预后/我方vs竞对】的对比分析可视化: 请帮我生成:1.并列箱线图/小提琴图:展示两组分布差异 2.镜像柱状图:左右对称展示两组数据 3.斜率图(Slope Chart):展示每个实体的前后变化方向和幅度 4.差异瀑布图:展示各因素对总差异的贡献分解 5.雷达图:多维度对比(如我方vs竞对在价格/服务/内容/流量等维度) 【样式要求】:两组用不同颜色区分(如蓝vs橙),视觉对比强烈;标注关键差异的数值和百分比;添加统计检验结果标注(如p值、显著性星号) 请输出完整的 Python 代码(使用 plotly)。
💡 使用技巧:对比分析的关键是让差异"一眼可见"。斜率图(Slope Chart)是展示前后变化的利器,Tufte经典图表类型。
25
地理空间数据可视化
中国地图、城市热力、轨迹动线(ECharts/Plotly/pyecharts)
已验证
▼📋 完整 Prompt
我有按【省份/城市】维度的数据,请帮我做地理可视化: 【数据格式】:【省份/城市名称, 指标值】 请用以下至少两种方式实现: 1. ECharts中国地图:按省份着色(choropleth),颜色深浅表示指标大小;支持hover显示具体数值;如果是城市级别,用散点图叠加(气泡大小=指标值) 2. Plotly地理图:scatter_geo或choropleth;支持缩放和拖拽 3. pyecharts(备选):Map类,自动匹配中文地名 【额外需求】:标注Top5和Bottom5的城市名称;添加图例和色阶;如果是时间序列,支持按时间播放动画 请输出完整的代码。
💡 使用技巧:ECharts的中国地图需要加载中国地图JSON。pyecharts内置中国地图使用更方便。注意城市名称要与地图数据中的名称一致。
26
PPT级别的数据报告图表
适合放入管理层汇报PPT的专业图表样式(matplotlib/seaborn)
已验证常用
▼📋 完整 Prompt
我需要制作一张适合放入管理层汇报PPT的图表。请帮我用matplotlib/seaborn生成: 【图表内容】:【描述你要展示的数据和故事】 【关键信息】:【你想让观众一眼看到什么?如:"核销率从35%提升到52%"】 【设计要求】:1.使用matplotlib+seaborn,自定义样式 2.配色方案:使用公司品牌色或专业的渐变色 3.字体:支持中文显示,标题用粗体 4.去除默认的顶部和右侧边框(sns.despine()) 5.标注关键数据点(用箭头+文字标注)6.添加副标题或注释说明数据来源和时间范围 7.分辨率:DPI=150,适合PPT嵌入 8.整体风格:简洁、专业、重点突出 9.如果要展示多个图表,用plt.subplots整齐排列 【输出格式】:保存为PNG,并提供完整的Python代码。 请生成代码。
💡 使用技巧:管理层汇报图表的核心原则:一张图只讲一个故事。去掉所有不必要的元素(网格线、多余的颜色、装饰),只保留最核心的数据和结论。
27
数据故事线设计
从数据到叙事:帮你设计有说服力的分析故事线(Hook→Insight→Action)
实用
▼📋 完整 Prompt
我有一组数据分析发现,需要设计一个有说服力的数据故事线用于汇报。请帮我: 【背景】:【简要描述业务背景和要解决的问题】 【核心发现】:【列出3-5个关键数据发现】 【目标听众】:【如:CEO/业务VP/运营总监/产品经理】 请帮我设计故事线: 1. Hook(开场钩子):用一个惊人的数字或反直觉的发现开场 2. Problem(问题定义):清晰地定义要解决的问题 3. Analysis(分析过程):3-5个层层递进的数据发现,每个发现配一个图表建议 4. Insight(核心洞察):将数据发现提炼为1-2句核心洞察 5. Recommendation(行动建议):基于洞察给出具体、可落地的建议 6. Expected Impact(预期影响):量化建议落地后的预期效果 【图表建议】:为每个核心发现推荐最合适的图表类型,说明每个图表要突出展示的关键信息。 请输出完整的汇报大纲。
💡 使用技巧:数据分析师的软实力——同样的数据,讲不同的故事效果天差地别。一个好的数据故事应该是:1个核心观点+3-5个支撑数据点+1个行动建议。
🗄️SQL 查询与数据库6 条指令
28
复杂业务 SQL 编写
窗口函数、多层嵌套、多表关联的复杂查询(含性能优化建议)
已验证核心常用
▼📋 完整 Prompt
我需要写一个 SQL 查询来实现以下业务需求: 【业务需求】:【用自然语言描述你要查什么,如:"计算每个城市过去30天的新用户首单核销率"】 【数据库类型】:【MySQL/PostgreSQL/Hive/Spark SQL/ClickHouse】 【表结构】: - 表名1:【order_table】字段:【order_id, user_id, city, order_date, amount, status, ...】 - 表名2:【user_table】字段:【user_id, register_date, channel, city, ...】 【特殊要求】: - 考虑性能优化(大表查询,数据量约【X亿行】) - 如果需要窗口函数,请使用ROW_NUMBER()/RANK()/LAG()/LEAD() - 如果需要处理重复数据,请先去重 - 如果需要日期处理,请考虑时区问题 - 输出结果按【某字段】排序 请输出:1.完整的SQL语句 2.每步逻辑的注释说明 3.预期输出的字段和含义 4.性能优化建议(如:建议在哪些列上建索引)
💡 使用技巧:表结构信息越详细,SQL越准确。如果涉及多表Join,说明主键和外键关系。对大表查询,尽量在子查询中先过滤再Join。
29
SQL 性能优化与改写
慢查询诊断、执行计划解读、SQL重写优化(含索引建议)
已验证
▼📋 完整 Prompt
我有一条 SQL 查询运行很慢,请帮我分析和优化: 【原始SQL】:【粘贴你的SQL】 【执行信息】:数据库类型:【MySQL/PostgreSQL/Hive】;数据量级:【各表的行数】;当前执行时间:【X秒/分钟】;已有索引:【列出相关表的已有索引】 请帮我: 1. 问题诊断:分析慢查询的可能原因——全表扫描?笛卡尔积?索引失效(隐式类型转换、函数包裹字段等)?数据倾斜? 2. SQL改写:给出优化后的SQL(可能涉及多种改写方案)——子查询优化;JOIN顺序调整(小表驱动大表);用窗口函数替代自连接;用UNION ALL替代OR条件 3. 索引建议:推荐需要新建的索引(组合索引的顺序建议) 4. 架构建议(如果需要):是否考虑分区表/物化视图/数据预聚合 请给出完整的分析和优化方案。
💡 使用技巧:最常见的SQL性能杀手:①SELECT * ②未使用索引的JOIN ③WHERE中对字段做函数运算 ④OR条件导致索引失效。优先解决这四类问题。
30
用户留存 SQL 模板
次日/7日/30日留存率的标准SQL实现(含留存矩阵+留存曲线)
已验证常用
▼📋 完整 Prompt
请帮我写 SQL 计算用户留存率: 【数据表】:user_behavior 【字段】:user_id, event_date, event_type(如:register/order/login) 【需求】: 1. 计算新用户的次日留存、3日留存、7日留存、30日留存 2. 按注册渠道/城市/用户层级分组,分别计算留存率 3. 输出留存率矩阵(行为注册日期,列为Day1/Day3/Day7/Day30的留存率) 4. 如果数据量大,给出性能优化方案 【数据库类型】:【MySQL/PostgreSQL/Hive】 请输出:1.完整的SQL语句 2.结果样例 3.留存曲线的业务解读方法
💡 使用技巧:留存率是衡量产品健康度的核心指标。注意区分"新用户留存"和"活跃用户留存"——两者的计算基数和业务含义不同。
31
数据宽表构建(特征工程SQL)
用SQL构建用于建模的用户/商家维度特征宽表
已验证
▼📋 完整 Prompt
我需要用 SQL 构建一个用户/商家维度的特征宽表,用于后续建模分析: 【主键】:【user_id/merchant_id】 【时间窗口】:【如:过去30天、过去90天、历史全量】 【需要的特征维度】: 1. 基础属性:年龄、性别、城市、注册时间、渠道 2. 行为统计(近30天):登录天数、浏览商品数、搜索次数、下单次数、下单金额、客单价、使用优惠券次数、优惠券金额占比 3. 行为趋势:近7天vs前7天的指标变化率;近30天vs前30天的指标变化率 4. 偏好特征:最常购买的品类Top3;最常下单的时间段(早/中/晚/夜);最常使用的支付方式 5. 标签特征:是否高价值用户;是否有流失风险(近14天未活跃);用户生命周期阶段(新客/成长/成熟/衰退/流失) 【数据库类型】:【Hive/Spark SQL/MySQL】 【表结构】:【列出相关的表名和字段】 请输出完整的 SQL 代码,每段加注释说明。
💡 使用技巧:特征宽表是建模的基础。建议先在小样本上验证SQL逻辑正确性,再跑全量。对大数据量场景,考虑用分区表和中间表分步构建。
32
Python SQL 混合分析
Python连接数据库+读取数据+分析+回写的完整工作流
已验证
▼📋 完整 Prompt
请帮我写一个 Python 脚本,完成以下数据库操作流程: 【数据库连接】:【MySQL/PostgreSQL/ClickHouse】,连接信息通过环境变量读取 【流程】: 1. 连接数据库(使用SQLAlchemy+pymysql/psycopg2) 2. 执行【你的SQL查询】,读取数据到pandas DataFrame 3. 在Python中对数据做【描述分析/清洗/建模】 4. 将分析结果写回数据库(新建表或更新已有表) 5. 关闭连接,输出执行耗时 【额外要求】: - 使用上下文管理器(with)管理连接 - 添加异常处理和重试机制 - 如果数据量大,使用分块读取 - 添加日志记录(使用logging模块) - 配置文件与代码分离(用config.py或.env) 请输出完整的 Python 代码。
💡 使用技巧:Python+SQL是数据分析师最常用的技术栈。推荐使用SQLAlchemy做ORM连接,pandas的read_sql可以直接将查询结果转为DataFrame。
33
业务口径标准化
将模糊的业务指标转化为精确的SQL计算口径(含口径文档模板)
实用
▼📋 完整 Prompt
我需要将以下模糊的业务指标转化为精确的SQL计算口径: 【业务指标】:【如:"活跃用户数""核销率""客单价""复购率""流失用户"】 请帮我: 1. 定义澄清:这个指标在业务上到底衡量什么?可能存在哪些歧义?(如"活跃用户"=登录就算?还是下单才算?)时间窗口如何定义? 2. 计算口径:分子和分母的精确定义;需要排除的异常情况(如测试用户、退款订单等);数据源表和字段 3. SQL实现:给出至少两种计算方式(如精确计算vs近似估算);标注每种方式的优缺点和适用场景 4. 口径文档:生成一个标准化的指标口径文档(包含:指标名称、定义、计算公式、数据源、更新频率、负责人) 【数据库类型】:【MySQL/PostgreSQL/Hive】
💡 使用技巧:数据团队最常见的痛点——同一个指标,不同人算出不同结果。根本原因就是口径不统一。建议将核心指标的口径文档沉淀到Wiki或数据字典中。
📝业务报告与洞察7 条指令
34
周报/月报自动化生成
从数据到结构化业务报告的全自动流程(结论先行+风险预警+下周重点)
已验证核心常用
▼📋 完整 Prompt
请帮我根据以下数据生成一份【周报/月报/季报】: 【报告类型】:【周报/月报】 【业务线】:【如:抖音酒旅-华东大区】 【报告周期】:【2025年第X周/2025年X月】 【数据摘要】: - 核心KPI:【GMV:X万(环比+Y%)|订单量:X万(+Y%)|核销率:X%(+Ypp)|客单价:X元(+Y%)】 - 分城市数据:【粘贴各城市的关键数据】 - 分品类数据:【粘贴各品类的关键数据】 - 竞对动态:【简要描述竞对本周的主要动作】 - 异常事件:【本周发生的特殊事件】 【报告结构要求】: 1. 核心摘要(Executive Summary):3-5句话总结本周最关键的发现 2. KPI概览:核心指标的完成情况和趋势 3. 亮点分析:做得好的地方+原因分析+可复用的经验 4. 风险预警:需要关注的下滑指标+根因初步判断 5. 竞对动态:竞对本周动作+对我们的影响评估 6. 下周重点:3-5个下周优先级最高的事项 【风格要求】:结论先行,数据支撑;每个发现都要有"So What"(对业务意味着什么);避免流水账,突出重点和异常 请输出完整的报告内容。
💡 使用技巧:把每次的数据和发现粘贴进去,AI可以帮你组织语言和逻辑。关键是输入数据要结构化——越清晰的数据输入,越好的报告输出。
35
数据洞察提炼(What→So What→Now What)
将原始数据转化为有深度的业务洞察(三层解读法+置信度标注)
已验证常用
▼📋 完整 Prompt
我有一组数据分析结果,请帮我从中提炼出有价值的业务洞察: 【数据发现】:1.【粘贴你的数据发现1】2.【粘贴你的数据发现2】3.【粘贴你的数据发现3】... 【业务背景】:【简要描述业务现状和目标】 请对每个数据发现进行三层解读: 1. What(发生了什么):用数据描述客观事实 2. So What(意味着什么):这个发现对业务的影响是什么?为什么重要? 3. Now What(接下来做什么):基于这个发现,建议采取什么行动? 【额外要求】: - 将多个发现串联成一个完整的叙事逻辑 - 区分"相关性"和"因果性",避免过度解读 - 标注每个洞察的置信度(高/中/低) - 如果有反直觉的发现,重点标注 请输出结构化的洞察报告。
💡 使用技巧:数据分析师的核心价值不是"跑数",而是"提炼洞察"。这个Prompt帮你完成从数据到观点到行动的转化。What→So What→Now What是最经典的分析框架。
36
竞品分析报告框架
系统化的竞品分析框架(产品/运营/数据/战略四维度+SWOT+数据收集指南)
已验证
▼📋 完整 Prompt
请帮我搭建一个【行业/赛道】的竞品分析框架: 【分析对象】:我方:【描述】;竞对A:【描述】;竞对B:【描述】;竞对C:【描述】 【分析维度】(每个维度请给出数据收集方法和分析框架): 1. 产品维度:核心功能对比矩阵;用户体验差异分析;产品迭代速度和方向 2. 运营维度:供给端(商家数量/质量/品类覆盖);需求端(用户规模/活跃度/留存);内容端(内容数量/质量/更新频率);价格策略(定价区间/促销力度/补贴方式) 3. 数据维度:市场份额估算方法;增长趋势对比;用户口碑/NPS对比 4. 战略维度:SWOT分析;差异化竞争策略建议;潜在威胁和机会 5. 输出:竞品分析报告模板;数据收集Checklist;定期更新的节奏建议 请输出完整的分析框架。
💡 使用技巧:竞品分析不是一次性工作,建议建立持续的竞品监控机制。关键是要定义清楚"什么是真正需要关注的竞对动作"——不是所有变化都重要。
37
业务策略建议生成
基于数据分析结果生成可落地的策略建议(P0/P1/P2分级+优先级矩阵)
已验证
▼📋 完整 Prompt
基于以下分析结果,请帮我生成可落地的业务策略建议: 【核心问题】:【描述要解决的业务问题,如:"华东区酒店核销率持续下滑"】 【数据发现】:1.【发现1+数据支撑】2.【发现2+数据支撑】3.【发现3+数据支撑】 【约束条件】:【预算限制/时间限制/人力限制/技术限制】 请按以下框架输出策略建议: 1. 策略分级:P0(立即执行)=投入小见效快的"低垂果实";P1(本周内启动)=需要一定资源但确定性高的策略;P2(本月规划)=需要更多验证和准备的长期策略 2. 每个策略包含:策略名称和一句话描述;目标指标和预期提升幅度;执行步骤(3-5步);所需资源和协作方;风险点和应对预案;效果验证方法(如何判断策略是否生效) 3. 优先级排序矩阵:横轴=实施难度(低→高);纵轴=预期影响(小→大);将各策略标注在矩阵上 请输出完整的策略建议文档。
💡 使用技巧:分析师的最终价值是驱动业务决策。策略建议要具体——不要只说"提升核销率",要说"通过A动作,预期提升核销率X个百分点,需要Y资源,Z周见效"。
38
经营分析会材料准备
月度/季度经营分析会的完整材料框架(开场→KPI→亮点→问题→规划)
已验证常用
▼📋 完整 Prompt
我需要准备【月度/季度】经营分析会的材料。请帮我设计汇报框架: 【会议信息】:参会人:【如CEO/COO/各业务线VP】;时长:【30/60分钟】;业务线:【如抖音酒旅】 【数据准备】:核心KPI完成情况:【粘贴关键数据】;与目标的差距:【粘贴差距数据】;主要亮点:【粘贴亮点】;主要问题:【粘贴问题】 请帮我设计汇报结构: 1. 开场(2分钟):一句话总结本月经营状况;最亮眼的1个数字+最需要关注的1个问题 2. KPI达成总览(5分钟):核心指标仪表盘(完成率红黄绿灯);与上月/去年同期的对比;差距最大的指标高亮 3. 亮点深挖(10分钟):2-3个成功案例的详细拆解;成功的关键因素;可复用的经验和方法 4. 问题诊断(10分钟):1-2个核心问题的根因分析;已经采取的措施和效果;需要管理层决策的事项 5. 下月规划(5分钟):下月核心目标和关键举措;需要的资源和支持;风险提示 【风格要求】:每页PPT只讲一个核心观点;数据图表+一句话结论的格式;问题部分要有"我们已经做了什么"和"需要你们做什么" 请输出完整的汇报大纲和关键页面内容。
💡 使用技巧:经营分析会的核心原则:①结论先行 ②数据说话 ③问题不遮掩 ④建议要具体。最忌讳的是把分析会开成"数据播报会"——没人想听你念数字。
39
市场/行业分析报告框架
结构化行业研究框架(TAM/SAM/SOM+波特五力+趋势判断+数据来源指南)
实用
▼📋 完整 Prompt
请帮我搭建一个【行业名称】的市场分析报告框架: 【研究目的】:【如:评估进入该市场的机会/了解市场规模和竞争格局/为年度规划提供输入】 【分析框架】(使用经典的行业分析方法): 1. 市场规模与增长:TAM(总可寻址市场)/SAM(可服务市场)/SOM(可获取市场);历史增速和未来预测;市场驱动因素和抑制因素 2. 竞争格局:波特五力模型分析;市场份额分布(CR3/CR5);竞争态势矩阵 3. 用户分析:用户画像和分层;消费行为和决策路径;未满足的需求和痛点 4. 趋势判断:技术趋势;政策趋势;消费趋势 5. 机会与建议:市场进入策略建议;风险评估;下一步行动建议 【数据来源建议】:需要收集哪些数据?数据可以从哪里获取?如何交叉验证数据可靠性? 请输出完整的报告框架和数据收集指南。
💡 使用技巧:行业分析的关键是"三角验证"——用多个独立数据源交叉验证同一个结论。单一数据源的结论可靠性存疑。TAM/SAM/SOM框架是估算市场规模的经典方法。
40
数据驱动决策备忘录
写给管理层的简短决策建议备忘录(TL;DR+3个关键数据+风险评估)
实用
▼📋 完整 Prompt
请帮我起草一份给管理层的决策备忘录: 【决策事项】:【如:是否将华东区酒店补贴预算增加30%?】 【背景】:【简要描述为什么需要做这个决策】 【数据分析结论】:【粘贴你的分析关键发现】 【可选方案】:方案A【描述+预计投入+预期产出+风险】;方案B【描述+预计投入+预期产出+风险】;方案C维持现状 【备忘录结构】(总字数控制在500字以内): 1. TL;DR(一句话结论和建议) 2. Why Now(为什么现在必须做决策?紧迫性在哪?) 3. Key Data Points(支撑建议的3个最关键数据) 4. Recommendation(推荐方案+核心理由) 5. Risks & Mitigation(主要风险和应对措施) 6. Next Steps(如果批准,接下来3步是什么) 【风格要求】:极度精简,管理层时间宝贵;每个观点都要有数据支撑;明确标注"建议"vs"仅供参考" 请输出完整的决策备忘录。
💡 使用技巧:写给管理层的备忘录要遵循"电梯演讲"原则——如果只有30秒,最想让他们记住什么?把最重要的结论放在最前面,细节作为附录。
🚨异常检测与归因5 条指令
41
指标异动归因分析(全流程)
从发现异常到定位根因的完整分析链路(时间/地域/用户/品类四维下钻)
已验证核心常用
▼📋 完整 Prompt
我发现【指标名称】发生了异常波动,请帮我做系统的归因分析: 【异常描述】:指标:【如GMV/订单量/核销率/转化率】;异常时间:【具体日期或时间段】;异常幅度:【如下降了15%/上升了20%】;正常范围:【该指标的正常波动范围】 【数据维度】(按以下维度逐层下钻): 1. 时间维度拆解:异常是瞬时的还是持续的?是某个小时/某天的问题还是全时段的问题?与历史同期(上周/上月/去年同期)对比 2. 空间/地域维度拆解:是全局性的还是局部的?哪些城市/区域贡献了最多的变化?画城市维度的贡献度瀑布图 3. 用户维度拆解:是新用户的问题还是老用户的问题?是哪个用户层级(高频/中频/低频)变化最大?用户行为链路中哪个环节出了问题? 4. 供给/品类维度拆解:是哪个品类/商家类型的变化最大?是头部商家还是长尾商家的问题? 5. 外部因素排查:是否有节假日/天气/竞对动作等外部因素?是否有系统故障/数据上报异常? 【归因方法】:用加法/乘法分解量化各维度的贡献度;给出根因假设+验证方法;区分"主要原因"和"次要原因" 请输出完整的分析框架和代码。
💡 使用技巧:异动归因是数据分析师最高频的工作之一。核心方法论:从整体到局部逐层下钻,用"贡献度"而非"变化率"来量化——因为变化率大的维度不一定贡献大。
42
异常检测自动化系统
搭建自动监控+异常告警的完整方案(3-Sigma/IQR/Prophet/IsolationForest)
已验证
▼📋 完整 Prompt
请帮我设计一套业务指标的自动化异常检测系统: 【监控指标】:【列出需要监控的核心KPI】 【数据粒度】:【如:日粒度/小时粒度】 【数据量级】:【如:覆盖200+城市×30个品类】 【检测方法】(请给出至少3种方法的对比): 1. 统计方法:3-Sigma原则(均值±3倍标准差);IQR方法(Q1-1.5×IQR, Q3+1.5×IQR);同比/环比阈值(如:同比下降超过20%触发告警) 2. 时间序列方法:Prophet预测区间(实际值超出预测的置信区间);STL分解后对残差分量做异常检测 3. 机器学习方法:Isolation Forest;LSTM Autoencoder(重构误差大=异常) 【告警策略】:分级告警:黄色(关注)/橙色(预警)/红色(紧急);告警收敛:同一根因的多个指标异常合并为一条告警;告警抑制:已知原因(节假日/活动)的异常不重复告警 【输出要求】:完整的Python代码;异常检测结果的可视化(标注异常点);告警消息模板(推送企业微信/钉钉/飞书) 请输出完整方案。
💡 使用技巧:异常检测的最大挑战不是"检测"而是"降噪"——如果每天收到50条告警,最后会变成"狼来了"。好的告警系统应该有告警收敛和分级机制。
43
贡献度分解(瀑布图归因)
量化各因素对指标变化的贡献大小(加法/乘法分解+连环替代法)
已验证常用
▼📋 完整 Prompt
我需要将【总指标】的变化分解到各个子维度,量化每个维度的贡献: 【场景】:【如:GMV从1000万下降到850万,下降150万,是哪些因素造成的?】 请帮我用以下方法做贡献度分解: 1. 加法分解(适用于GMV=Σ各品类GMV):计算每个品类的GMV变化量;计算每个品类对总变化的贡献度=该品类变化/总变化;画瀑布图(Waterfall Chart)展示 2. 乘法分解(适用于GMV=用户数×转化率×客单价):用连环替代法(因素分析法)分解;公式:ΔGMV=Δ用户数×转化率₀×客单价₀+用户数₁×Δ转化率×客单价₀+用户数₁×转化率₁×Δ客单价;画堆叠柱状图展示各因素的贡献 3. 混合分解:先用加法分解到品类,再用乘法分解每个品类;输出完整的归因矩阵 【可视化要求】:瀑布图+堆叠贡献图;标注每个因素的贡献度和百分比 请输出完整的 Python 代码。
💡 使用技巧:贡献度分解是归因分析的核心工具。关键原则:先做加法分解(哪个子项变化大),再做乘法分解(子项内部哪个因素驱动)。连环替代法的顺序会影响结果,建议按业务逻辑确定替代顺序。
44
数据波动根因定位(Adtributor算法)
基于Adtributor算法的多维度根因定位(解释力+惊奇度综合评分)
已验证
▼📋 完整 Prompt
请帮我用 Adtributor 算法(或类似的归因方法)进行多维度根因定位: 【问题】:某个指标的总体值发生了异常变化,需要定位到具体的维度值 【可用维度】:维度1:城市(200+取值);维度2:品类(10个取值);维度3:用户层级(5个取值);维度4:渠道(8个取值) 【算法思路】: 1. 对每个维度,计算每个维度值的:解释力(Explanatory Power)=该维度值的变化量/该维度所有变化量之和;惊奇度(Surprise)=实际变化vs期望变化(基于历史占比)的偏离程度 2. 用JS散度或类似度量,衡量维度值分布的变化程度 3. 对每个维度值计算综合得分:Score=α×解释力+β×惊奇度;得分最高的Top N个维度值作为根因候选 4. 对候选根因做交叉验证:如果"北京"和"酒店"同时被定位为根因,检查"北京×酒店"交叉项的贡献 【输出要求】:每个维度的根因排序列表;根因的贡献度和置信度;根因之间的交叉效应分析;完整的Python实现代码 请输出完整方案和代码。
💡 使用技巧:Adtributor是微软发表的经典根因定位算法,核心思想是同时考虑"变化大不大"(解释力)和"是不是反常"(惊奇度)。适用于维度多、取值多的复杂业务场景。
45
异常事件影响量化
量化突发事件/系统故障/策略变更对业务的影响(反事实预测+对照组+DID)
实用
▼📋 完整 Prompt
最近发生了一个【异常事件】,需要量化它对业务的影响: 【事件描述】:事件类型:【系统故障/策略变更/竞对动作/突发新闻/天气灾害】;发生时间:【精确到小时】;影响范围:【全局/部分城市/部分品类】;事件持续:【X小时/X天】 【量化方法】: 1. 反事实预测法:用事件前的数据训练预测模型;预测"如果没有事件"的指标值(反事实基线);影响量=实际值-预测值;画实际值vs预测值的对比图 2. 对照组法(如果有未受影响的对照组):用DID方法:影响=(处理组事后-事前)-(对照组事后-事前);检验平行趋势假设 3. 同期对比法:与去年同期/上周同一天对比;扣除正常波动后的净影响 【输出要求】:影响量的点估计+区间估计;分维度(城市/品类/用户)的影响拆解;恢复时间预估(指标何时回归正常?);事后复盘报告模板 请输出完整的分析代码和报告框架。
💡 使用技巧:事件影响量化的关键挑战是"反事实基线"的构建——我们永远无法知道如果事件没发生会怎样。多种方法交叉验证可以提高结论的可信度。
🧪AB 测试与实验设计5 条指令
46
AB测试完整设计与分析
从样本量计算到统计检验的完整AB测试流程(含多指标矫正+分群分析)
已验证核心常用
▼📋 完整 Prompt
我需要设计和分析一个AB测试: 【实验信息】:实验目的:【如:验证新推荐算法是否能提升核销率】;实验指标(主指标):【如核销率】;实验指标(辅助指标):【如CTR/客单价/用户满意度】;预期提升:【如2个百分点(从35%到37%)】;对照组=当前策略;实验组=新策略 【实验设计】: 1. 样本量计算:显著性水平α=0.05;统计功效1-β=0.80;最小可检测效应(MDE)=【预期提升幅度】;基线转化率=【当前指标值】;计算每组所需的最小样本量 2. 分流设计:随机化单元:【用户ID/设备ID/城市】;分流比例:【如50:50】;SRM(样本比例偏差)检验 3. 实验周期:最小运行天数(考虑周周期效应);新颖效应(Novelty Effect)的处理 【结果分析】: 4. 假设检验:主指标的假设检验(t检验/比例z检验);计算p值+置信区间;效应量(Cohen's d/相对提升) 5. 多指标矫正:如果同时看多个指标,用Bonferroni或FDR矫正 6. 分群分析:不同用户群的效果是否一致?是否存在辛普森悖论? 7. 实验结论与建议:是否全量上线?理由是什么?如果不显著,是样本量不够还是真的没效果? 请输出完整的Python代码和报告模板。
💡 使用技巧:AB测试最常犯的错误:①样本量不够就下结论 ②看多个指标但不做多重比较矫正 ③实验周期太短忽略周周期效应。建议用在线计算器验证样本量。
47
AB测试样本量计算器
快速计算AB测试所需样本量和实验周期(灵敏度分析+MDE关系曲线)
已验证常用
▼📋 完整 Prompt
请帮我计算AB测试所需的样本量: 【输入参数】:显著性水平α:【0.05】;统计功效1-β:【0.80或0.90】;基线转化率:【如10%】;预期提升(MDE):【如+2pp(绝对提升)/+20%(相对提升)】;对照组和实验组的比例:【50:50/其他】 【计算内容】: 1. 每组所需的最小样本量 2. 如果日均流量为【X】,预计需要多少天 3. 不同MDE下的样本量需求表(灵敏度分析) 4. 不同α和β下的样本量变化 【可视化】:MDE vs 样本量的关系曲线;标注当前参数对应的样本量 请输出完整的Python代码(使用statsmodels或scipy)。
💡 使用技巧:样本量不够是AB测试失败的最常见原因。建议实验前一定先算样本量——很多时候你会发现"需要跑3周但我只有1周",这时候要么降低MDE要求,要么不做实验。
48
准实验设计(无随机化时)
无法随机分流时的因果推断替代方案(DID/PSM/合成控制法/RDD/工具变量)
已验证
▼📋 完整 Prompt
我无法做随机化AB测试(原因:【如:策略已全量上线/无法分流/伦理限制】),需要用准实验方法评估策略效果: 【场景】:【描述策略和评估需求】 请帮我选择并实施合适的准实验方法: 1. DID(双重差分):适用场景=有自然形成的处理组和对照组;前提=平行趋势假设;实现步骤和代码 2. PSM(倾向性得分匹配):适用场景=处理组和对照组在可观测特征上有差异;步骤=估计倾向性得分→匹配→平衡性检验→估计处理效应;匹配方法=最近邻/核匹配/分层匹配 3. 合成控制法(SCM):适用场景=只有一个处理单元,用其他单元的加权组合构造"合成对照组";适用于城市级/国家级的政策评估 4. 断点回归(RDD):适用场景=策略基于某个连续变量的阈值(如评分>4.5的商家享受优惠);前提=在阈值附近个体近似随机 5. 工具变量(IV):适用场景=存在内生性问题时 请对比各方法的适用条件和局限,并输出Python实现代码。
💡 使用技巧:准实验方法的核心挑战是"选择偏差"——处理组和对照组本质上不同。DID和PSM是最常用的两种方法。务必做平行趋势检验和平衡性检验,否则结论不可信。
49
AB测试结果可视化
专业的AB测试结果图表(指标对比+累积效应+分布对比+分群森林图)
已验证
▼📋 完整 Prompt
我的AB测试结果如下,请帮我生成专业的可视化图表: 【实验数据】:对照组:【样本量、均值/比例、标准差】;实验组:【样本量、均值/比例、标准差】;p值:【】;置信区间:【】 请生成以下图表(适合放入实验报告): 1. 指标对比图:并列柱状图+误差线(95%CI);标注p值和显著性 2. 累积效应图:X轴=实验天数;Y轴=累积的组间差异;展示效应随时间如何稳定 3. 分布对比图:重叠直方图/KDE(对照组vs实验组);如果是比例指标,展示比例对比 4. 分群效应森林图:各用户群的效应量和置信区间;标注整体效应 5. 实验健康度检查:SRM检验结果;各天的样本量分布 请输出完整的Python代码(使用plotly)。
💡 使用技巧:AB测试报告的核心三张图:①指标对比图(有没有效果)②累积效应图(效果稳不稳定)③分群森林图(对谁有效)。这三张图讲清楚了,实验结论就讲清楚了。
50
实验平台/指标体系设计
从零搭建AB实验平台的指标体系(OEC+护栏指标+驱动指标+看板设计)
实用
▼📋 完整 Prompt
我需要为【业务线】设计一套AB实验的指标体系。请帮我: 【业务背景】:【如:抖音酒旅推荐策略优化】 【指标分层设计】: 1. OEC(Overall Evaluation Criterion,核心评估指标):1-2个最核心的指标,直接衡量实验目标;如:核销率、人均GMV;定义精确的计算口径 2. 护栏指标(Guardrail Metrics):不能显著恶化的指标;如:用户满意度、退款率、页面加载时间;设定"可接受恶化阈值" 3. 驱动指标(Driver Metrics):解释OEC变化的中间指标;如:CTR→详情页转化率→下单转化率→核销率;帮助理解"为什么OEC变了" 4. 质量指标(Data Quality Metrics):SRM检验(样本比例偏差);数据缺失率;异常值比例 【指标看板设计】:实验总览页=OEC+护栏指标的红绿灯;指标详情页=每个指标的时序图和置信区间;分群分析页=各分群的效应对比 请输出完整的指标体系文档和看板设计。
💡 使用技巧:好的实验指标体系=1-2个OEC+3-5个护栏指标+5-10个驱动指标。OEC太多会导致多重比较问题;护栏指标太少会导致"按下葫芦浮起瓢"。