feat: 添加 Streamlit 心血管疾病数据可视化仪表板

- 实现数据加载和清洗函数 (带 @st.cache_data 装饰器) - 年龄转换: 天 -> 年 - BMI 计算和分类 - 异常值处理: 血压范围过滤 - 类别转换: cholesterol, gluc, gender, cardio - Streamlit 交互界面: 侧边栏筛选器 - 可视化图表: 年龄分布直方图、BMI与心血管疾病堆叠柱状图 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-15 10:24:49 +08:00
parent d74774ef0b
commit b83677d19f
1 changed files with 297 additions and 0 deletions
--- a/ai_code/aicodes/module1_dashboard/cardio_dashboard.py
+++ b/ai_code/aicodes/module1_dashboard/cardio_dashboard.py
@@ -0,0 +1,297 @@
+"""
+CardioAI 心血管疾病数据可视化仪表板
+使用 Streamlit 构建交互式数据分析和可视化应用
+"""
+
+import streamlit as st
+import pandas as pd
+import numpy as np
+import plotly.express as px
+
+
+# ============================================
+# 数据加载函数 (带缓存)
+# ============================================
+@st.cache_data
+def load_data(file_path: str) -> pd.DataFrame:
+    """
+    加载 Excel 数据文件
+
+    Args:
+        file_path: Excel 文件路径
+
+    Returns:
+        加载的 DataFrame
+    """
+    df = pd.read_excel(file_path)
+    return df
+
+
+# ============================================
+# 数据清洗函数 (带缓存)
+# ============================================
+@st.cache_data
+def clean_data(df: pd.DataFrame) -> pd.DataFrame:
+    """
+    数据清洗和特征工程
+
+    处理步骤:
+    1. 将 age(天) 转换为年 (age_years)
+    2. 计算 BMI
+    3. 异常值处理
+    4. 类别转换
+
+    Args:
+        df: 原始 DataFrame
+
+    Returns:
+        清洗后的 DataFrame
+    """
+    # 创建副本避免修改原始数据
+    df_clean = df.copy()
+
+    # 1. 年龄转换: 天 -> 年 (四舍五入)
+    df_clean['age_years'] = (df_clean['age'] / 365).round().astype(int)
+
+    # 2. 计算 BMI: BMI = weight / (height/100)^2
+    df_clean['bmi'] = df_clean['weight'] / ((df_clean['height'] / 100) ** 2)
+
+    # 3. 异常值处理
+    # 3.1 删除舒张压 >= 收缩压的记录
+    df_clean = df_clean[df_clean['ap_hi'] > df_clean['ap_lo']]
+
+    # 3.2 删除血压极端异常值
+    # 收缩压应在 [90, 250] 范围
+    df_clean = df_clean[(df_clean['ap_hi'] >= 90) & (df_clean['ap_hi'] <= 250)]
+    # 舒张压应在 [60, 150] 范围
+    df_clean = df_clean[(df_clean['ap_lo'] >= 60) & (df_clean['ap_lo'] <= 150)]
+
+    # 4. 类别转换
+    # 4.1 cholesterol 数值转描述性字符串
+    cholesterol_map = {
+        1: '正常',
+        2: '高于正常',
+        3: '远高于正常'
+    }
+    df_clean['cholesterol_category'] = df_clean['cholesterol'].map(cholesterol_map)
+
+    # 4.2 gluc 数值转描述性字符串
+    gluc_map = {
+        1: '正常',
+        2: '高于正常',
+        3: '远高于正常'
+    }
+    df_clean['gluc_category'] = df_clean['gluc'].map(gluc_map)
+
+    # 4.3 BMI 分类
+    def categorize_bmi(bmi):
+        if bmi < 18.5:
+            return '偏瘦'
+        elif bmi < 24:
+            return '正常'
+        elif bmi < 28:
+            return '超重'
+        else:
+            return '肥胖'
+
+    df_clean['bmi_category'] = df_clean['bmi'].apply(categorize_bmi)
+
+    # 4.4 gender 转描述性字符串
+    gender_map = {1: '女性', 2: '男性'}
+    df_clean['gender_category'] = df_clean['gender'].map(gender_map)
+
+    # 4.5 cardio 转描述性字符串
+    cardio_map = {0: '无心血管疾病', 1: '有心血管疾病'}
+    df_clean['cardio_category'] = df_clean['cardio'].map(cardio_map)
+
+    return df_clean
+
+
+# ============================================
+# Streamlit 页面配置
+# ============================================
+st.set_page_config(
+    page_title="CardioAI 心血管疾病分析",
+    page_icon="❤️",
+    layout="wide"
+)
+
+
+# ============================================
+# 主程序
+# ============================================
+def main():
+    """主程序入口"""
+
+    # 页面标题
+    st.title("❤️ CardioAI 心血管疾病数据分析")
+    st.markdown("---")
+
+    # 数据路径
+    DATA_PATH = "C:/Users/SAM/Desktop/sam_test/ai_code/aicodes/data/心血管疾病.xlsx"
+
+    # 加载数据
+    try:
+        df = load_data(DATA_PATH)
+        st.success(f"✅ 成功加载数据，共 {len(df)} 条记录")
+    except Exception as e:
+        st.error(f"❌ 数据加载失败: {e}")
+        return
+
+    # 数据清洗和特征工程
+    df_clean = clean_data(df)
+    st.info(f"📊 数据清洗后剩余 {len(df_clean)} 条记录 (剔除了异常值)")
+
+    st.markdown("---")
+
+    # ============================================
+    # 侧边栏 - 筛选器
+    # ============================================
+    st.sidebar.header("🔍 筛选条件")
+
+    # 年龄范围滑块
+    age_min = int(df_clean['age_years'].min())
+    age_max = int(df_clean['age_years'].max())
+    age_range = st.sidebar.slider(
+        "年龄范围 (岁)",
+        min_value=age_min,
+        max_value=age_max,
+        value=(age_min, age_max)
+    )
+
+    # 性别多选框
+    gender_options = df_clean['gender_category'].unique().tolist()
+    selected_genders = st.sidebar.multiselect(
+        "性别",
+        options=gender_options,
+        default=gender_options
+    )
+
+    # 心血管疾病多选框
+    cardio_options = df_clean['cardio_category'].unique().tolist()
+    selected_cardios = st.sidebar.multiselect(
+        "心血管疾病状态",
+        options=cardio_options,
+        default=cardio_options
+    )
+
+    # ============================================
+    # 数据筛选
+    # ============================================
+    # 应用筛选条件
+    df_filtered = df_clean[
+        (df_clean['age_years'] >= age_range[0]) &
+        (df_clean['age_years'] <= age_range[1]) &
+        (df_clean['gender_category'].isin(selected_genders)) &
+        (df_clean['cardio_category'].isin(selected_cardios))
+    ]
+
+    st.markdown("---")
+
+    # ============================================
+    # 主页展示 - 统计指标
+    # ============================================
+    st.header("📈 数据概览")
+
+    col1, col2, col3 = st.columns(3)
+
+    with col1:
+        st.metric(
+            label="筛选后记录数",
+            value=f"{len(df_filtered):,}"
+        )
+
+    with col2:
+        # 计算心血管疾病风险率
+        total_count = len(df_filtered)
+        disease_count = len(df_filtered[df_filtered['cardio'] == 1])
+        risk_rate = (disease_count / total_count * 100) if total_count > 0 else 0
+        st.metric(
+            label="心血管疾病风险率",
+            value=f"{risk_rate:.1f}%",
+            delta=f"{disease_count} / {total_count}"
+        )
+
+    with col3:
+        avg_age = df_filtered['age_years'].mean()
+        st.metric(
+            label="平均年龄",
+            value=f"{avg_age:.1f} 岁"
+        )
+
+    st.markdown("---")
+
+    # ============================================
+    # 图表展示
+    # ============================================
+    st.header("📊 可视化分析")
+
+    # Tab 切换不同图表
+    tab1, tab2 = st.tabs(["年龄分布", "BMI与心血管疾病关系"])
+
+    with tab1:
+        st.subheader("年龄分布直方图 (按心血管疾病状态区分)")
+
+        # 年龄分布直方图
+        fig_age = px.histogram(
+            df_filtered,
+            x='age_years',
+            color='cardio_category',
+            nbins=20,
+            title="年龄分布 (按心血管疾病状态)",
+            labels={
+                'age_years': '年龄 (岁)',
+                'count': '人数',
+                'cardio_category': '心血管疾病状态'
+            },
+            color_discrete_map={
+                '无心血管疾病': '#2ecc71',
+                '有心血管疾病': '#e74c3c'
+            },
+            barmode='overlay'
+        )
+        fig_age.update_layout(bargap=0.1)
+        st.plotly_chart(fig_age, use_container_width=True)
+
+    with tab2:
+        st.subheader("BMI分类对心血管疾病的影响")
+
+        # BMI 分类统计
+        bmi_cardio = df_filtered.groupby(['bmi_category', 'cardio_category']).size().reset_index(name='count')
+
+        # 按 BMI 分类排序
+        bmi_order = ['偏瘦', '正常', '超重', '肥胖']
+
+        # 堆叠柱状图
+        fig_bmi = px.bar(
+            bmi_cardio,
+            x='bmi_category',
+            y='count',
+            color='cardio_category',
+            title="BMI分类与心血管疾病关系",
+            labels={
+                'bmi_category': 'BMI分类',
+                'count': '人数',
+                'cardio_category': '心血管疾病状态'
+            },
+            color_discrete_map={
+                '无心血管疾病': '#2ecc71',
+                '有心血管疾病': '#e74c3c'
+            },
+            category_orders={'bmi_category': bmi_order}
+        )
+        fig_bmi.update_layout(bargap=0.1)
+        st.plotly_chart(fig_bmi, use_container_width=True)
+
+    st.markdown("---")
+
+    # ============================================
+    # 数据预览
+    # ============================================
+    with st.expander("📋 查看清洗后的数据"):
+        st.dataframe(df_clean.head(100))
+        st.caption(f"显示前 100 条记录，共 {len(df_clean)} 条")
+
+
+if __name__ == "__main__":
+    main()