
【助睿实验指导】学生用户画像-考勤主题扩展标签构建1 实验说明1.1 实验目的基于已成型的学生考勤主题标签表采用K-Means聚类算法对全体学生考勤行为自动分组。以迟到、早退、请假、校服违规次数四大核心指标为依据区分不同考勤行为群体生成可落地解读的学生考勤画像为校园日常管控、学生行为矫正、学情精细化分析提供数据支撑。1.2 实验环境整体基于Uniplore助睿数智线上实验平台操作配套工具与数据环境如下1. 功能模块助睿ETL数据集成、AI Studio人工智能建模、助睿BI数据可视化2. 数据库MySQL团队私有数据库3. 前置基础数据学生考勤主题标签表student_attendance_stats2 实验数据2.1 数据构成取用上一轮实验输出的标准化考勤统计数据表集合学生个人基础信息、班级信息、各类考勤异常统计数据数据规整无脏数据可直接用于聚类建模分析。2.2 字段说明|字段名称|字段含义|数据类型|| ---- | ---- | ---- ||id|数据表自增主键|整型||student_id|学生唯一编号|整型||student_name|学生姓名|文本型||class_id|班级编号|整型||class_name|班级名称|文本型||grade|就读年级|分类文本||gender|性别|二分类||birth_date|出生日期|日期文本||political_status|政治面貌|分类文本||is_boarder|是否住校|二分类||campus_type|所属校区|分类文本||late_count|迟到累计次数|整型||early_leave_count|早退累计次数|整型||leave_count|请假累计次数|整型||uniform_violate_count|校服违规次数|整型||create_time|数据统计入库时间|日期时间型|2.3 建模思路1. 特征筛选仅选取迟到、早退、请假、校服违规4项考勤行为数据作为聚类特征字段业务独立、无冗余干扰无需降维处理2. 算法适配统计次数均为非负连续数值符合K-Means算法输入要求无需额外编码转换简化预处理流程3. 辅助区分性别、年级、住宿等基础资料不参与聚类计算仅后续用作群体画像补充解释3 详细实验操作步骤3.1 AI Studio平台K-Means聚类建模3.1.1 新建空白工作流1. 登录实验平台左侧菜单栏点击人工智能进入AI Studio建模空间页面点击加号按钮选择新建工作流生成空白建模画布3. 界面分为功能菜单栏、算法控件库、流程画布三大区域后续拖拽组件搭建流程3.1.2 导入实验考勤数据1. 在控件列表搜索数据库加载组件拖拽至空白画布中2. 双击组件右侧弹出参数面板填写团队私有MySQL数据库账号密码点击连接数据库数据表下拉列表选中student_attendance_stats考勤标签表筛选保留字段仅勾选student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count其余字段标记跳过5. 设定字段属性编号类设为分类型考勤次数设为数值型确认保存配置6. 右键点击数据库加载控件选择运行该控件运行完成后查看输出数据校验数据无误3.1.3 搭建K-Means聚类模型1. 控件库拖拽K-Means聚类组件用连线将数据库加载组件与聚类组件首尾相连双击聚类组件进入配置页面固定聚类簇数量设置为3簇其余参数保持系统默认3. 右键运行聚类控件执行模型计算4. 运行结束查看结果每条学生数据自动附带C1、C2、C3聚类簇编号3.1.4 聚类结果导出保存1. 拖拽数据入库组件连线接入聚类输出端口双击数据入库组件填写私有数据库连接信息获取数据表列表选择新建数据表命名为student_cluster确认创建存储表4. 点击运行整体工作流全部控件显示运行成功代表聚类数据完整存入数据库3.2 助睿BI可视化分析聚类群体3.2.1 平台内连接数据源1. 左侧菜单切换至助睿BI可视化平台2. 点击左侧数据源左上角加号选择新建连接数据库类型选定MySQL3. 录入团队数据库账号信息点击测试连接提示连接成功后确认保存展开新建数据库目录可预览student_cluster聚类数据表内容3.2.2 构建专属分析数据集1. 侧边栏点击数据集新建空白数据集填写名称与备注信息数据源选择刚刚绑定的私有数据库定位labs数据目录将student_cluster数据表拖拽至数据集编辑画布依次修改字段中文备注student_id改为学生ID、Cluster改为聚类簇编号所有考勤次数字段统一汉化命名编辑完成后保存并发布数据集发布后方可用于图表制作3.2.3 制作多维度分析工作表1. 左侧进入工作表模块新建分组文件夹归类本次分析内容在分组内新建工作表图表样式选择探索器散点图绑定已发布数据集第一张表X轴放置迟到次数、Y轴放置早退次数颜色维度绑定聚类簇编号信息栏挂载学生ID4. 将数据展示限额调整为100%完整加载全部学生数据自定义聚类组别区分颜色按照同样操作依次新建五张工作表分别组合迟到请假、迟到校服违规、早退请假、早退校服违规、请假校服违规完成6组指标对比图表6. 每张工作表编辑完毕均保存发布3.2.4 整合可视化分析仪表盘1. 左侧点击仪表盘新建仪表盘并命名为聚类簇分析2. 拖拽文本基础组件输入标题文字调整字体大小、样式并居中摆放固定组件位置3. 切换工作表素材库将6张分析图表全部拖拽至仪表盘画布4. 拖动边框调整图表尺寸、排布布局规整页面展示效果5. 整体检查无误后保存并发布仪表盘3.2.5 聚类群体画像分类解读对照六组散点图数据分布规律划分三类学生考勤群体1. C1 自律模范型各项考勤违规次数处于最低区间无违纪行为出勤表现稳定规范2. C2 轻微波动型整体考勤状态良好仅偶尔出现请假、校服违规小问题无频繁迟到早退3. C3 纪律高危型迟到早退频次偏高叠加多项违规行为违纪问题突出属于重点管理人群|聚类簇编号|群体名称|核心行为特征|| ---- | ---- | ---- ||C1|自律模范型|全维度考勤异常次数极低纪律性强||C2|轻微波动型|基本遵守考勤制度偶发少量轻微违规||C3|纪律高危型|多项违纪行为叠加考勤问题较为严重|3.3 ETL工具新增考勤扩展标签至原数据表3.3.1 原数据表新增拓展字段1. 切换回到助睿ETL数据集成平台打开原有考勤处理项目2. 新建转换流拖拽执行SQL脚本组件到画布3. 绑定团队私有数据库连接输入新增字段语句sqlALTER TABLE student_attendance_statsADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT 聚类簇编号,ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT 考勤群体分类;运行SQL组件为原始考勤表添加两个空白拓展字段3.3.2 读取调取聚类结果数据1. 在新建转换流内拖拽表输入组件连接私有数据库2. 选定student_cluster聚类结果表读取全量数据接入流程拖拽字段选择组件连线承接表输入数据3.3.3 筛选规整有效字段1. 双击字段选择组件剔除多余无用字段仅保留student_id、Cluster两个关键字段进入元数据设置页面统一字段数据类型保证与原数据表格式匹配避免更新报错3. 确认字段配置完成数据精简处理3.3.4 聚类编号映射中文群体标签1. 拖拽值映射组件承接筛选后的字段数据2. 映射源字段选择Cluster聚类编号新建目标字段attendance_group3. 逐条添加映射规则- 源值C1 → 目标值 自律模范型- 源值C2 → 目标值 轻微波动型- 源值C3 → 目标值 纪律高危型4. 保存映射规则完成编号到文字标签转换3.3.5 配置数据更新写入规则1. 画布添加更新组件接入映射完成后的数据流2. 数据库选择私有库目标数据表选定student_attendance_stats、3. 匹配关键字段以student_id学生编号作为唯一匹配依据4. 设置更新对应关系流内cluster写入表内聚类编号字段attendance_group写入群体分类字段3.3.6 整体运行ETL转换流程1. 检查全部组件连线、参数配置无误后点击运行按钮执行转换流2. 查看运行日志确认数据更新条数无报错即为流程执行成功3.3.7 核查最终标签入库结果1. 重新加载数据库元数据刷新数据表信息2. 打开student_attendance_stats考勤主表查询表格数据3. 核验新增的聚类编号、考勤群体分类字段均已正常填充内容标签构建完成4 实验总结本次实验全程依托助睿数智平台完成全流程数据分析先在AI Studio使用K-Means聚类算法依据四项考勤异常指标自动完成学生群体划分再借助助睿BI制作多维度散点图表与汇总仪表盘直观分析数据分布特点将机器生成的聚类编号转化为贴合校园管理的三类学生画像。最后通过ETL数据处理工具新增数据表字段把聚类分类标签同步更新至原始考勤统计表顺利完成考勤主题扩展标签搭建。生成的分层学生数据画像能够帮助校方针对性开展纪律管理、思想引导与个性化教育实现校园考勤数据的实际业务落地应用。