Project Wexler

2024-03-13|状态: 活跃

本项目展示了机器学习在回归预测任务中的完整应用流程，包括数据探索、特征处理、模型训练、评估与解释。

技术栈

分析工具：Python，Jupyter Notebook
可视化：Matplotlib，Seaborn
模型方法：LightFM

项目结构

project-wexler/
├── docs/                      # GitHub Pages 页面内容
├── Project_Wexler_Code.ipynb  # 从数据预处理到建模的完整 Notebook
├── .gitignore                 # Git 忽略文件配置
├── requirements.txt           # Python 依赖
└── README.md                  # 项目说明

项目目标

利用机器学习模型对目标变量进行精确预测
探索数据特征与目标变量之间的关系
比较多种模型性能并选择最优方案
解释模型结果并提出改进建议

分析流程

项目背景说明：明确业务目标与预测任务
数据探索与清洗：
- 缺失值处理、异常检测
- 可视化数据分布与变量相关性
特征工程：
- 独热编码、数值转换、特征缩放
模型训练与选择：
- 对比 Linear Regression、XGBoost 等
模型评估与调优：
- 使用 RMSE、R²、交叉验证
模型解释：
- 分析特征重要性，理解预测依据
总结与展望：
- 反思模型局限与未来改进方向

数据来源与授权

数据集：Kaggle - Retailrocket recommender system dataset
协议：MIT License

Project Wexler | AnteLacus