当前位置: 首页 > news >正文

2023年泰迪杯数据挖掘挑战赛B题--产品订单数据分析与需求预测(数据处理)

1. 前言

本题相对来说比较适合新手,包括针对数据的预处理,数据分析,特征提取以及模型训练等多个步骤,完整的做下来是可以学到很多东西的。

2.问题一思路分析

本题要求利用附件中的训练数据进行深入的分析,由于本题的主要研究目的是分析订单数据并且根据分析结果建立数学模型来预测产品的具体订单需求量。因此本题需要训练样本分析数据特征,通过有效的可视化数据分析来获取不同因素对于产品需求量的影响,从而方便实现后续预测模型的建立。
对于训练数据的深入分析之前,首先对数据进行预处理,具体包括数据缺失值填充,异常值分析,箱线图处理异常值以及数据分布状态的可视化处理。进一步利用预处理之后的数据进行深入分析。本题给出了8个主题,本文尽可能多的分析多种因素对于订单需求量的影响。

3.问题一数据预处理

首先对原始数据变量进行箱线图分析,可以发现订单价格以及订单需求量均包括大量的异常离散点,因此需要针对这些离散异常点进行处理。
在这里插入图片描述
利用3σ准则清理异常值,
基于3σ原则中的σ是代表标准差,3σ也就是标准差,如果数据与均值之间的绝对距离大于3倍标准差,即下图中[-∞,μ-3σ]和[μ+3σ,+∞]部分,我们把这一部分值称为是异常值。

在这里插入图片描述

在用3σ原则时,数据要尽可能的服从正态分布,因为只有满足正态分布时,才认为出现3倍标准差以外数据的可能性很小,所以才会把这一部分当作异常值。
在这里插入图片描述
利用异常值剔除之后的数据进行箱线图绘制,可以发现数据平缓了很多。
在这里插入图片描述
进一步绘制数据分布直方图,可以发现数据基本上是符合正态分布
在这里插入图片描述
最后在对异常值处理之后的数据进行数据分析来分析订单预测的特征,以及分析与订单需求有强相关的影响因素,从而方便提取有效训练特征。文章待续。。。

4.源码分享

附上2023年泰迪杯数据挖掘挑战赛B题全部源码(包括预测模型的训练)连接如下:

2023年泰迪杯b题全部源码

相关文章:

  • ChatGPT使用案例之画思维导图
  • Xilinx JESD204B IP使用
  • TimeQuest时序路径详解
  • 一文了解Jackson注解@JsonFormat及失效解决
  • MagicalCoder可视化开发平台:轻松搭建业务系统,为企业创造更多价值
  • 发光立方体效果 html+css
  • 【C++】用手搓的红黑树手搓set和map
  • 嵌入式常使用的库函数
  • 基于深度学习的车型识别系统(Python+清新界面+数据集)
  • 用Pytorch构建一个喵咪识别模型
  • 学校教的Python,找工作没企业要,太崩溃了【大四真实求职经历】
  • 南京邮电大学数据库第三次课后作业
  • 到底什么是线程?线程与进程有哪些区别?
  • 7个最受欢迎的Python库,大大提高开发效率
  • 100天精通Python(可视化篇)——第80天:matplotlib绘制不同种类炫酷柱状图代码实战(簇状、堆积、横向、百分比、3D柱状图)
  • 菜鸟刷题Day2
  • “你要多弄弄算法”
  • 十大经典排序算法(上)
  • 【Java】i++和++i的实现原理
  • 蓝桥杯刷题冲刺 | 倒计时19天