> 新闻资讯

婴儿信息表字段删除重复值:表一中消费者一致化处理

小小爱 0关注2022-06-28 08:58:06 来源:爱店家

婴儿信息表单字段:

……

2.采购用户信息字段:

...(三)数据清洗:

在进行数据清洗之前,我们需要做的是复制源数据,所以我们将两张表分别保存为“表1购买产品数据清洗.xls”和“表2宝贝信息数据清洗.xls”。这不仅保留了原始数据,还可以让 Excel 更好地支持数据。

隐藏处理:隐藏问题中未涉及的数据。请注意,它不会被删除。隐藏可以保证数据的完整性。在这个电子商务数据中,没有使用属性列,它首先被隐藏。将来我会学到更多。再次使用该领域的知识。操作方法是在需要隐藏的字段上右击——隐藏。列名重命名:改成user等汉字,方便查看。

列名重命名

3.删除重复值:表1中的消费者可能在同一天购买了相同数量的相同产品。由于此数据没有订单号,因此无法确定是否存在重复值。在表2中,通过右查找,找到一个重复项,将其删除。操作方法是点击数据-删除重复项-选择扩展区域-选择所在字段:

4.缺失值处理:数据集中的婴儿信息是用户自愿提供的,部分数据缺失属于正常现象。属性列中缺少一些属性值。因为属性的缺失值无法计算平均值,所以使用开始列-定位条件-空值中的搜索和选择,选择所有属性为空的值,右键删除整行。现在都列为 29827。

5.一致处理:通过Data-将表1和表2中的购买日期改为日期类型,然后通过函数与表2匹配,方便以后计算宝宝的年龄。

6.数据按升序或降序排列。

7.异常值处理,对于订单大于1000以上的数据,由业务部门筛选出来验证是否有异常。

订单中采购数量大于1000的采购记录

发现一个1984年出生的异常值天猫添加类目表格,明显不符合公司的销售目标,将其删除。

出生于 1984 年的异类

(四)数据分析

1.分析消费者家中孩子的年龄分布:使用函数、函数。

功能

使用该函数时天猫添加类目表格,最后一个参数是“d”,因为这样避免了一些0到12个月的孩子被记录为0岁,计算平均值更准确。然后将未出生婴儿的年龄改为:“未出生”,进入过滤器>公式>错误,选择错误的项目,然后键入“未出生” + ctrl + enter 填写缺失值。

最终平均年龄约为 667 天。得出的结论是,主要消费者是1岁10个月左右的婴儿群体。

2.创建数据透视表:通过数据透视表查找不同类型和类别产品的销量。

首先找到销售额最高的十个产品:这是通过将产品编号放入数据透视表字段的行中,然后放入总和值中来完成的。然后单击行标签上的小箭头进行排序。查找十大畅销产品:

十大畅销二级品类也衍生出来:

和一级类别:

3.描述性统计,对于mac中的excel,需要加载分析工具。具体操作是:在工具栏中选择工具-excel插件-添加负载分析工具,然后分析每天的购买数量:

每日销售描述性统计

从图中可以看出,对于日销量的描述性统计:日均消费数量为76.4件,标准差为348,最小值为1,最大值为10060可以推测,消费受日期和促销活动的影响。

(四)数据可视化:

1.消费者家中婴儿性别分布饼图如下:

宝宝性别分布饼图

2.宝宝年龄分布:

之前计算过婴儿的平均年龄,计算得出婴儿的平均年龄为1岁零10个月。从图中可以看出,婴儿主要是未出生到2岁之间的婴儿。

3.一级品类销量与年龄的关系:

4.性别是男婴和女婴偏爱的产品类别:

女婴产品偏好

男婴产品偏好

可以看出,在一级品类中,男女宝宝的消费习惯差别不大。

5.按年销售额:

2012~2013年销售统计数据透视表

2012~2013销售统计可视化图标

好消息是销售额逐年增加,但并没有继续增长。

(五)总结分析:

本节我们主要通过选择子集-列重命名-删除重复-缺失值处理-一致性处理-数据排列-异常值处理等操作来清洗数据,并通过制作数据透视表来统计销售额和用户分布。

从以上数据可以得出,这家公司的主要消费群体是2-2岁的未出生婴儿,男女分布比较均匀。最受消费者欢迎的一级品类是28,但产品销量增长迅速。2014年销售额为全年最高。每日销量波动较大,销量可能与日期有关。2012-2014年销量逐年增加,说明公司整体经营状况良好,发展前景良好,但若要预测2015年的销量,还需要多学习知识理论和分析方法。

版权说明:转载或引用本网内容必须是以新闻性或资料性公共免费信息为使用目的的合理、善意引用,不得对本网内容原意进行曲解、修改,同时必须保留本网注明的"稿件来源",并自负版权等法律责任。

本文网址:http://www.hfsybs.com/news/107.html