Bootstrap

商品按id进行查找按名称进行排序_牛刀小试之电商婴儿商品数据分析

一 数据来源

选用阿里巴巴天池数据,进行数据分析。电商数据集都会有用户,商品,以及时间字段。不同的字段进行组合可以带来其他有用信息的呈现。

a777596f7496a3631c55522449e83c0a.png
表一

fe3492d8e4c680f8e86d7d253688ef08.png
表2

二 理解数据

数据集是关于婴儿商品,包含有以下的数据字段:

商品表格字段:

1)表1购买商品字段

user_id:用户id

auction_id:物品编号(item_id)

cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)

cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)

property:商品属性

buy_mount:购买数量

day:购买时间

2)表2

user_id:用户id

birthday:出生日期

gender:性别(0女性;1男性;2未知的性别)

三 明确问题想从该数据集中得到到哪些信息?

商品销售总数量;单月销售数量,周一至周天平均销售数量;月销售量的波动性。

四 想从该数据集中分析什么业务问题?

1,分析商品销量的走势,预测下年销量

2,商品购买用户的年龄分布,找出商品受众最普遍年龄

五 数据清洗

本次提取的数据较为规范,没有需要重命名或补齐缺失值的部分,对8位数字的时间列进行分列后的时间格式的转换,变成可被系统识别的时间格式。

5c5e30026dc91d0e323ae01aa9a9771f.png

487bc54fbcbad6e5cd689c0f5d81fe06.png

数字格式 时间格式

生成新的统计列:通过宝宝的出生时间计算出新的统计列--年龄

2cc79ec7867c2d14a1df0dc43c277929.png

跨表查询:对有用户信息的购买者,在商品销售表格中查找,并筛选。

通过vlookup函数,对比ID,查找出年龄,使用相对定位。

8e4191fa41e5c6e7189ded2360829f19.png

六 数据分析结果

按年销售的统计数据

763fdc1cd60fdb1ae94a751c68a1c373.png

c773b460ceae13babf164b60617e3410.png

从每年的销售业绩看,销量呈增长趋势,因此可以推测,2015年销量会高于2014年

用户年龄分布:

f9e71d3fa914afc09bb8d251c952a1f1.png

购买群体的年龄分布

商品销售量和用户年龄以及时间的分布

商品销量与性别的分布

c93223e841c209bde2b40ccb7c1fd79d.png

经过对数据的分析,发现商品销量是一个按月增长的过程,市场前景不错,商品针对用户群体是0-3岁的小朋友。女婴儿用户高于男婴儿用户。

七 总结知识点

通过一个简单的数据集分析,主要目的是熟悉数据清洗的流程:

1 选择子集

2 列的重命名

3 删除重复值

4 缺失值处理

5 一致化处理

6 数据排序

7 异常值处理

熟悉常用函数:if len find mid left vlookup

建立透视表,生成内置的可视化数据图,生成统计信息。

;