一 数据来源
选用阿里巴巴天池数据,进行数据分析。电商数据集都会有用户,商品,以及时间字段。不同的字段进行组合可以带来其他有用信息的呈现。
二 理解数据
数据集是关于婴儿商品,包含有以下的数据字段:
商品表格字段:
1)表1购买商品字段
user_id:用户id
auction_id:物品编号(item_id)
cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)
cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)
property:商品属性
buy_mount:购买数量
day:购买时间
2)表2
user_id:用户id
birthday:出生日期
gender:性别(0女性;1男性;2未知的性别)
三 明确问题想从该数据集中得到到哪些信息?
商品销售总数量;单月销售数量,周一至周天平均销售数量;月销售量的波动性。
四 想从该数据集中分析什么业务问题?
1,分析商品销量的走势,预测下年销量
2,商品购买用户的年龄分布,找出商品受众最普遍年龄
五 数据清洗
本次提取的数据较为规范,没有需要重命名或补齐缺失值的部分,对8位数字的时间列进行分列后的时间格式的转换,变成可被系统识别的时间格式。
数字格式 时间格式
生成新的统计列:通过宝宝的出生时间计算出新的统计列--年龄
跨表查询:对有用户信息的购买者,在商品销售表格中查找,并筛选。
通过vlookup函数,对比ID,查找出年龄,使用相对定位。
六 数据分析结果
按年销售的统计数据
从每年的销售业绩看,销量呈增长趋势,因此可以推测,2015年销量会高于2014年
用户年龄分布:
购买群体的年龄分布
商品销售量和用户年龄以及时间的分布
商品销量与性别的分布
经过对数据的分析,发现商品销量是一个按月增长的过程,市场前景不错,商品针对用户群体是0-3岁的小朋友。女婴儿用户高于男婴儿用户。
七 总结知识点
通过一个简单的数据集分析,主要目的是熟悉数据清洗的流程:
1 选择子集
2 列的重命名
3 删除重复值
4 缺失值处理
5 一致化处理
6 数据排序
7 异常值处理
熟悉常用函数:if len find mid left vlookup
建立透视表,生成内置的可视化数据图,生成统计信息。