首先说明,这个内容不能说完全原创,结合了其他学习平台学习的思路,加上一点自己的理解。就是记录下来方便自己之后查阅。
目录
**1. 数据采集
2. 认识数据集 **
数据集有csv json
xlsx等格式,可以储存在本地或者服务器上。在分析数据之前需要将数据集导入到Jupyter中。本次利用Pandas库(能够规范数据框架)对csv格式的汽车数据集进行试验。
1.1数据库引入和查看
#数据库引入
import pandas as pd
#引用函数pd.read_csv读取csv文件,命名为df
df = pd.read_csv("/resources/jupyter/DA001/DA001-001/imports-85.data", header = None)
#查看前10行、后10行数据,head函数
df.head(10)
df.tail(10)
![输出](https://img-blog.csdnimg.cn/2020021115511946.JPG?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODE2OTY1NQ==,size_16,color_FFFFFF,t_70)
1.2为数据集添加标题
从上面图可知,数据有26列,标题从最后一列开始赋值,添加一个标题就整体往前移动一格。所以一般情况下要写26个标题。(此处因为不想打字所以在后面用数字代替。