这是一篇0基础入门数据分析的实践课,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。适合于零基础小白,本篇文章是我自己的学习心得和理解,仅供供大家参考
一.数据基础操作
本章节讲述如何加载数据,查看数据,及pandas的一些基础操作
1.数据载入及初步观察
1.1加载数据
1.1.1导入numpy和pandas
如果加载失败,安装numpy和pandas(安装方式:pip install numpy ; pip install pandas)
import numpy as np
import pandas as pd
引入numpy和pandas这两个库
1.1.2加载数据
加载数据的是所有工作的第一步,我们会接触到不同的数据格式,但加载的方法和思路都是一样的,都是使用相对路径或绝对路径载入数据。
相对路径:相对于项目目录的路径。(eg:..\img\ig\jpg)
绝对路径:从根目录开始,是一个完整的路径。(eg:D:\dem\img\ig.jpg)
df_csv = pd.read_csv('../data/train.csv')
df_csv.head()
拓展:可以使用
os.getcwd()查看当前工作目录
pd.read_csv()
和pd.read_table()
都是Pandas 库中用来加载文本文件的函数pd.read_csv():是用来加载以逗号(,)分隔值(CSV)文件的函数。
pd.read_table():是用来加载制表符(
\t
)分隔值(TSV)文件的函数,或者任何没有明确分隔符的文本文件。想让
pd.read_csv()
和pd.read_table()
的效果一样,可以在pd.read_csv()
中指定分隔符参数sep【df_csv = pd.read_csv('filename.tsv', sep='\t')】
总结:加载的数据是所有工作的第一步,我们的工作会接触到不同的数据格(eg:.csv;.TSV;.
xlsx),但是加载的方法和思路都是一样的,在以后工作和做项目的过程中,遇到之前没有碰到的问题,要多多查资料,了解业务逻辑,明白输入和输出是什么。
1.1.3每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('train.csv',chunksize=1000)
逐块读取(Chunking)是一种处理大型文件的方法,尤其是在数据科学和大数据分析中。这种方法涉及将一个大文件分成多个较小的块(或部分),然后逐个处理这些块。
chunker
(数据块)实际上是一个DataFrame
对象。为什么要逐块读取?
逐块读取通常用于非常大的文件