Bootstrap

通往数据分析之路——第一章 数据基础操作

这是一篇0基础入门数据分析的实践课,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。适合于零基础小白,本篇文章是我自己的学习心得和理解,仅供供大家参考

一.数据基础操作

本章节讲述如何加载数据,查看数据,及pandas的一些基础操作

1.数据载入及初步观察

1.1加载数据

1.1.1导入numpy和pandas

如果加载失败,安装numpy和pandas(安装方式:pip install  numpy ; pip install pandas)

import numpy as np
import pandas as pd

引入numpy和pandas这两个库

1.1.2加载数据

加载数据的是所有工作的第一步,我们会接触到不同的数据格式,但加载的方法和思路都是一样的,都是使用相对路径绝对路径载入数据。

相对路径:相对于项目目录的路径。(eg:..\img\ig\jpg)

绝对路径:从根目录开始,是一个完整的路径。(eg:D:\dem\img\ig.jpg)

df_csv = pd.read_csv('../data/train.csv')
df_csv.head()

拓展:可以使用os.getcwd()查看当前工作目录

pd.read_csv()pd.read_table()都是Pandas 库中用来加载文本文件的函数

pd.read_csv():是用来加载以逗号(,)分隔值(CSV)文件的函数。

pd.read_table():是用来加载制表符(\t)分隔值(TSV)文件的函数,或者任何没有明确分隔符的文本文件。

想让 pd.read_csv()pd.read_table() 的效果一样,可以在 pd.read_csv() 中指定分隔符参数 sep【df_csv = pd.read_csv('filename.tsv', sep='\t')】

总结:加载的数据是所有工作的第一步,我们的工作会接触到不同的数据格(eg:.csv;.TSV;.
xlsx),但是加载的方法和思路都是一样的,在以后工作和做项目的过程中,遇到之前没有碰到的问题,要多多查资料,了解业务逻辑,明白输入和输出是什么。

 1.1.3每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv',chunksize=1000)

 逐块读取(Chunking)是一种处理大型文件的方法,尤其是在数据科学和大数据分析中。这种方法涉及将一个大文件分成多个较小的块(或部分),然后逐个处理这些块。

chunker(数据块)实际上是一个 DataFrame 对象。

为什么要逐块读取?

       逐块读取通常用于非常大的文件

;