期末复习数据分析-NumPy的使用

NumPy

NumPy（Numerical Python的简称）是一个开源的Python库，用于科学计算和数据分析。它提供了强大的多维数组对象以及对这些数组的高级计算功能。NumPy是Python科学计算的基础库之一，很多其他的科学计算库（如Pandas、SciPy、Matplotlib等）都依赖于NumPy。

以下是NumPy的一些主要特点：

多维数组（ndarray）：NumPy提供了一个强大的N维数组对象，它是NumPy的核心。这些数组比Python原生的列表类型更高效，因为它们在内存中是连续存储的，并且NumPy的数组支持大量的数学运算。
数组广播（Broadcasting）：NumPy允许不同形状的数组之间进行运算，这在处理不同大小的数组时非常有用。
数学函数库：NumPy提供了大量的数学函数，如三角函数、算术运算、统计函数等，这些函数可以直接在数组上操作，而不需要编写循环。
线性代数：NumPy提供了线性代数运算的功能，包括矩阵乘法、行列式、特征值等。
随机数生成：NumPy包含了一套完整的随机数生成器，可以生成各种分布的随机数。
傅里叶变换：NumPy提供了傅里叶变换的功能，这对于信号处理等领域非常有用。
集成C/C++和Fortran代码：NumPy可以与C/C++和Fortran代码集成，这使得可以利用这些语言的高性能来加速计算。

NumPy因其高效性和易用性，在科学计算和数据分析领域得到了广泛应用。它使得Python成为了一个强大的科学计算环境，尤其是在数据科学、机器学习、图像处理等领域。

为什么python中有了列表，我们还是用numpy

numpy中的数组更快

内存分配：对于列表来说，它是一个可变类型数据，所以在分配内存的时候，就需要为它多分配一些额外的内存；而numpy中的数组长度是固定的，在分配内存的时候，就会为它分配一个固定长度的内存，所以说numpy占用的内存更小
列表中其实是存在指针的，在python中虽然隐去了指针的概念，但是列表是有指针的，比如下面的列表在内存中存储是这样的，我们是通过指针，来指向对应的值，这样我们在存储的时候就需要即存储指针，又需要存储这个整数的对象，这样就浪费了内存和计算时间

列表中的元素在系统中是分散存储的，而numpy中的数组是连续存储的，这样数组在遍历所有元素的时候又不需要像列表那样，对内存地址进行查找，从而节省了内存资源

1.创建n维数组

函数名	描述	示例代码
array()	从已有的数据（如列表、元组等）创建一个NumPy数组。	np.array([1, 2, 3])
arange()	创建一个包含给定范围内等差序列的数组。	np.arange(0, 10, 2)
ones()	创建一个给定形状和数据类型的新数组，并填充为1。	np.ones((2, 3))
ones_like()	创建一个与给定数组形状和数据类型相同的数组，并填充为1。	np.ones_like(np.array([[0, 0], [0, 0]]))
zeros()	创建一个给定形状和数据类型的新数组，并填充为0。	np.zeros((2, 3))
zeros_like()	创建一个与给定数组形状和数据类型相同的数组，并填充为0。	np.zeros_like(np.array([[1, 1], [1, 1]]))
empty()	创建一个给定形状和数据类型的新数组，但不初始化其元素（内容是随机的，取决于内存状态）。	np.empty((2, 3))
empty_like()	创建一个与给定数组形状和数据类型相同的数组，但不初始化其元素。	np.empty_like(np.array([[1, 1], [1, 1]]))
eye()	创建一个单位矩阵，对角线元素为1，其余元素为0。	np.eye(3)
identity()	创建一个单位矩阵，与eye()函数相同，但仅限于2维。	np.identity(3)

使用array函数创建数组

创建一维数组

import numpy as np

# 创建一维数组
arr1 = numpy.array([1,2,3,4,5])
print(arr1)
# 查看arr1的类型
print(type(arr1))

# 创建二维数组
data = [[1,2,3,4,5],[6,7,8,9,110]]
arr2 = np.array(data)
print(arr2)
print(arr2.ndim) # 查看是几维数组

 # 创建三维数组
 # 创建一个三维列表，每个子列表包含两个子列表，每个子列表包含三个整数
data = [[[1,2,3],[4,5,6],[7,8,9]],[[6,7,8],[9,10,11],[12,13,14]]]
arr3 = np.array(data)
print(arr3)
print(type(arr3))
# 打印数组的形状，形状是一个元组，表示每个维度的大小
print(arr3.shape)

输出解释：

第一行打印的是三维数组的内容。
第二行显示数组的类型是 numpy.ndarray。
第三行显示数组的形状是 (2, 3, 3)，这意味着数组有2个二维数组，每个二维数组有3行3列。

使用arange创建数组

import numpy as np
# 用arange创建一维数组
arr1 = np.arange(10)
print(arr1)
print(type(arr1))
print("-------------")

arr2 = np.arange(1,10)
print(arr2)
print(type(arr2))

使用ones函数创建全1数组

# ones()函数创建全1数组
arr2 = np.ones(10) #数组长度为10
print(arr2)

# ones函数创建10行3列全1数组
arr3 = np.ones((10,3)) # 传递一个元组
print(arr3)
arr3.shape

# ones函数创建5个 3行2列 全1数组
arr3 = np.ones((5,3,2)) # 传递一个元组
print(arr3)
arr3.shape

zeros()函数创建全0数组

zeros函数使用方法与ones相同，只不过一个全0，一个全1

# zeros()函数创建全0数组
arr4 = np.zeros((3,2)) # 创建3行2列全0数组
print(arr4)

empty()函数创建空数组

# empty()函数创建空数组
arr5 = np.empty((2,3,4))
print(arr5)

属性总览

# empty()函数创建空数组
arr5 = np.empty((2, 3, 4))
print(arr5)
print(arr5.ndim)
print(arr5.shape)
print(arr5.dtype)
print(arr5.itemsize)
print(arr5.size)
print(arr5.nbytes)

2.ndarray数据类型

# 查看数据类型
arr1 = np.ones(10)
print(arr1)
print(arr1.dtype)

arr2 = np.zeros(10)
print(arr2)
print(arr2.dtype)

# 设置数据类型
arr = np.array([1,2,3,4,5])
print("arr原数组类型")
print(arr.dtype);

print("arr 强制类型转换")
arr = np.array([1,2,3,4,5],dtype=np.float64)
print(arr.dtype)

# 类型转换 astype
arr = np.arange(10)
print(arr.dtype)
float_arr = arr.astype(np.float64)
print(float_arr.dtype)

3.索引

首先要认识维度，一维二维三维，这里的axis并不是坐标轴，而是一种方向

我们一眼可以识别下面是一个三维数组，因为最外层有三个括号，

import numpy as np
# 创建一个3维数组，维度为3
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[11,12,13]]])
print(arr3d)
print(arr3d.ndim)

输出结果：
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [11 12 13]]]
3

# 获取索引
print(arr3d[0][1][2])

输出结果：
6

# 索引赋值
print(arr3d[1][1])
# 将原来11 12 13 改为 10 11 12
arr3d[1][1] = [10,11,12]
print(arr3d)

输出结果：
[11 12 13]
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]

# 使用以下赋值方式是无法保存副本的
arr3 = arr3d
arr3d[1][1] = [11,12,13]
print(arr3d)
print(arr3)

# 应该使用 copy 副本
arr3 = arr3d.copy()
arr3d[1][1] = [10,11,12]
print(arr3d)
print(arr3)

4.切片

切片操作，维度不会发生变化；使用索引会降维

# 定义一个三维数组
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[11,12,13]]])
print(arr3d)

输出结果：
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [11 12 13]]]

# 获取三维中第二个内容
print(arr3d[1:])

输出结果：
[[[ 7  8  9]
  [11 12 13]]]

# 获取三维中第二个，第二行内容
print(arr3d[1:,1:])

输出结果
[[[11 12 13]]]

# 获取三维中第二个，第二行，下标为3的内容
print(arr3d[1:,1:,2:]) #记得是2: 而不是2，2是索引会发生降维

输出结果：
[[[13]]]

# 索引方式会降维
print(arr3d[:1])
# 获取三维中第二个，所有行，下标为1的内容
print(arr3d[:1,:,1])# 使用一次索引，降到二维

输出结果：

[[[1 2 3]
  [4 5 6]]]
[[2 5]]

布尔型索引是NumPy中一种强大的数据选择方法，它允许你使用布尔数组来选择数据的子集

【示例一】

import numpy as np

# 创建一个示例数组
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])

# 打印原始数组
print("Original array:")
print(arr)

# 创建一个布尔数组，表示哪些行应该被选择
# 在这个例子中，我们选择所有大于5的元素
bool_idx = arr > 5

# 打印布尔索引数组
print("\nBoolean index array:")
print(bool_idx)

# 使用布尔索引选择数组中大于5的元素
selected_elements = arr[bool_idx]

# 打印选择的元素
print("\nSelected elements:")
print(selected_elements)

在这个例子中，bool_idx 是一个布尔数组，它的形状与原始数组 arr 相同，其中 True 表示原始数组中相应位置的元素满足条件（例如，大于5），而 False 表示不满足条件。

当你使用布尔索引 arr[bool_idx] 时，NumPy 会返回一个由原始数组中所有 True 位置对应的元素组成的一维数组。

# 输出结果
Original array:
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]

Boolean index array:
[[False False False]
 [False False  True]
 [ True  True  True]
 [ True  True  True]]

Selected elements:
[ 6  7  8  9 10 11 12]

【示例二】

# 布尔型索引
names = np.array(['Andy','Bill','Jack','Jame'])
print(names.ndim)
data = np.random.randn(4,4)
print(names)
print(data)

输出结果：
1
['Andy' 'Bill' 'Jack' 'Jame']
[[-1.54862424  2.52836987 -0.14063061 -1.09477535]
 [ 0.09204507  0.64274378  0.46467384 -0.69950747]
 [-0.7728008   0.065998   -0.62236696  0.95792246]
 [ 1.45441249  0.71329319  0.85592692 -0.84604386]]

names == 'Andy'

输出结果：
array([ True, False, False, False])

data[np.array([ True, False, False, False])]

输出结果：
array([[-1.54862424,  2.52836987, -0.14063061, -1.09477535]])

5.数组的运算

# 数组数值运算
arr2d = np.array([[1,2,3],[4,5,6]])
print(arr2d)
print(arr2d * 2) #对数组每一个元素*2 
print(arr2d * arr2d) # 数组乘数组，也就是每个元素的2次方

输出结果：
[[1 2 3]
 [4 5 6]]
[[ 2  4  6]
 [ 8 10 12]]
[[ 1  4  9]
 [16 25 36]]

# 数组转置
arr = np.arange(15).reshape(5,3) # 重塑成5行3列
print(arr)
print(arr.T) # 行列互换
# x的转置点乘x
np.dot(arr.T,arr)

输出结果：
array([[270, 300, 330],
       [300, 335, 370],
       [330, 370, 410]])

6.通用函数

在NumPy中，通用函数（Universal Functions，简称ufunc）是一种对数组进行逐元素操作的函数。它们是NumPy的核心特性之一，允许你在数组上执行快速元素级计算。以下是一些关于NumPy通用函数的关键点：

特点

逐元素操作：ufuncs对数组中的每个元素进行操作，类似于标量操作。
广播：ufuncs可以与不同形状的数组一起使用，并且能够自动进行广播。
类型转换：ufuncs可以处理不同数据类型的数组，并在必要时进行类型转换。

通用函数分为一元函数和二元函数

一元函数（传递一个参数）

函数	说明
abs、fabs	计算整数、浮点数或复数的绝对值。对应非复数，可以使用更快的fabs
sqrt	计算各元素平方根，相当于array ** 0.5
square	计算各元素平方，相当于array ** 2
exp	计算各元素的指数
log、log10、log2、loglp	分别以自然对数（底数e）、10、2、（1+x）的对数
sign	计算各元素的正负号：1（正数）、0（零）、-1（负数）
ceil	计算各元素的ceiling值，即大于等于该值的最小整数
floor	计算各元素的floor值，即小于等于该值的最大正数
rint	将各元素值四舍五入到最接近的整数，保留dtype
modf	将数组的小数和整数部分以两个独立数组的形式返回
isnan	返回一个表示“哪些是NAN”的布尔型数组
isfinite、isinf	返回一个表示“哪些是finite、inf”的布尔型数组
cos、cosh、sin、sinh、tan、tanh	普通型和双曲线三角函数
arccos、arccosh、arcsin、arcsinh、arctan、arctanh	反三角函数
logical_not	计算各元素not x的真值，相当于~arr

二元函数（传递两个参数）

函数	说明
add	将数组中对应的元素相加
subtract	从第一个数组中的元素减去第二个数组中的元素
multiply	数组元素相乘
divide、floor_divide	除法、向下圆整除法（丢弃余数）
power	对第一个数组中元素A，根据第二个数组中的相应位置元素B，计算A^B
maximum、fmax	元素级的最大值计算，fmax将忽略NaN
minimum、fmin	元素级的最小值计算，fmin将忽略NaN
mod	元素级的求模计算，（除法的余数）
greater、greater_equal、less、less_equal、equal、not_equal	执行元素级的比较运算，最终产生布尔型数组。相当于中级运算符>、>=、<、<=、==、!=
logical_and、logical_or、logical_xor	执行元素级的真值逻辑

# 计算数组中每一个元素绝对值
arr1 = np.array([-1,-2,-3,1,2,3])
np.abs(arr)

# 两个数组元素相加
arr2 = np.array([1,2,3,4,5,6])
np.add(arr1,arr2)

# 数组中每个元素向上取整
arr3 = np.array([1.2,.8,1.3,5.6])
np.ceil(arr3)

7.数据和统计方法

方法	描述
sum	对数组的所有或一个轴向上的元素求和。零长度的数组的和为灵。
mean	算术平均值。灵长度的数组的均值为NaN。
std, var	标准差和方差，有可选的调整自由度（默认值为n）。
min, max	最大值和最小值
argmin, argmax	索引最小和最大元素。
cumsum	所有元素的累计和
cumprod	所有元素的累计积

【使用示例】

arr = np.arange(15).reshape(5,3)
print(arr)
# 计算累计和
print(np.cumsum(arr))
# 计算1轴方向的累计积
print(np.cumprod(arr,axis=1))

输出结果：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
[  0   1   3   6  10  15  21  28  36  45  55  66  78  91 105]
[[   0    0    0]
 [   3   12   60]
 [   6   42  336]
 [   9   90  990]
 [  12  156 2184]]

# 计算方差和标准差
arr = np.random.randn(5,4)
print(arr)
print(np.std(arr))
print(np.var(arr))

输出结果
[[-0.82702667  0.53004555 -0.88615354  0.45744669]
 [-0.2719961  -0.66280686  0.26270074  0.53249467]
 [-1.47459869  0.27185212  0.30708845 -1.42677151]
 [ 0.08378782 -0.48001723  1.72088513 -0.67995086]
 [ 0.97809438  1.36821827 -0.66781934 -0.57002813]]
0.8473945971142745
0.7180776032184635