1.树的概念及结构
1.1树的概念
树是一种非线性的数据结构,它是由n(n>=0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。
(1) 有一个特殊的结点,称为根结点,根结点没有前驱结点
(2)除根结点外,其余结点被分成M(M>0)个互不相交的集合T1、T2、……、Tm,其中每一个集合Ti(1<= i <= m)又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱,可以有0个或多个后继
因此,树是递归定义的。
注意:树形结构中,子树之间不能有交集,否则就不是树形结构
1.2 树的表示
树结构相对线性表就比较复杂了,要存储表示起来就比较麻烦了,既要保存值域,也要保存结点和结点之间的关系,实际中树有很多种表示方式如:双亲表示法,孩子表示法、孩子双亲表示法以及孩子兄弟表示法
等。我们这里就简单的了解其中最常用的孩子兄弟表示法。
typedef int DateType
struct TreeNode
{
struct TreeNode*firstChild;/指向第一个孩子节点
struct TreeNode*brother;/指向其兄弟节点
DateType data;
}
示意图:
1.3 树在实际中的运用(表示文件系统的目录树结构)
2.二叉树的概念及结构
2.1 二叉树的概念
一棵二叉树是节点的一个有限集合,该集合或者为空,或者由一个根节点加上两颗称为左子树和右子树的二叉树组成:
2.2 二叉树的结构特点
(1)二叉树不存在大于2的节点
(2)二叉树的子树有左右之分,次序不能颠倒,因此二叉树是有序数
二叉树都是由以下几种情况复合而成的:
2.3 现实中的二叉树
2.4 特殊的二叉树
(1)满二叉树:一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是满二叉树。也就是说,如果一个二叉树的层数为k,且结点总数是(2的k次方)-1 ,则它就是满二叉树。
(2)完全二叉树:完全二叉树是效率很高的数据结构,完全二叉树是由满二叉树而引出来的。对于深度为K的,有n个结点的二叉树,当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树。要注意的是满二叉树是一种特殊的完全二叉,简单的说,完全二叉树的最后一层的节点是不满的。
2.5 二叉树的存储结构
二叉树一般可以使用两种结构来存储,一种顺序结构,一种链式结构。
(1)顺序结构
顺序结构存储就是使用数组来存储,一般使用数组只适合表示完全二叉树,因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储。二叉树顺序存储在物理上是一个数组,在逻辑上是一颗二叉树。
父子节点的下标的数学关系:
设父节点的下标为n,则左子节点的下标为:2n+1, 右子节点的下标为:2n+2;
设子节点(左子节点或右子节点)的下标为n ,则父节点的下标为:(n-1)/ 2
(2)链式存储
二叉树的链式存储结构是指,用链表来表示一棵二叉树,即用链来指示元素的逻辑关系。 通常的方法是链表中每个结点由三个域组成,数据域和左右指针域,左右指针分别用来给出该结点左孩子和右孩子所在的链结点的存储地址 。链式结构又分为二叉链和三叉链,高阶数据结构如红黑树等会用到三叉链。
3.二叉树顺序结构及实现
3.1 二叉树的顺序结构
普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储,需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事,一个是数据结构,一个是操作系统中管理内存的一块区域分段。
3.2 堆的概念及结构
堆分为大堆和小堆,它们都是完全二叉树结构。
大堆:大堆的根节点是该二叉树的最大节点,它的左右子树的值都小于根节点的值。以此类推,左右子树的根节点的值都大于该根节点的左右子树节点的值。
小堆:小堆的根节点是该二叉树的最小节点,它的左右子树的值都大于根节点的值。以此类推,左右子树的根节点的值都小于该根节点的左右子树节点的值。
堆的性质:
1.堆中某个节点的值总是不大于或不小于其父节点的值。
2.堆总是一棵完全二叉树。
3.3 堆的实现
下面我们给出一个数组,这个数组逻辑上可以看做一颗完全二叉树,但是还不是一个堆,现在我们通过算
法,把它构建成一个堆。
int arr[]={1,5,3,8,7,6};
(1)向下调整建堆:
具体代码实现:
#include<stdio.h>
void Swap(int* p1, int* p2) {
int tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
void Print(int* p, int n)
{
for (int i = 0; i < n; i++) {
printf("%d ", p[i]);
}
printf("\n");
}
void AdjustDown(int* p, int start, int end)
{
int father = start;
int child = start * 2 + 1;/假设左孩子更大
while (child <= end) {
if (child + 1 <= end && p[child + 1] > p[child]) {/如果右孩子更大
child++;/child++后变成右孩子
}
if (p[child] > p[father]) {/建大堆 ,大的数往上移
Swap(&p[child], &p[father]);
father = child; /继续往下迭代
child = father * 2 + 1;
}
else {
break;
}
}
}
void CreateHeap(int* p, int n)/这里n为最后一个元素的下标
{
for (int i = (n - 1) / 2; i>=0; i--) {/从倒数第一层开始向下调整
AdjustDown(p, i, n);
}
}
void test()
{
int arr[] = { 1,5,3,8,7,6 };
int size = sizeof(arr) / sizeof(int);
CreateHeap(arr, size-1);
Print(arr, size);
}
int main()
{
test();
return 0;
}
(2)向上调整建堆:
#include<stdio.h>
void Swap(int* p1, int* p2) {
int tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
void Print(int* p, int n)
{
for (int i = 0; i < n; i++) {
printf("%d ", p[i]);
}
printf("\n");
}
void AdjustUp(int* p, int end)
{
int child = end;
int father = (child - 1) / 2;
while (child > 0) { /child==0时不需要再调整了
if (p[child] > p[father]) {
Swap(&p[child], &p[father]);
child = father;
father = (child - 1) / 2;
}
else {
break;
}
}
}
void CreateHeap(int* p, int n)/这里n为最后一个元素的下标
{
for (int i = 1; i <=n; i++) {/假设已经有了一个建好了的堆,每增加一个元素时都对该元素向上调整
AdjustUp(p, i); /从数组的1位置开始向上调整
}
}
void test()
{
int arr[] = { 1,5,3,8,7,6 };
int size = sizeof(arr) / sizeof(int);
CreateHeap(arr, size - 1);
Print(arr, size);
}
int main()
{
test();
return 0;
}
3.4 堆的插入
例如先插入一个10到数组的尾上,再进行向上调整算法,直到满足堆。
3.5 堆的删除
删除堆是删除堆顶的数据,将堆顶的数据根最后一个数据一换,然后删除数组最后一个数据,再进行向下调整算法。
3.6 堆的应用
3.6.1 堆排序
堆排序即利用堆的思想来进行排序,总共分为两个步骤:
1.建堆
升序:建大堆
降序:建小堆
2.利用堆删除思想来进行排序
建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。
例如:
3.6.2 TOP-K问题
TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:
1.用数据集合中前K个元素来建堆
求前k个最大的元素:建小堆
求前k个最小的元素:建大堆
2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
将剩余N-K个元素依次与堆顶元素比较,若该元素大于堆顶元素,则该元素与堆顶元素交换,然后对该元素向下进行调整,将堆中的最小的元素调整到堆顶。再次将剩余的元素与堆顶进行比较。最后堆中剩余的K个元素就是所求的前K个最小或者最大的元素。