8.排序
排序
排序就是重新排列表中的元素,使表中的元素满足按关键字有序的过程
稳定性:在排序前相同的的两个元素,在排序后如果前后顺序没有改变,则是稳定,如果发生了改变,则不稳定
排序可以分为内部排序和外部排序,内部排序的数据都在内存中,考虑时空复杂度,而外部排序发生在磁盘和内存中,要考虑到尽可能降低读写次数
插入排序
插入排序是一种最简单直观的排序算法,它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。
1 | //插入排序 |
算法存在优化空间,可以用二分查找的思路来查找插入位置,但是时间复杂度并没有改变,插入排序在面对倒序排列元素时表现非常糟糕
空间复杂度:$O(1)$
时间复杂度:$O(n²)$
算法稳定性:稳定
希尔排序
希尔排序,也称递减增量排序算法,是插入排序的一种更高效的改进版本。但希尔排序是非稳定排序算法。
希尔排序是基于插入排序的以下两点性质而提出改进方法的:
- 插入排序在对几乎已经排好序的数据操作时,效率高,即可以达到线性排序的效率;
- 但插入排序一般来说是低效的,因为插入排序每次只能将数据移动一位;
希尔排序的基本思想是:先将整个待排序的记录序列分割成为若干子序列分别进行直接插入排序,待整个序列中的记录”基本有序”时,再对全体记录进行依次直接插入排序
可以说希尔排序也就是插入排序的升级版,代码非常相似,就是在外面加了层嵌套
1 | void ShellSort(int x[],int n) { |
空间复杂度:O(1)
时间复杂度:O(n²)
算法稳定性:不稳定
只适用于顺序表
冒泡排序
冒泡排序(Bubble Sort)也是一种简单直观的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢”浮”到数列的顶端。
1 | void BubbleSort(int arr[], int len) { |
空间复杂度:O(1)
时间复杂度:O(n²)
算法稳定性:稳定
快速排序
快速排序又是一种分而治之思想在排序算法上的典型应用。本质上来看,快速排序应该算是在冒泡排序基础上的递归分治法
算法步骤
- 从数列中挑出一个元素,称为 “基准”(pivot);
- 重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition)操作;
- 递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序
1 | int Paritition1(int A[], int low, int high) { |
空间复杂度:$O(log_2n)到O(n)$,取决于递归树的深度
时间复杂度:最好情况下$O(nlog_2n)$ ,最差情况下$O(n²)$,递归次数是$log_2n$,完成排序操作是n
算法稳定性:不稳定
快速排序在数据已经基本有序的情况下不好发挥其速度,因为会以首个元素为基准,导致其左子表为0,但排序列表为倒序,用快速排序能将其很快变为正序,只要在中间位置选中枢轴即可
选择排序
选择排序是一种简单直观的排序算法,无论什么数据进去都是 $O(n²)$ 的时间复杂度。所以用到它的时候,数据规模越小越好。
首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置。再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾。重复第二步,直到所有元素均排序完毕。
1 | void swap(int *a,int *b) //交换两个数 |
空间复杂度:$O(1)$
时间复杂度:$O(n²)$
算法稳定性:不稳定
堆排序
堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。堆排序可以说是一种利用堆的概念来排序的选择排序。分为两种方法:
- 大顶堆:每个节点的值都大于或等于其子节点的值,在堆排序算法中用于升序排列;
- 小顶堆:每个节点的值都小于或等于其子节点的值,在堆排序算法中用于降序排列;
首先需要回忆完全二叉树的顺序存储的性质:
数组0位置是空,然后按层级遍历顺序存储, i
的左孩子结点是2i
,i
的右孩子结点是2i+1
,i
的父节点是[i/2]
,而n
是数组长度,n/2
是最后一个非叶子结点位置
先建立大根堆,堆顶元素即是最大元素,然后交换堆顶和堆底元素,将堆顶元素移出堆外,重新构建堆,形成递增序列
1 | void heapify(int* r, int dad, int end) //k~end为调整的范围 |
堆的建立:按照完全二叉树的顺序建立堆,然后从底部(表尾)开始,按照堆的要求进行换位,即从下到上,从右到左
堆的插入:新元素放到堆底部(表尾),然后按照堆的要求不断上升,上升只用对比父节点一次关键字
堆的删除:被删除元素和底部元素换位(表尾),然后按堆的要求不断下坠,下坠有可能需要比较两次,也有可能只比一次
注意:堆的排序有两种类型:
- 给了数据序列,问变化序列,那就就按堆的建立开始换位
- 给了数据序列,强调依次插入,那么就按堆的插入一步步加入形成堆
堆由数组存储,只适合用于排序,而不适合用于查找
空间复杂度:$O(1)$
时间复杂度:$O(nlog_2n)$ 堆顶的交换次数是$n$,堆的调整的时间复杂度是$log_2n$
算法稳定性:不稳定
归并排序
归并排序(Merge sort)是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。
算法步骤
- 申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并后的序列;
- 设定两个指针,最初位置分别为两个已经排序序列的起始位置;
- 比较两个指针所指向的元素,选择相对小的元素放入到合并空间,并移动指针到下一位置;
- 重复步骤 3 直到某一指针达到序列尾;
- 将另一序列剩下的所有元素直接复制到合并序列尾。
数组的归并操作就是两个有序数组(链表)的合并,就是合并low-mid
,mid+1-high
两个数组
1 | void Merge(int a[],int low ,int mid,int high){ |
空间复杂度:$O(n)$ 来自辅助数组
时间复杂度:$O(nlog_2n)$ 归并次数是$log_2n$,每次归并的时间复杂度是$n$
算法稳定性:稳定
基数排序
基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能使用于整数
假设要比较很多两位整数的大小,首先需要建立队列,第一趟先比较各个数个位大小,个位大的先入队,然后出队,按十位大的先入队,十位相同的两个数,由于第一趟排序后,个位大的排在前面,所以个位大的先入队,当数都入队后,再出队
一般使用链式队列来存储数据,需要r个队列,r为进制位数
空间复杂度:O(r)
时间复杂度:O(d(n+r)) 一次排序需要O(r),总共有d次分配,收集
稳定性:稳定
外部排序
由于数据元素过多,无法一次全部读入内存进行排序,所以需要在内存和磁盘之间进行操作
外部排序的核心还是归并排序,在内存中最少只需要3块大小的缓冲区就能对任意大小的文件进行排序归并
每次读入两块数据到缓冲区,然后进行归并排序,结果到输出缓冲区写入到磁盘中去,如果输入缓冲区空了就再加入一块新数据
步骤:
- 生成r个初始归并段
- 进行S趟k路归并 $S=[log_kr]$
外部排序时间开销=读写外存的时间+内部排序所需时间+内部归并所需时间
优化思路:
- 可以多加2个缓冲区,这样就是4路归并,减少读写磁盘的时间(败者树)
- 减少初始归并段(置换-选择排序)
败者树
多加了缓冲区后,内部排序需要对比关键字的次数也增加了,为了减少内部排序的对比次数,可以采用败者树的形式
接下来的对比,只需要对比分支结点里面记录的败者归并段的首元素就行了,只需要对比关键字$log_2k$次
置换-选择排序
将初始待排序文件集中放在一起,然后进入内存工作区,内部排序得到最小的值,输出该元素,并记录该元素的值为MIN,添加新元素,每次离开内存工作区的元素要比MIN大,并且会成为新的MIN
如果工作区所有的数都比MIN小,就新开一个归并段
最佳归并树
在进行归并的时候,将每个初始归并段看做一个叶子结点,归并段的长度作为结点权值,那么利用哈夫曼树的性质就能实现最少归并次数
归并过程中磁盘I/O次数=归并树WPL×2
对于K叉归并,如果初始归并段的数量无法构成严格的k叉归并树,就需要补充几个长度为0的虚段,至于虚段的计算,参照二叉树的性质
已知树的结点数=总度数+1 即$n=n_1+2n_2+1$,同时$n=n_0+n_1+n_2$,所以可以推出$n_0=n_2+1$
补充了虚段的最佳归并树的结点只有两种类型,叶子结点和度为k的结点,叶子结点由归并段结点和虚段结点组成,那么可根据树的性质推导
$1+k×n_k=n$ 即 1+树的总度数=树的结点总数
$n_0+n_k=n$ 即 叶子结点+度为k的结点=树的结点总数
- $n_0=n_v+n_s$ 即 叶子结点=虚段结点+归并段结点
根据这三个公式推出:$n_v+n_s+n_k=1+k×n_k$,
即$n_k=\frac{(n_v+n_s-1)}{k-1}$
为了让$n_k$为正整数,需要补充的虚段就是满足这一条件的最小正整数