运输层

2020-06-01

运输层协议概述

运输层两个主要的协议：TCP 和 UDP。

TCP (Transmission Control Protocol)，传输控制协议

UDP (User Datagram Protocol)，用户数据报协议

TCP 面向连接，UDP 无连接。

TCP 和 UDP

在 TCP/IP 体系中，两个对等运输实体在通讯时传输的数据单位，对 TCP 叫做 TCP 报文段 (segment)，对 UDP 叫做用户数据报 (user datagram)。

UDP 在传送数据之前不需要建立连接，一台主机在收到 UDP 报文之后不需要给出任何确认。UDP 不提供可靠交付，有时却最有效。

TCP 提供面向连接的服务，传送数据之前必须先建立连接，数据传送结束要释放连接。不可避免地增加了许多开销：确认、流量控制、计时器、连接管理等。

运输层的端口

操作系统中每个进程都有自己的 PID，但是这个它是系统相关的，不同的系统使用不同格式的进程标识符，因此必须用统一的方法对 TCP/IP 体系的应用进程进行标志。

TCP/IP 的运输层用一个16位端口号来标志一个端口。

互联网上的计算机通信采用客户-服务器方式，客户在发起通信请求时，必须先知道对方服务器的 IP 地址和端口号。因此运输层的端口号分为下面两大类：

服务器端使用的端口号。
- 熟知端口号 0~1023
- 登记端口号 1024~49151
客户端使用的端口号 49152~65535，在客户端进程运行时动态选择，可复用。

UDP

UDP 特点

主要特点：

无连接
尽最大努力交付，即不保证可靠交付
面向报文，把应用层下交的报文添加首部后直接交付网络层
没有拥塞控制
支持一对一、一对多、多对一、多对多的交互通信
首部开销小

问题：正是由于 UDP 没有拥塞控制，当大量主机向互联网发送大量数据时，会造成严重网络拥塞，使大家都无法正常接收。在这种情况下，应用进程本身可以在不影响应用实时性的前提下，增加一些提高可靠性的措施，如：前向纠错、重传丢失报文等等。

UDP 首部格式

UDP 的数据报有两个字段：数据字段、首部字段。

首部字段8字节：

源端口 2字节
目的端口 2字节
长度两字节，最小值为8
检验和，有错就丢弃

如果接收方发现报文中的目的端口对应进程不存在，就丢弃该报文，由网际控制报文协议 ICMP 发送“端口不可达”差错报文给发送方。可以用于测试。

虽然你在 UDP 之间的通信要用到端口号，但是由于 UDP 是无连接的，不需要用套接字。（TCP 之间的通信需要在套接字之间建立连接）。

传输控制协议 TCP

TCP 主要特点

是面向连接的运输层协议。在数据传输前需要建立连接，传输完毕后需要释放连接；
每一条 TCP 连接只能有两个端点，每一条 TCP 连接只能是点对点的；
提供可靠交付服务，无差错、不丢失、不重复，并且按序到达；
提供全双工通信，收发两端都设有缓存;
面向字节流。TCP 中的流指的是流入进程或从进程流出的字节序列。对应于 UDP 面向报文，TCP 发送数据时不会保留应用层下交数据的结构；而决定报文段长度的是传输层本身，对方给出的窗口值和当前网络拥塞程度，对比 UDP 的由发送数据的应用决定报文长度；

TCP 的连接

TCP 连接的端点是套接字 (socket)。

根据 RFC 793 的定义：端口号拼接到 IP 地址即构成了套接字。

每一条 TCP 连接被通信两端的两个套接字所确定。

可靠传输的工作原理

TCP 发送的报文段是交给 IP 层传输的，但 IP 层只提供尽最大努力交付，也就是书，TCP 下面的网络提供的是不可靠传输。

理想的传输条件有以下特点：

传输信道不产生差错
不管传送方以多块的速度发送数据，接收方总是来得及处理收到的数据

然而实际网络不具备这两个条件，因此就需要一些可靠传输协议来弥补实际网络的不足。

停止等待协议

“停止等待”就是每发送完一个分组（数据单元）就停止发送，等待对方确认，收到确认后发送下一个分组。

通信过程中可能遇到的几种情况：

无差错情况；
出现差错，接收方丢弃出现差错的分组，其他什么也不做，发送方在超时计时器设定的等待时间内未收到确认，就会进行超时重传，若收到确认就撤销已设置的超时计时器；
- 发送方在发送分组之后和收到确认之前都需要保留已发送分组的副本
- 分组和确认分组都需要编号
- 超时计时器设置的重传时间应当比数据在分组传输的平均往返时间长一些
确认丢失和迟到。接收方发送的确认丢失或迟到，此时发送方重新发送，接收方收到重复数据直接丢弃，并发送确认；发送方收到重复确认直接丢弃。

通过上述确认和重传机制，我们就可以在不可靠的网络上实现可靠传输。

然而，当停止等待协议的信道利用率很低。

为了提高传输效率，发送方可以使用流水线传输，意味着发送方可连续发送多个分组，不必每发送完一个分组就停下来等待确认。这种传输方式可以或者很高的信道利用率。

连续 ARQ 协议

发送窗口：位于发送窗口内的分组可以连续发送，不需要等待确认。

发送方每收到一个确认，就把发送窗口向前滑动一个分组的位置。

接收方采用累积确认的方式。不必对收到的分组逐个发送确认，而是在收到几个分组之后，对按序到达的最后一个分组发送取确认。

TCP 报文段的首部格式

一个 TCP 报文段分为首部和数据两部分。

源端口和目的端口
序号
确认号，是期望收到对方下一个报文段的第一个数据字节的序号；
数据偏移，数值上等于首部长度
保留
紧急，高优先级标记
确认 ACK，ACK = 1时，确认号字段有效
推送 PSH，立即发送，理解交付（不在缓冲区中滞留）
复位 RST
同步 SYN，连接建立时用来同步序号
终止 FIN
窗口，窗口指的是对于发送该分组的发送方的接收窗口大小，而该分组的接收方用这个信息来设置自己的发送窗口
检验和
紧急指针
选项
- 时间戳选项用于：计算往返时间、防止序号绕回

TCP 可靠传输的实现

以字节为单位的滑动窗口

发送方和接受方都有自己的发送窗口和接收窗口。

发送缓存用来存储：进程传送给发送方 TCP 准备发送还未发送的数据，窗口内已发送但还未收到确认的数据；

接收缓存用来存储：按序收到但还未交付给目的进程的数据，未按序收到的数据；

超时重传时间的选择

超时重传时间设置过短会导致大量不必要的重传，使网络负荷增大；设置过长会导致信道利用率降低。

TCP 采用一种自适应算法，采用指数加权平均算法，通过发送报文时间和收到确认时间得到报文段往返时间 RTT，并用指数加权平均算法（这实际上优化了均值的计算，节省空间）：
$$
RTT_S = (1-\alpha)\times RTT_{S_old}+\alpha\times RTT
$$
如此，$RTT_s$的值大约为$\frac{1}{\alpha}$个样本的平均值。

而超时计数器设置的超时重传时间 RTO (Retransmission Time-Out) 应略大于$RTT_s$，RFC 6298 建议使用下式：
$$
RTO = RTT_S+4\times RTT_D
$$

$$
RTT_D = (1-\beta)\times RTT_{D_old}+\beta\times |RTT_S-RTT|
$$
$RTT_D$是偏差的加权平均值。

考虑特殊情况：当发生超时重传时，发送方如何确认收到的确认是对重传之前分组的确认还是重传之后分组的确认？

发生错误判断时会导致超时重传时间偏小，导致大量重发。因此，采用每次重发都增加超时重传时间，并且不计算重发分组的 RTT的策略。

选择确认 SACK

SACK (Selective ACK) 用来报告接受到的序号不连续的字节块边界，在标记边界时使用的是类似 C++ 中迭代器使用的头指针和尾后指针。

TCP 流量控制

目的：控制发送方发送数据的速率，使其与接收方接受数据的速率相匹配。

利用滑动窗口进行流量控制

接收方通知发送方自己的接收窗口大小，从而使发送方控制自己的发送窗口大小。

但是这种方法可能会造成死锁：发送方窗口大小被调整为0，而接收方发送的确认丢失，使得发送方无法修改窗口大小，发送方依然不会发送数据，而接收方一直在等。

为解决死锁现象，TCP 为每个连接设置一个持续计时器，只要连接的一方收到另一方的零窗口通知，就启动持续计时器，计时器时间结束则发送一个零窗口探测报文段，对方在确认时给出当前接收窗口大小。

TCP 传输效率

TCP 实现中广泛应用 Nagle 算法：若发送数据的进程把要发送的数据逐个字节写到发送方发送缓存，则发送方先将第一个字节发送出去，把后面到达的数据全部缓存起来，直到收到确认或者数据超过发送缓存大小的一半（或达到最大容量）。

糊涂窗口综合征，有时也会使 TCP 性能变差。解决：接收方接收缓存可以接受一个最长报文段或接收缓存有一半空闲空间时，立即发送确认。

TCP 拥塞控制

拥塞控制的一般原理

网络资源：计算机网络中的链路容量（带宽）、交换节点中的缓存、处理机等。

在某个时间段内，
$$
\sum 资源需求 > 可用资源
$$
满足上述条件时，出现网络拥塞。

拥塞控制和流量控制的区别

目的不同：
- 拥塞控制是为了防止过多数据注入网络，使网络中的路由器和链路不致过载；
- 流量控制是为了抑制发送方的数据发送速率，使接收方来得及处理；
尺度不同：
- 拥塞控制是一个全局性的问题，涉及到所有的主机、路由器，以及其他降低网络传输性能的其他因素；
- 流量控制是个端到端的问题，只控制点对点通信的通信量；

TCP 的拥塞控制方法

慢开始
拥塞避免
快重传
快恢复

慢开始和拥塞避免

也叫做基于窗口的拥塞控制。

发送方维持一个叫做拥塞窗口的状态变量，其大小取决于网络的拥塞程度，而发送方的发送窗口大小取决于拥塞窗口和接收方窗口的最小值。

慢开始算法：由小到大逐渐增大发送窗口，每收到一个对新的报文段的确认，就把拥塞窗口最多增加一个 SMSS 的数值（SMSS，Sender Maximum Segment Size，发送方最大报文段）。
连接建立之初，设置较小的拥塞窗口，限制发送方的发送窗口大小。而当发送方收到确认后可以立即将拥塞窗口相应增大，并立即发送新的分组。如此，在拥塞窗口大小到达慢开始门限 ssthreash之前，拥塞窗口以指数速度上升。而指数速度上升如果不被限制，一定会造成网络拥塞，因此在到达慢开始门限之后，改为使用拥塞避免算法。
拥塞避免算法：与慢开始算法最直观的差别就在于拥塞窗口的增长率为线性，降低网络拥塞的几率。且拥塞避免算法在满开始算法的拥塞窗口达到慢开始门限时被使用。
快重传：快重传算法的目的就是解决“误判的网络拥塞”，即网络中实际上并没有发生拥塞，而接收方发送的确认由于某些原因丢失，导致发送方超时重传，并且判断当前发生了网络拥塞，重置拥塞窗口并将慢开始门限减半，这样降低了传输效率。

快重传算法要求接收方立即发送确认，即使收到了失序的报文段。例如，接收方接收到了序号为 22 的报文，却没有接收到 21 号报文，此后，接收方每接收到一个新的报文（不是 21），就要立即发送对 20 的重复确认，确认号为 21。当发送方连续接收到 3 个重复确认，就立即重传，重置超时重传计时器，避免触发对网络拥塞的误判。

此时的情况是没有超时重传，而部分报文段丢失，在快重传结束之后，发送方执行快恢复算法。
快恢复：所谓快恢复，就是在发生异常而判定不是网络拥塞之后，不重置拥塞窗口使用慢开始算法，而是将慢开始门限减半（有些实现加了与 ACK 数量相同的偏移），而将拥塞窗口设置到慢开始门限，直接开始拥塞避免算法。

可以看出，超时重传发生时，状态转移的结果都是从慢开始算法开始；而数据丢失发生时，状态转移的结果是拥塞避免。

主动队列管理 AQM

TCP 运输连接管理

TCP 的连接建立

TCP 建立连接的过程叫做握手，握手需要在客户端和服务器之间交换三个 TCP 报文段。

初始时，客户端和服务器都是 CLOSED 状态。客户端需要发起连接请求时，服务器需要开始监听连接请求时，两端均创建传输控制块 (Transmission Control Block)，此时服务器处于 LISTEN 状态。
客户端发送连接请求报文段，同步位 SYN = 1，初始序号 seq = x。该报文不能携带数据，但是需要占用一个序号。此时客户端进入 SYN-SENT 状态，表示连接请求已发送；
服务器收到连接请求，如果同意建立连接，则向客户端发送确认，同步位 SYN = 1，确认号 ack = x + 1，自身的初始序号 seq = y。该报文不能携带数据，但是要占用一个序号。此时服务器进入 SYN-RCVD 状态，表示同步收到；
客户端收到确认，向服务器发送一个确认。确认报文段的确认标志位 ACK = 1，确认号 ack =y + 1，自己的序号 seq = x + 1。该确认报文可以携带数据，但如果不携带数据则不占用序号。此时，客户端进入 ESTAVLISHED 状态，表示客户端已准备好建立连接；
服务器收到确认，也进入 ESTABLISHED 状态，至此，TCP 连接建立。

为什么需要三次握手？

第一次握手：若成功
- 从客户端角度看：不知道服务器接收是否正常；
- 从服务器角度看：客户端发送正常，不知道客户端接收是否正常；
第二次握手：若成功
- 从客户端角度看：证明服务器接收正常，发送也正常，可以建立连接；
- 从服务器角度看：不清楚客户端接收是否正常；
第三次握手：若成功
- 从服务器角度看：客户端发送以及接收都正常，可以建立连接；

第三次握手的必要性：如果只有两次握手，那么如果有因为某种原因滞留在网络中导致超时重传的连接请求，在 TCP 连接释放之后到达服务器，那么服务器不需要客户端的确认就单方面建立连接，而客户端丢弃服务器的确认，导致服务器进程一直在等待永远不会发送的数据，浪费资源。

深入理解TCP握手过程中建连接的流程和队列

原文链接：http://jm.taobao.org/2017/05/25/525-1/

这里自己做一个理解和消化。

（图片来源：http://www.cnxct.com/something-about-phpfpm-s-backlog/）

由上图可见 TCP 建立连接的完整过程为：

服务器首先 bind() 函数绑定套接字文件描述符和地址，然后进入监听状态

1
2
int bind(int sockfd, const struct sockaddr *addr,
         socklen_t addrlen);
Description
When a socket is created with socket(2), it exists in a name space (address family) but has no address assigned to it. bind() assigns the address specified by addr to the socket referred to by the file descriptor sockfd. addrlen specifies the size, in bytes, of the address structure pointed to by addr. Traditionally, this operation is called “assigning a name to a socket”.

It is normally necessary to assign a local address using bind() before a SOCK_STREAM socket may receive connections (see accept(2)).

当客户端发起连接请求时，开始三次握手，如图所示，这里有两个队列：syns queue（半连接队列）和accept queue（全连接队列）；

第一步中，服务器收到客户端的 SYN 同步信号后，把相关信息放到半连接队列中，同时回复 SYN, ack 给客户端（第二步）；

比如syn floods 攻击就是针对半连接队列的，攻击方不停地建连接，但是建连接的时候只做第一步，第二步中攻击方收到server的syn+ack后故意扔掉什么也不做，导致server上这个队列满其它正常请求无法进来。

第三步中，服务器收到客户端的 ack，如果这时全连接队列没满，那么从半连接队列拿出相关信息放入到全连接队列中，否则按照 tcp_abort_on_overflow的设置执行。

如果第三步中，全连接队列已满，并且tcp_abort_on_overflow为 0，那么服务器过一段时间再次发送 SYN, ack 给客户端（即重新执行三步握手的第二步），如果客户端超时等待时间较短，那么很容易异常（超出 retry 次数），如果tcp_abort_on_overflow为 1，那么服务器向客户端发送一个 reset 包，重置连接。

拓展

三次握手的第三步中，客户端进入 ESTABLISHED 状态之后，假如第三次握手失败，确认丢失，服务器实际上还在 SYN-RCVD 状态，此时客户端向服务器发送数据，会导致服务器丢弃这些数据，而客户端会认为丢包而进行超时重传，直到超时断开连接（主动发送 FIN 包）。以上问题叫做 client fooling。

第三步握手失败时，服务器超时后给客户端发送 RST 包，自身进入 CLOSED 状态。这样做是为了防止 SYN 泛洪攻击。

TCP 的连接释放

数据传输结束后，通信双方都可释放连接。

如上图所示，关闭一个 TCP 连接需要四次握手。

开始时，服务器与客户端都处于 ESTABLISHED 状态，此时，假如客户端要主动关闭连接；
客户端进程向其 TCP 发出连接释放报文段，并停止发送数据，连接释放报文段首部终止控制位 FIN = 1，seq = u，无论是否携带数据，都占用一个序号。此时，客户端进入 FIN-WAIT-1 状态；
服务器收到连接释放报文段后发出确认，确认号为 ack = u + 1，序号 seq = v，此时服务器进入 CLOSE-WAIT 关闭等待状态。此时，TCP 连接处于半关闭状态，客户端到服务器的连接关闭（无数据发送），但服务器到客户端的连接未关闭，客户端还需要接收服务器数据；客户端收到确认后，进入 FIN-WAIT-2 状态，等待服务器发出的连接释放报文段；
服务器发送完所有数据之后，服务器进程释放 TCP 连接，此时服务器发送连接释放报文段，终止控制位 FIN = 1，确认号 ack = u + 1，序号 seq = w（上一次确认之后可能又继续发送数据），与第二步中的确认号相同，因为第三步中，客户端并未给服务器发送数据。此时服务器进入 LAST-ACK 状态，等待客户端确认；
客户端收到连接释放报文段之后发出确认，确认号 ack = w + 1，序号 seq = u + 1，此时客户端进入 TIME-WAIT 状态，此时 TCP 连接还未释放，必须经过时间等待计时器设置的时间 2MSL后，客户端才进入 CLOSED 状态。MSL (Maximum Segment Lifetime) 最长报文段寿命（我觉得翻译成报文段最长寿命不会有歧义）。服务器收到确认后进入 CLOSED 状态。

TIME-WAIT 的意义

保证主动断开连接的一方发送的 ACK 报文段能够到达另一方，如果该 ACK 报文丢失，那么另一方会超时重传一个连接释放请求 FIN+ACK 报文段，而 TIME-WAIT 状态等待的 2MSL 正是为了保证主动断开方可以收到重传的 FIN+ACK 报文段。如果真的发生了 ACK 丢失，那么主动断开方在收到重复确认之后，重传确认，并重置 2MSL 计时器，直到接收方顺利收到确认，两端都进入 CLOSED 状态；否则，可能由于无法收到重复确认而使其中一方无法顺利关闭连接；
防止“已失效的连接请求报文段”出现在连接中。 2MSL 的时间足够本连接持续时间内所产生的所有数据都离开网络，保证下一次连接不会出现旧的连接请求报文段。

为什么需要四次挥手

对比连接建立时的三次握手，由于服务器可以将用于确认的 ACK 和用于同步序号的 SYN 报文合并发送给客户端，因此只需三次；而连接释放时，客户端需要发送连接释放请求 FIN 报文段，而服务器收到之后，由于可能还有数据需要发送，不能立即发送 FIN 报文给客户端，因此只能先发送 ACK，等数据全部发完了，再发送 FIN。

TCP 的有限状态机

展开全文 >>

五种IO模型

2020-06-01

以下所有 IO 模型都是 Linux 系统下的网络 IO。

阻塞 IO (blocking IO)
非阻塞 IO (nonblocking IO)
异步 IO (asynchronous IO)
（事件驱动） IO 复用 (IO multiplexing)
信号驱动 IO 复用 (signal driven IO)

以上，除异步 I/O 外，其余模型均为同步模型。

当一个 read 操作发生时，需要

等待描述符集合中的描述符准备好读（iff 一个从该描述符读取一个字节的请求不会阻塞时，该描述符准备好读）；
将数据从内核拷贝到进程中；

什么是 Socket

Linux Socket 是一个接口，是 TCP/IP 网络的 API，定义了网络编程的函数和例程。

在形式上，Socket 为一个文件，在一个进程中对应一个文件描述符。

Socket 数据传输是一种特殊的 IO。

blocking IO

Linux 中，默认情况下所有 socket 都是阻塞的。

当用户进程调用 recvfrom 系统调用时，系统内核开始准备数据。在内核等待数据的过程中，调用进程被阻塞，直到数据准备好后，内核将数据拷贝到进程的用户内存，返回结果并恢复运行。

缺点：调用进程在读写时无法进行任何其他操作，如接受和响应新的连接请求。

改进：使用多进程或多线程，为每个连接请求创建一个新进程或线程，这样每个连接的进程或线程被阻塞时，都不会影响主线程或主进程响应其他连接请求。

缺点：连接数量大时，严重占用系统资源，降低响应效率。

改进：使用线程池或连接池。线程池维护一定数量的线程，减少创建和销毁线程的频率从而节省开销，尽量重用空闲的线程。而连接池维持连接的缓存池，尽量重用已有连接，减少创建和关闭连接的频率。

缺点：当请求数量远远大于池的容量时，池无法发挥作用。

解决：面对大规模的服务请求，可以使用非阻塞接口。

nonblocking IO

用户进程调用 read 时，系统调用立即返回结果，表示内核是否准备好数据。立即返回的结果就是调用进程可以继续运行，但是需要轮询内核的状态，也就是不断重复调用 read。

该模型绝对不被推荐使用，因为循环调用大幅度提高了 CPU 占用率。而实际上，操作系统提供了更高效的接口，例如 select 多路复用模式，一次检测多个连接是否活跃。

IO multiplexing

多路复用也叫事件驱动IO (event driven IO)。epoll 是 Linux 操作系统提供的接口，使得单个进程可以同时处理多个网络连接的IO。原理是 select/epoll 会轮询它负责的所有 socket，当某个 socket 有数据到达时通知用户进程。

与 blocking IO 相似，用户进程在调用 select/epoll 时会被阻塞，直到描述符集合中有一个准备好读，此时，函数调用返回，之后，用户进程再调用 read 将数据拷贝到用户内存。

多路复用IO 模型相较于 blocking IO 的优势在于，它可以同时处理多个连接。因此，当连接数较大时，多路复用才有优势。

缺点：该模型将事件探测与事件响应夹杂在一起。如果事件响应的执行体庞大，那么就会降低事件探测的效率。

改进：加入信号，使用异步响应的 IO 操作。

signal driven IO

asynchronous IO

当用户进程调用 read 时，调用立即返回，不会阻塞用户进程。此后，内核等待数据准备好，然后将数据拷贝到用户内存，拷贝完成后，内核向用户进程发送信号，表示 read 完成。

区别

阻塞与非阻塞：进程调用系统 IO 接口时，如果数据没准备好，进程是否会被阻塞；

同步与异步：两者区别在于内核将数据拷贝到用户内存时，用户进程是否被阻塞；

展开全文 >>

面试题13.机器人的运动范围

2020-05-30

题目

地上有一个m行n列的方格，从坐标 [0,0] 到坐标 [m-1,n-1] 。一个机器人从坐标 [0, 0] 的格子开始移动，它每次可以向左、右、上、下移动一格（不能移动到方格外），也不能进入行坐标和列坐标的数位之和大于k的格子。例如，当k为18时，机器人能够进入方格 [35, 37] ，因为3+5+3+7=18。但它不能进入方格 [35, 38]，因为3+5+3+8=19。请问该机器人能够到达多少个格子？

示例 1：
1
2
输入：m = 2, n = 3, k = 1
输出：3
示例 2：
1
2
输入：m = 3, n = 1, k = 0
输出：1
提示：

1 <= n,m <= 100

0 <= k <= 20

来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/ji-qi-ren-de-yun-dong-fan-wei-lcof
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

思路

每一步有多个选择，每个选择被某种条件限制，而目标是求满足条件的情况数量，这种情形适合使用回溯法解决，因为我们需要遍历所有可能路径（必要时剪枝）才可能得到答案。

由于要求最多能到达多少格子，因此重复进入格子无意义且浪费时间。

因此，从左上角开始 DFS ，维护最大可到达格子数量即可。

每到达一个节点，有以下几种选择：

该节点已经来过，计数不会增加，返回0
该节点没来过，继续寻找下一个节点
遍历完所有子节点后计数加一返回计数

class Solution {
public:
    int movingCount(int m, int n, int k) {
        if(m == 1 && n == 1) return k>1?1:0;
        limit = k;
        mark.resize(m, vector<bool>(n, false));
        return dfs(0, 0);
    }
private:
    int limit;
    vector<vector<bool>> mark;
    int dfs(int row, int col) {
        if(mark[row][col] == true || (row/10 + row%10 + col/10 +col%10) > limit) return 0;
        mark[row][col] = true;
        int cnt = 0;
        if(row > 0) cnt += dfs(row-1, col);
        if(row < mark.size()-1) cnt += dfs(row+1, col);
        if(col > 0) cnt += dfs(row, col-1);
        if(col < mark[0].size()-1) cnt += dfs(row, col+1);
        return ++cnt;
    }
};

时间复杂度$O(mn)$
空间复杂度$O(mn)$

展开全文 >>

面试题12.矩阵中的路径

2020-05-30

题目

请设计一个函数，用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径。路径可以从矩阵中的任意一格开始，每一步可以在矩阵中向左、右、上、下移动一格。如果一条路径经过了矩阵的某一格，那么该路径不能再次进入该格子。例如，在下面的3×4的矩阵中包含一条字符串“bfce”的路径（路径中的字母用加粗标出）。
1
2
3
[["a","b","c","e"],
["s","f","c","s"],
["a","d","e","e"]]
但矩阵中不包含字符串“abfb”的路径，因为字符串的第一个字符b占据了矩阵中的第一行第二个格子之后，路径不能再次进入这个格子。

示例 1：
1
2
输入：board = [["A","B","C","E"],["S","F","C","S"],["A","D","E","E"]], word = "ABCCED"
输出：true
示例 2：
1
2
输入：board = [["a","b"],["c","d"]], word = "abcd"
输出：false
提示：

1 <= board.length <= 200

1 <= board[i].length <= 200

来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/ju-zhen-zhong-de-lu-jing-lcof
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

思路

回溯法非常适合有多个步骤组成的问题，并且每个步骤都有个多个选择。

由于这不是一个最优问题，而是要找到满足条件的解，我们不得不遍历所有可能的解，用剪枝来优化，这就是回溯。

我们首先选择一个与字符串首字母匹配的位置开始；
因为有限制条件：不能重复进入格子，我们还要用一种方法来标记已经进入过的格子；

每来到一个新的格子，我们有如下选择：

已经找到了，返回
还没找到，但这个格子来过，返回
还没找到，这个格子不符合条件，返回
还没找到，这个格子符合条件，继续找；

class Solution {
public:
    bool exist(vector<vector<char>>& board, string word) {
        if(board.empty() || board[0].empty() || word.empty()) {
            if(word.empty()) return true;
            else return false;
        }
        if(board.size() == 1 && board[0].size() == 1 && word.size() <= 1) {
            if(word[0] == board[0][0]) return true;
            else return false;
        }

        mark.resize(board.size(), vector<bool>(board[0].size(), false));
        for(int i=0; i<board.size(); ++i) {
            for(int j=0; j<board[0].size(); ++j) {
                if(backtrace(board, word, i, j)) return true;
            }
        }
        return false;
    }
private:
    vector<vector<bool>> mark;
    bool backtrace(vector<vector<char>>& board, string word, int row, int col) {
        if(word.empty()) return true;
        if(mark[row][col] == true || board[row][col] != word[0]) return false;
        mark[row][col] = true; 
              
        if(row > 0 && backtrace(board, string(word.begin()+1, word.end()), row-1, col)) return true;
        if(row < board.size()-1 && backtrace(board, string(word.begin()+1, word.end()), row+1, col)) return true;
        if(col > 0 && backtrace(board, string(word.begin()+1, word.end()), row, col-1)) return true;
        if(col < board[0].size()-1 && backtrace(board, string(word.begin()+1, word.end()), row, col+1)) return true;
        mark[row][col] = false;
        return false;
    }
};

中间出现的问题是，没有考虑到矩阵大小$1×1$的特殊情况。

很明显的优化是可以把mark矩阵省略，通过用临时变量保存当前位置值…..想到了但是又钻牛角尖了。

class Solution {
public:
    bool exist(vector<vector<char>>& board, string word) {
        if(board.empty() || board[0].empty() || word.empty()) {
            if(word.empty()) return true;
            else return false;
        }
        if(board.size() == 1 && board[0].size() == 1 && word.size() <= 1) {
            if(word[0] == board[0][0]) return true;
            else return false;
        }
        for(int i=0; i<board.size(); ++i) {
            for(int j=0; j<board[0].size(); ++j) {
                if(backtrace(board, word, i, j)) return true;
            }
        }
        return false;
    }
private:
    bool backtrace(vector<vector<char>>& board, string word, int row, int col) {
        if(word.empty()) return true;
        if(board[row][col] == '/' || board[row][col] != word[0]) return false;
        char tmp = board[row][col];
        board[row][col] = '/';
              
        if(row > 0 && backtrace(board, string(word.begin()+1, word.end()), row-1, col)) return true;
        if(row < board.size()-1 && backtrace(board, string(word.begin()+1, word.end()), row+1, col)) return true;
        if(col > 0 && backtrace(board, string(word.begin()+1, word.end()), row, col-1)) return true;
        if(col < board[0].size()-1 && backtrace(board, string(word.begin()+1, word.end()), row, col+1)) return true;
        board[row][col] = tmp;
        return false;
    }
};

展开全文 >>

面试题11.旋转数组的最小数字

2020-05-30

题目

把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个递增排序的数组的一个旋转，输出旋转数组的最小元素。例如，数组 [3,4,5,1,2] 为 [1,2,3,4,5] 的一个旋转，该数组的最小值为1。

示例 1：
1
2
输入：[3,4,5,1,2]
输出：1
示例 2：
1
2
输入：[2,2,2,0,1]
输出：0
来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/xuan-zhuan-shu-zu-de-zui-xiao-shu-zi-lcof
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

思路

从简单例子入手

[2,3,4,1]
[1,2,3,4]
[0,0,1,1]
[0,1,1,0]

我们的思路为二分查找，无重复数字的情况很简单（注意一种特殊情况是不旋转）。而有重复数字的情况复杂一些。

由于我们的策略是判断中间位置的元素与数组第一个元素（大于等于最小元素的最小元素）的大小：

如果大于，证明最小元素不在左半区间（左半区间非严格递增）；
如果小于，证明中点取得位置被旋转了，也就是说最小元素在左半区间（含中点）；
如果等于，我们无法判断中点所处位置，这时我们可以将中点与右侧区间的最大值（最右侧元素）比较，如果大于，那么可以判定中点在第一个非严格递增区间，而最小值在右侧区间；如果小于，整个区间为非严格递增，这种情况属于没有旋转；如果等于，我们无法判断位置，只能遍历。

代码

class Solution {
public:
    int minArray(vector<int>& numbers) {
        if(numbers.empty()) throw "Invalid input";
        int lo = 0, hi = numbers.size()-1;
        if(numbers[lo] < numbers[hi]) return numbers[lo];
        while(lo < hi) {
            int mid = (lo+hi)/2;
            if(numbers[mid] > numbers[0]) lo = mid + 1;
            else if(numbers[mid] < numbers[0]) hi = mid;
            else if(numbers[mid] == numbers[0] && numbers[mid] > numbers.back()) lo = mid + 1;
            else return *min_element(numbers.begin(), numbers.end());
        }
        return numbers[lo];
    }
};

时间复杂度$O(N)$，因为存在必须遍历的情况
空间复杂度$O(1)$

展开全文 >>

面试题10-2.青蛙跳台阶问题

2020-05-29

题目

一只青蛙一次可以跳上1级台阶，也可以跳上2级台阶。求该青蛙跳上一个 n 级的台阶总共有多少种跳法。

答案需要取模 1e9+7（1000000007），如计算初始结果为：1000000008，请返回 1。

示例 1：

1 2	输入：n = 2 输出：2

示例 2：

1 2	输入：n = 7 输出：21

提示：

0 <= n <= 100

来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/qing-wa-tiao-tai-jie-wen-ti-lcof
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

思路

最简单为递归实现，包含大量重复计算。

优化：记忆化递归，空间复杂度$O(N)$。

举例计算

n=1, ans=1
n=2, ans=2
n=3, ans=3
n=4, ans=5

可以看出实际上还是一个斐波那契数列。

代码

class Solution {
public:
    int numWays(int n) {
        if(n == 0) return 1;
        if(n < 4) return n;
        int ppre = 2, pre = 3;
        int curr = 0;
        for(int i=4; i<=n; ++i) {
            curr = (ppre + pre)<1000000007?(ppre + pre):(ppre + pre)%1000000007;
            ppre = pre;
            pre = curr;
        }
        return curr;
    }
};

展开全文 >>

线程互斥和同步的方法

2020-05-29

用信号量同步线程

共享变量引入了同步错误 (synchronization error) 的可能性。

比如某个对等线程在将某个共享变量加载到寄存器并修改之后，在存储寄存器的值到内存之前，另一个对等线程执行了加载变量到寄存器的操作，引起同步错误。

对于一个线程，操作共享变量内容的指令构成了一个关于该共享变量的临界区 (critical section)，不同线程之间的临界区不能存在交集，否则是不安全的。

我们想要确保每个线程在执行其临界区中的指令时，拥有对共享变量的互斥访问 (mutually exclusive access)，这种现象称为互斥。

信号量

信号量 (semaphore) 是具有非负整数值的全局变量。

只能由两种操作进行处理 P 和 V：

$P(s)$：$\begin{equation} \left{\begin{array}{lr}if(s\ne 0),~~s=s-1\if(s=0),hang~~thread,~~until~~s\ne0\ \end{array}\right. \end{equation}$
$V(s)$：$s=s+1
$

P 操作是原子的，不可分割的，一旦预测信号量 s 变为非零，就会将 s 减一，不能有中断。

V 的加1操作也是原子的，也就是说加载、加1、存储信号量的过程不能有中断。

V 的加1操作只能重启一个阻塞在 P 的线程，有多个线程在等待同一个信号量时，不能预测 V 会重启哪一个线程。

这两个操作的定义确保了一个正确初始化了的信号量不为负，这个属性叫做信号量不变性 (semaphore invariant)。

使用信号量实现互斥

使用信号量来实现互斥的基本思想是将每个共享变量（或一组相关的共享变量）与一个信号量 s （初始为1）关联起来。

而 P 和 V 操作确保了互斥访问（即信号量不能为-1）。

在一个线程的临界区前后增加信号量操作，以这种方式保护共享变量的信号量称为二元信号量。

以提供互斥为目的的二元信号量常常称为互斥锁 (mutex)。

在一个互斥锁上执行 P 操作称为对互斥锁加锁；V 为对互斥锁解锁。

对一个互斥锁加了锁但是还没有解锁的线程称为占用这个互斥锁。

一个被用作一组可用资源的计数器的信号量被称为计数信号量。

从可操作的意义上来说，由 P 和 V 操作创建的禁止区，使得在任何时间点上，被包围的临界区中，都不可能有多个线程在执行指令。换句话说，信号量操作确保了线程对临界区的互斥访问。

利用信号量来调度共享资源

信号量的另外一个作用是调度对共享资源的访问。一个线程用一个信号量来通知另一个线程，程序状态中的某个条件已经为真。

生产者-消费者问题

生产者和消费者线程共享一个有 n 个槽的有限缓冲区。生产者线程反复地生成新的项目，并把它们插入到缓冲区中。消费者线程不断地从缓冲区中取出这些项目，然后消费（使用）它们。

读者-写者问题

是互斥问题的一个概括。一组并发的线程要访问一个共享对象。修改对象的线程叫做写者，制度对象的线程叫做读者。

写者必须拥有对对象的独占访问，而读者可以和无限多个其他读者共享对象。

展开全文 >>

面试题10-1.斐波那契数列

2020-05-28

题目

写一个函数，输入 n ，求斐波那契（Fibonacci）数列的第 n 项。斐波那契数列的定义如下：
1
2
F(0) = 0,   F(1) = 1
F(N) = F(N - 1) + F(N - 2), 其中 N > 1.
斐波那契数列由 0 和 1 开始，之后的斐波那契数就是由之前的两数相加而得出。

答案需要取模 1e9+7（1000000007），如计算初始结果为：1000000008，请返回 1。

示例 1：
1
2
输入：n = 2
输出：1
示例 2：
1
2
输入：n = 5
输出：5
提示：

0 <= n <= 100

来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/fei-bo-na-qi-shu-lie-lcof
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

思路

需要注意的点：

需要取模，由于斐波那契数列递增，我们只要把每一个新求出的值取模就可以（如果需要）。

class Solution {
public:
    int fib(int n) {
        if(n < 2) return n;
        int window[3] = {0, 1, 1};
        for(int i=2; i<=n; ++i) {
            window[2] = (window[0]+window[1])>1000000007?(window[0]+window[1])%1000000007:(window[0]+window[1]);   
            window[0] = window[1];
            window[1] = window[2];                    
        }
        return window[2];
    }
};

时间复杂度$O(N)$
空间复杂度$O(1)$

总结

求余运算规则：

设正整数 x, y, p，有：
$$
(x+y)%p=(x%p+y%p)%p
$$
也就是我们之前想的只需对两数之和取余即可。

展开全文 >>

面试题09.用两个栈实现队列

2020-05-28

题目

用两个栈实现一个队列。队列的声明如下，请实现它的两个函数 appendTail 和 deleteHead ，分别完成在队列尾部插入整数和在队列头部删除整数的功能。(若队列中没有元素，deleteHead 操作返回 -1 )

示例 1：
1
2
3
4
输入：
["CQueue","appendTail","deleteHead","deleteHead"]
[[],[3],[],[]]
输出：[null,null,3,-1]
示例 2：
1
2
3
4
输入：
["CQueue","deleteHead","appendTail","appendTail","deleteHead","deleteHead"]
[[],[],[5],[2],[],[]]
输出：[null,-1,null,null,5,2]
提示：
1
2
1 <= values <= 10000
最多会对 appendTail、deleteHead 进行 10000 次调用
来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/yong-liang-ge-zhan-shi-xian-dui-lie-lcof
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

思路

两个栈，一个栈用来接收入队元素，那么出队的时候需要先进先出，也就是栈底先出，于是移到另一个栈实现反向排列，此时出栈顺序与队列出队顺序相同。

入栈：放入栈rev；
出栈：另一个栈rrev非空时，意味着这些元素都是按照出队顺序排列的；如果为空，就从rev移动到rrev。

class CQueue {
public:
    CQueue() {

    }
    
    void appendTail(int value) {
        rev.push(value);
    }
    
    int deleteHead() {
        if(rrev.empty() && rev.empty()) return -1;
        if(rrev.empty()) {
            while(!rev.empty()) {
                rrev.push(rev.top());
                rev.pop();
            }
        }
        int tmp = rrev.top();
        rrev.pop();
        return tmp;
    }
private:
    stack<int> rev, rrev;
};

/**
 * Your CQueue object will be instantiated and called as such:
 * CQueue* obj = new CQueue();
 * obj->appendTail(value);
 * int param_2 = obj->deleteHead();
 */

好有趣的一道题。

展开全文 >>

面试题07.重建二叉树

2020-05-28

题目

输入某二叉树的前序遍历和中序遍历的结果，请重建该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。

例如，给出
1
2
前序遍历 preorder = [3,9,20,15,7]
中序遍历 inorder = [9,3,15,20,7]
返回如下的二叉树：
1
2
3
4
5
  3
 / \
9  20
  /  \
 15   7
限制：

0 <= 节点个数 <= 5000

来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/zhong-jian-er-cha-shu-lcof
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

思路

二刷这道题。

前序遍历首元素为根节点。

中序遍历中，根节点将树分为左子树右子树。

前序遍历顺序：根节点->左子树->右子树，知道左右子树元素数量即可一刀切把数组划为左右子树。前序遍历根据元素数量切，中序遍历从根节点切。

测试用例

非法输入（两数组长度不等）
空输入
常规输入

实现

/**
 * Definition for a binary tree node.
 * struct TreeNode {
 *     int val;
 *     TreeNode *left;
 *     TreeNode *right;
 *     TreeNode(int x) : val(x), left(NULL), right(NULL) {}
 * };
 */
class Solution {
public:
    TreeNode* buildTree(vector<int>& preorder, vector<int>& inorder) {
        if(preorder.size() != inorder.size() || preorder.empty()) return nullptr;
        return helper(preorder.begin(), preorder.end(), inorder.begin(), inorder.end());
    }
private:
    using iter = vector<int>::iterator;
    TreeNode* helper(iter pre_b, iter pre_e, iter in_b, iter in_e) {
        if(pre_b == pre_e) return nullptr;
        auto root_it = find(in_b, in_e, *pre_b);
        auto root = new TreeNode(*root_it);
        root->left = helper(pre_b+1, pre_b+(root_it-in_b+1), in_b, root_it);
        root->right = helper(pre_b+(root_it-in_b+1), pre_e, root_it+1, in_e);
        return root;
    }
};

时间复杂度：$O(N^2)$
空间复杂度：$O(N)$

之所以空间复杂度高，是因为find进行了重复的查找操作，牺牲空间，使用哈希表可以将时间复杂度优化为$O(N)$。

/**
 * Definition for a binary tree node.
 * struct TreeNode {
 *     int val;
 *     TreeNode *left;
 *     TreeNode *right;
 *     TreeNode(int x) : val(x), left(NULL), right(NULL) {}
 * };
 */
class Solution {
public:
    TreeNode* buildTree(vector<int>& preorder, vector<int>& inorder) {
        if(preorder.size() != inorder.size() || preorder.empty()) return nullptr;
        for(auto it=inorder.begin(); it<inorder.end(); ++it)
            lookup.insert({*it, it});
        return helper(preorder.begin(), preorder.end(), inorder.begin(), inorder.end());
    }
private:
    using iter = vector<int>::iterator;
    unordered_map<int, iter> lookup;
    TreeNode* helper(iter pre_b, iter pre_e, iter in_b, iter in_e) {
        if(pre_b == pre_e) return nullptr;
        auto root_it = lookup[*pre_b];
        auto root = new TreeNode(*root_it);
        root->left = helper(pre_b+1, pre_b+(root_it-in_b+1), in_b, root_it);
        root->right = helper(pre_b+(root_it-in_b+1), pre_e, root_it+1, in_e);
        return root;
    }
};

测试时间减半。

展开全文 >>