音视频协议-RTP协议打包

2022-05-18 约 3410 字预计阅读 7 分钟

https://bing.ee123.net/img/rand?artid=124849922

音视频协议-RTP协议打包

1. H264打包RTP的方法

RTP的特点不仅仅支持承载在UDP上，这样利于低延迟音视频数据的传输，另外一个特点是它允许通过其它协议接收端和发送端协商音视频数据的封装和编解码格式，这样固定头的playload type字段就比较灵活。

H.264标准协议定义了两种不同的类型：一种是VCL即Video Coding Layer ，一种是 NAL 即Network Abstraction Layer。其中前者就是编码器吐出来的原始编码数据，没有考虑传输和存储问题。后面这种就是为了展现H.264的网络亲和性，对VCL输出的slice片数据进行了封装为NALUs(NAL Units)，然后再封装为RTP包进行传输。

NALU的基本格式是：NALU Header + NALU Data,其中NALU的头由一个字节组成如下所示：

一、

1-11就是NALU的单个包类型，但是一个NALU的大小是不一样的，如果是非视频数据的

SPS PPS才十几个字节，对于IDR帧，则有可能几十KB。

这样把NALU打包到RTP方式就很多，分为：

一个RTP包承载一个NALU；

多个NALU合并到一个RTP；

一个大的NALU切分成多个RTP。

二、

同时由于时间戳的问题，就有了24-29几种类型。

但是对于发送端组RTP包的一方来说，尽可能找简单的打包方式。对于接受端则需要适配各种发送

端的打包方式，因为无法决定输入源的打包方式。

（打包的时候不要搞太复杂的模式）

我们对于NALU的长度<=1400（rtp payload size）的则采用的是单一NALU打包到单一的RTP

包中；

我们对于NALU的长度>1400的则采用了FU-A的方式进行了打包，这种就是把一个大的NALU进

行了切分，最后接收方则进行了合并，把多个RTP包合并成一个完整的NALU即可；

为什么NALU的长度大于1400字节就要进行FU-A切片，是因为底层MTU大小值一般为1500，从

传输效率讲，使用1400作为切分条件。

RTP最大数据包（包含RTP头部） = MTU - UDP首部 - IP 报文首部

本文福利，免费领取C++音视频学习资料包、技术视频，内容包括（音视频开发，面试题，FFmpeg ，webRTC ，rtmp ，hls ，rtsp ，ffplay ，编解码，推拉流，srs）↓↓↓↓↓↓见下面↓↓文章底部点击免费领取↓↓

4.1、H264打包方式之Single NAL Unit

一个RTP包打包一个单独的NALU方式，其实最好理解，就是在RTP固定头后直接填充NLAU

单元数据即可，即：

RTP Header + NALU Header + NALU Data; （不包括startcode）

文件中的SPS:

RTP包中的SPS:

4.2、H264打包方式之FU-A

需要了解两个数据包头即FU indicator和Fu header。

4.2.1、FU indication

这里面的的F和NRI就是NALU头的前面三个bit位，后面的

TYPE就是NALU的FU-A类型28，这样在RTP固定头后面第一字节的后面5bit提取出来就确认了该

RTP包承载的不是一个完整的NALU，是其一部分。

那么问题来了，一个NALU切分成多个RTP包传输，那么到底从哪里开始哪里结束呢？

可能有人说RTP包固定头不是有mark标记么，注意区分那个是以帧图像的结束标记，这里要确定是NALU结束

的标记，其次NALU的类型呢？那么就需要RTP固定12字节后面的Fu Header来进行区分。

4.2.2、FU header

字段解释：
S: 1 bit 当设置成1,开始位指示分片NAL单元的开始。当跟随的FU荷载不是分片NAL单元荷载的开
始，开始位设为0。
E: 1 bit 当设置成1, 结束位指示分片NAL单元的结束，即, 荷载的最后字节也是分片NAL单元的最后
一个字节，当跟随的FU荷载不是分片NAL单元的最后分片,结束位设置为0。
也就是说一个NALU切片时，第一个切片的SE是10，然后中间的切片是00，最后一个切片时11。
R: 1 bit
保留位必须设置为0，接收者必须忽略该位。
Type: 5 bits
此处的Type就是NALU头中的Type,取1-23的那个值，表示 NAL单元荷载类型定义。

4.2.3、第一个IDR帧的NALU第一个切片

FU indication：
十六机制：0x7C
二进制：0111 1100
FU header：
十六进制：0x85
二进制：1000 0101
这里的SE是10，则说明该RTP包承载的NALU的第一个切片。

4.2.4、第一个IDR帧的NALU第二个切片

FU indication：
十六机制：0x7C
二进制：0111 1100
FU header：
十六进制：0x05
二进制：0000 0101
这里的SE是00，则说明该RTP包承载的NALU的中间切片。

4.2.5、第一个IDR帧的NALU最后一个切片

FU indication：
十六机制：0x7C
二进制：0111 1100
FU header：
十六进制：0x45
二进制：0100 0101
这里的SE是01，则说明该RTP包承载的NALU的最后一个切片。

2、RTP打包AAC

过程：

需要将aac的前7个（或9个）字节的ADTS去掉，即是跳过adts header。
添加RTP Header。
添加AU_HEADER_LENGTH。
添加AU_HEADER。
添加AU（去掉ADTS的aac数据）数据。

注意：一个RTP包中可以有一个AU-headers-length 和 n个AU-header和 n个AU（AU每包实际音频数据流）

5.1、AU-headers-length

头两个字节表示au-header的长度，单位是bit。一个AU-header长度是两个字节（16bit）因为可以有多

个au-header所以AU-headers-length的值是 16的倍数，一般音频都是单个音频数据流的发送，所以

AU-headers-length的值是16

//AU_HEADER_LENGTH

bytes[12] = 0x00; //高位

bytes[13] = 0x10; //低位只有一个AU_HEADER

因为单位是bit, 除以8就是auHeader的字节长度；又因为单个auheader字节长度2字节，所以再除以2就

是auheader的个数。

（注意：AU-header长度并不是固定为2字节，具体要看SDP）

5.2、AU-header

au-header的高13个bits就是一个au 的字节长度：

//AU_HEADER

bytes[14] = (byte)((len & 0x1fe0) » 5); //高位

bytes[15] = (byte)((len & 0x1f) « 3); //低位

（注意：AU-header长度并不是固定为2字节，具体要看SDP）

5.3、AU

音频实际数据（去掉ADTS的aac数据）

5.4、RTSP/SDP中AAC相关配置

1 v=0
2 o=- 16128587303007558182 16128587303007558182 IN IP4 WINDOWS-75ID
U9Q
3 s=Unnamed
4 i=N/A
5 c=IN IP4 0.0.0.0
6 t=0 0
7 a=tool:vlc 3.0.5
8 a=recvonly
9 a=type:broadcast
10 a=charset:UTF-8
11 a=control:rtsp://192.168.2.195:8554/
12 m=audio 0 RTP/AVP 96
13 b=AS:128
14 b=RR:0
15 a=rtpmap:96 mpeg4-generic/22050
16 a=fmtp:96 streamtype=5; profile-level-id=15; mode=AAC-hbr; config
=138856e500; sizeLength=13; indexLength=3; indexDeltaLength=3; Pr
ofile=1;
17 a=control:rtsp://192.168.2.195:8554/trackID=4
18 m=video 0 RTP/AVP 96
19 b=AS:800
20 b=RR:0
21 a=rtpmap:96 H264/90000
22 a=fmtp:96 packetization-mode=1;profile-level-id=42c01e;sprop-para
meter-sets=Z0LAHtoCQKeX/8CgAJ/EAAADAZAAAF2qPFi6gA==,aM43IA==;
23 a=control:rtsp://192.168.2.195:8554/trackID=5

streamtype对于AAC, 固定为5。

profile-level-id固定为1。

config, SizeLength, IndexLength, IndexDeltaLength作用：

config是16进制的, 前两个字节 1388 , 表示采样率为22050, 1个channel。

前两个字节的为ios-14996-3中定义的AudioSpecificConfig, 前13个bits的格式为

samplingFrequencyIndex的取值：

1388 转换成2进制为 0001 0011 1000 1000

audioObjectType为 00010 , 即 2

samplingFrequencyIndex为 0111 , 即 7 , 对应的采样频率为 22050

channelConfiguration为 0001 , 表示channel数量为1。

sizeLength=13; indexLength=3; indexDeltaLength=3涉及到音频的AU Header。

5.5、AU-Header数据段的格式

其它的值都是可选的, 如果sdp中没有出现相关的参数(或者为0), 则表示它们不出现。

以最简单的情况举例, 假设aac数据长度为200字节, 只有一个au-header。

200 的二进制为 0000011001000。 (补足为13 bits)

AU-headers-length 值为16, 因为只有一个au-header, au-header中

只有AU-size和AU-Index, 共占用16bits。

整个au-header数据段的内容为

0000 0000 0000 1000 0000011001000 000

如果一个rtp中只有一个aac包, 不需要加AU-Header, 那么sdp中的aac参数可以简化为

a=fmtp:96 streamtype=5; profile-level-id=1; mode=AAC-hbr; config=1
38856e500;

本文福利，免费领取C++音视频学习资料包、技术视频，内容包括（音视频开发，面试题，FFmpeg ，webRTC ，rtmp ，hls ，rtsp ，ffplay ，编解码，推拉流，srs）↓↓↓↓↓↓见下面↓↓文章底部点击免费领取↓↓

目录

音视频协议-RTP协议打包

音视频协议-RTP协议打包

目录

1. H264打包RTP的方法

4.1、H264打包方式之Single NAL Unit

4.2、H264打包方式之FU-A

4.2.1、FU indication

4.2.2、FU header

4.2.3、第一个IDR帧的NALU第一个切片

4.2.4、第一个IDR帧的NALU第二个切片

4.2.5、第一个IDR帧的NALU最后一个切片

2、RTP打包AAC

5.3、AU

5.4、RTSP/SDP中AAC相关配置