readn
在Linux中,read的声明为:
ssize_t read(int fd, void *buf, size_t count);
它的返回值有以下情形:
1.大于0,代表成功读取的字节数
2.等于0,代表读取到了EOF,一般是对方关闭了socket的写端或者直接close
3.小于0,出现错误。
我们编写一个readn函数,声明与read一致,但是,readn在未出错或者fd没有关闭的情况下,会读满count个字节。
ssize_t readn(int fd, void *buf, size_t count)
{
size_t nleft = count; //剩余的字节数
ssize_t nread; //用作返回值
char *bufp = (char*)buf; //缓冲区的偏移量 while(nleft > 0)
{
nread = read(fd, bufp, nleft);
if(nread == -1)
{
if(errno == EINTR)
continue;
return -1; // ERROR
}
else if(nread == 0) //EOF
break; nleft -= nread;
bufp += nread;
} return (count - nleft);
}
readn的返回值含义如下:
1.小于0,出错
2.等于0,对方关闭
3.大于0,但是小于count,对方关闭
4.count,代表读满count个字节
writen
write函数的声明如下:
ssize_t write(int fd, const void *buf, size_t count);
man手册中对write的返回值描述如下:
On success, the number of bytes written is returned (zero indicates nothing was writ‐
ten). On error, -1 is returned, and errno is set appropriately.
If count is zero and fd refers to a regular file, then write() may return a failure
status if one of the errors below is detected. If no errors are detected, 0 will be
returned without causing any other effect. If count is zero and fd refers to a file
other than a regular file, the results are not specified.
解释如下:
成功时,返回成功写入的字节数,否则返回-1,并设置相应的errno。
如果count为0,并且fd指向一个普通文件,那么当探测到错误时返回-1.如果没有错误发生,返回0,不会产生任何影响。
如果count为0,并且fd指向的不是普通文件,那么结果未定义。
我们不去追究write为0的情形。编写write如下:
ssize_t writen(int fd, const void *buf, size_t count)
{
size_t nleft = count;
ssize_t nwrite;
const char *bufp = (const char*)buf; while(nleft > 0)
{
nwrite = write(fd, bufp, nleft);
if(nwrite <= 0) // ERROR
{
if(nwrite == -1 && errno == EINTR)
continue;
return -1;
} nleft -= nwrite;
bufp += nwrite;
} return count;
}
从代码中可以看出,writen要么写满count字节,要么失败。
readline
在网络编程中,很多协议是基于文本行的,例如HTTP和FTP,还有telnet,他们的消息每行都是以\r\n作为结束标志的。于是我们开发一个readline函数,声明如下:
ssize_t readline(int sockfd, void *usrbuf, size_t maxlen)
readline函数的语义是:
如果碰不到\n,那么读取maxlen-1个字节,最后一个位置补充\0。
否则读取到\n,在后面加一个\0。如果中间遇到EOF,直接返回0,而不是已经读取的字节数。
我们先给出一种低效的实现:
ssize_t readline_slow(int fd, void *usrbuf, size_t maxlen)
{
char *bufp = usrbuf; //记录缓冲区当前位置
ssize_t nread;
size_t nleft = maxlen - 1; //留一个位置给 '\0'
char c;
while(nleft > 0)
{
if((nread = read(fd, &c, 1)) < 0)
{
if(errno == EINTR)
continue;
return -1;
}else if(nread == 0) // EOF
{
break;
} //普通字符
*bufp++ = c;
nleft--; if(c == '\n')
break;
}
*bufp = '\0';
return (maxlen - nleft - 1);
}
这个的思路很简单,每次读取一个字节,直到遇到换行符为止。
这种实现是低效的,因为每次读取一个字节,都要进行一次系统调用。
在网络编程中,还有一个函数叫做recv,如下:
ssize_t recv(int sockfd, void *buf, size_t len, int flags);
它相对于read,多了一个flags选项。
有一个选项为MSG_PEEK,描述如下:
This flag causes the receive operation to return data from the beginning of the
receive queue without removing that data from the queue. Thus, a subsequent
receive call will return the same data.
大致意思是它从内核中读取数据,但并不会将数据移除,所以这个flag起到了一个预览内核数据的作用。这样我们就可以先从内核中读取一大块数据,检查其中是否存在\n,如果不存在,这么将这些数据全部读取,如果存在,则读取到\n为止。
我们先实现recv_peek函数:
ssize_t recv_peek(int sockfd, void *buf, size_t len)
{
int nread;
do
{
nread = recv(sockfd, buf, len, MSG_PEEK);
}
while(nread == -1 && errno == EINTR); return nread;
}
readline函数的实现如下:
ssize_t readline(int sockfd, void *usrbuf, size_t maxlen)
{
//
size_t nleft = maxlen - 1;
char *bufp = usrbuf; //缓冲区位置
size_t total = 0; //读取的字节数 ssize_t nread;
while(nleft > 0)
{
//预读取
nread = recv_peek(sockfd, bufp, nleft);
if(nread <= 0)
return nread; //检查\n
int i;
for(i = 0; i < nread; ++i)
{
if(bufp[i] == '\n')
{
//找到\n
size_t nsize = i+1;
if(readn(sockfd, bufp, nsize) != nsize)
return -1;
bufp += nsize;
total += nsize;
*bufp = 0;
return total;
}
} //没找到\n
if(readn(sockfd, bufp, nread) != nread)
return -1;
bufp += nread;
total += nread;
nleft -= nread;
}
*bufp = 0;
return maxlen - 1;
}
我们编写的这三个函数后面可以用于处理TCP分包问题,后面写文章叙述。