├── httpclient_cli.c ├── run.sh └── src ├── README.md ├── http-req.png └── tcp.gif /httpclient_cli.c: -------------------------------------------------------------------------------- 1 | #include 2 | #include 3 | #include 4 | #include 5 | #include 6 | #include 7 | #include 8 | #include 9 | #define BUFFSIZE 4096 10 | #define TEXT_BUFFSIZE 1024 11 | #define PORT 80 12 | 13 | void geturl(char *url) { 14 | char myurl[BUFFSIZE], host[BUFFSIZE], 15 | GET[BUFFSIZE], request[BUFFSIZE], 16 | text[BUFFSIZE], *phost = 0; 17 | int socketid, connectid, res, recvid, flag = 1; 18 | struct hostent *purl = NULL; 19 | struct sockaddr_in sockinfo; 20 | 21 | memset(myurl, 0, BUFFSIZE); 22 | memset(host, 0, BUFFSIZE); 23 | memset(GET, 0, BUFFSIZE); 24 | strcpy(myurl, url); 25 | 26 | // 得到path的位置 27 | for (phost = myurl; *phost != '/' && *phost != '\0'; ++phost); 28 | 29 | if ((int) (phost - myurl) == strlen(myurl)) { 30 | // 路径为根 31 | strcpy(GET, "/"); 32 | } else { 33 | // 将访问路径保存到GET数组 34 | strcpy(GET, phost); 35 | } 36 | 37 | // 将path开始的位置设置为字符串结束标识,myurl到phost即为host 38 | *phost = '\0'; 39 | strcpy(host, myurl); 40 | 41 | socketid = socket(AF_INET, SOCK_STREAM, 0); 42 | if (socketid == -1) { 43 | printf("创建socket连接失败\n"); 44 | exit(1); 45 | } 46 | printf("-> 创建socket连接成功\n"); 47 | 48 | // 函数说明:gethostbyname()会返回一个hostent结构,参数name可以为一个主机名或IPv4/IPv6的IP地址。 49 | // hostent结构说明如下: 50 | // struct hostent 51 | // { 52 | // char *h_name; /*正式的主机名称*/ 53 | // char **h_aliases; /* 指向主机名称的其他别名 */ 54 | // int h_addrtype; /* 地址的型态, 通常是AF_INET */ 55 | // int h_length; /*地址的长度*/ 56 | // char **h_addr_list; /* 从域名服务器取得该主机的所有地址 */ 57 | // }; 58 | // 返回值 :成功返回hostent结构指针,失败则返回NULL指针 59 | purl = gethostbyname(host); 60 | 61 | // 设置连接信息结构 62 | memset(&sockinfo, 0, sizeof(struct sockaddr_in)); 63 | sockinfo.sin_family = AF_INET; 64 | sockinfo.sin_addr.s_addr = *((unsigned long *)purl->h_addr_list[0]); 65 | sockinfo.sin_port = htons(PORT); 66 | 67 | // 构造http请求 68 | memset(request, 0, BUFFSIZE); 69 | strcat(request, "GET "); 70 | strcat(request, GET); 71 | strcat(request, " HTTP/1.1\r\n"); 72 | // 以上为http请求行信息 73 | strcat(request, "HOST: "); 74 | strcat(request, host); 75 | strcat(request, "\r\n"); 76 | strcat(request, "User-Agent: "); 77 | strcat(request, "2333 Browser"); 78 | strcat(request, "\r\n"); 79 | strcat(request, "Author: "); 80 | strcat(request, "By Jiavan&Keeln&LZY"); 81 | strcat(request, "\r\n"); 82 | strcat(request,"Cache-Control: no-cache\r\n\r\n"); 83 | 84 | // 连接到远端服务器 85 | connectid = connect(socketid, (struct sockaddr*)&sockinfo, sizeof(sockinfo)); 86 | if (connectid == -1) { 87 | printf("连接远端服务器失败\n"); 88 | exit(1); 89 | } 90 | printf("-> 连接到远端服务器成功\n"); 91 | 92 | // 向服务器发送GET请求 93 | res = send(socketid, request, strlen(request), 0); 94 | if (res == -1) { 95 | printf("向服务器发送GET请求失败\n"); 96 | exit(1); 97 | } 98 | printf("-> 发送GET请求成功,共发送了%d bytes\n", res); 99 | printf("-> HTTP请求报文如下\n--------HTTP Request--------\n%s\n", request); 100 | printf("-> HTTP响应内容正在重定向至index.html\n"); 101 | 102 | // 接受服务器的响应 103 | if (freopen("index.html", "w", stdout) == NULL) { 104 | printf("输出重定向错误\n"); 105 | exit(1); 106 | } else { 107 | while (flag) { 108 | memset(text, 0, TEXT_BUFFSIZE); 109 | int bufflen = recv(socketid, text, TEXT_BUFFSIZE, 0); 110 | 111 | if (bufflen < 0) { 112 | printf("接收数据流出错\n"); 113 | fclose(stdout); 114 | close(socketid); 115 | exit(1); 116 | } 117 | if (bufflen > 0) { 118 | printf("%s\n", text); 119 | } else { 120 | flag = 0; 121 | } 122 | } 123 | } 124 | fclose(stdout); 125 | close(socketid); 126 | } 127 | 128 | int main(int argc, char *argv[]) 129 | { 130 | if (argc < 2) { 131 | printf("请输入正确的URL参数\n"); 132 | exit(1); 133 | } 134 | geturl(argv[1]); 135 | return 0; 136 | } 137 | -------------------------------------------------------------------------------- /run.sh: -------------------------------------------------------------------------------- 1 | # !/bin/bash 2 | gcc httpclient_cli.c -o httpclient 3 | #echo "请输入URL: " 4 | #read path 5 | read -p "Please Input URL: " path 6 | ./httpclient $path 7 | -------------------------------------------------------------------------------- /src/README.md: -------------------------------------------------------------------------------- 1 | # httpclient-cli 2 | Linux下用C语言实现发送HTTP请求并获取html文档内容的CLI程序 3 | 4 | # 理论基础 5 | ## HTTP请求报文格式 6 | 一个HTTP请求报文由请求行(request line)、请求头部(header)、空行和请求数据4个部分组成,下图给出了请求报文的一般格式。 7 | 8 | ![http-req.png](./http-req.png) 9 | 10 | ## 基于TCP协议的网络通信流程 11 | 12 | ![tcp.gif](./tcp.gif) 13 | 14 | ## 相关数据结构 15 | ### sockaddr_in 16 | 17 | ```c 18 | // 在netinet/in.h中定义 19 | struct sockaddr_in { 20 | short int sin_family; /* Address family */ 21 | unsigned short int sin_port; /* Port number */ 22 | struct in_addr sin_addr; /* Internet address */ 23 | unsigned char sin_zero[8]; /* Same size as struct sockaddr */ 24 | }; 25 | struct in_addr { 26 | unsigned long s_addr; 27 | }; 28 | 29 | // sin_family指代协议族,在socket编程中只能是AF_INET 30 | // sin_port存储端口号(使用网络字节顺序) 31 | // sin_addr存储IP地址,使用in_addr这个数据结构 32 | // sin_zero是为了让sockaddr与sockaddr_in两个数据结构保持大小相同而保留的空字节。 33 | // s_addr按照网络字节顺序存储IP地址 34 | ``` 35 | 36 | ### hostent 37 | hostent是host entry的缩写,该结构记录主机的信息,包括主机名、别名、地址类型、地址长度和地址列表。之所以主机的地址是一个列表的形式,原因是当一个主机有多个网络接口时,自然有多个地址。 38 | 39 | 数据结构定义如下: 40 | ```c 41 | struct hostent{ 42 | char * h_name; 43 | char ** h_aliases; 44 | short h_addrtype; 45 | short h_length; 46 | char ** h_addr_list; 47 | }; 48 | #define h_addr h_addr_list[0] 49 | 50 | // h_name – 地址的正式名称。 51 | // h_aliases – 空字节-地址的预备名称的指针。 52 | // h_addrtype –地址类型; 通常是AF_INET。 53 | // h_length – 地址的比特长度。 54 | // h_addr_list – 零字节-主机网络地址指针。网络字节顺序。 55 | // h_addr - h_addr_list中的第一地址。 56 | ``` 57 | 58 | 用途,在`netdb.h`头中定义了一个`gethostbyname(char *name)`函数,会返回一个hostent结构,参数name可以为一个主机名或IPv4/IPv6的IP地址 59 | 60 | ## 相关函数 61 | ### socket 62 | ``` 63 | socket(建立一个socket通信) 64 | 相关函数 65 | accept,bind,connect,listen 66 | 表头文件 67 | #include 68 | #include 69 | 定义函数 70 | int socket(int domain,int type,int protocol); 71 | 函数说明 72 | socket()用来建立一个新的socket,也就是向系统注册,通知系统建立一通信端口。参数domain 指定使用何种的地址类型,完整的定义在/usr/include/bits/socket.h 内,底下是常见的协议: 73 | PF_UNIX/PF_LOCAL/AF_UNIX/AF_LOCAL UNIX 进程通信协议 74 | PF_INET?AF_INET Ipv4网络协议 75 | PF_INET6/AF_INET6 Ipv6 网络协议 76 | PF_IPX/AF_IPX IPX-Novell协议 77 | PF_NETLINK/AF_NETLINK 核心用户接口装置 78 | PF_X25/AF_X25 ITU-T X.25/ISO-8208 协议 79 | PF_AX25/AF_AX25 业余无线AX.25协议 80 | PF_ATMPVC/AF_ATMPVC 存取原始ATM PVCs 81 | PF_APPLETALK/AF_APPLETALK appletalk(DDP)协议 82 | PF_PACKET/AF_PACKET 初级封包接口 83 | 参数 84 | type有下列几种数值: 85 | SOCK_STREAM 提供双向连续且可信赖的数据流,即TCP。支持 86 | OOB 机制,在所有数据传送前必须使用connect()来建立连线状态。 87 | SOCK_DGRAM 使用不连续不可信赖的数据包连接 88 | SOCK_SEQPACKET 提供连续可信赖的数据包连接 89 | SOCK_RAW 提供原始网络协议存取 90 | SOCK_RDM 提供可信赖的数据包连接 91 | SOCK_PACKET 提供和网络驱动程序直接通信。 92 | protocol用来指定socket所使用的传输协议编号,通常此参考不用管它,设为0即可。 93 | 返回值 94 | 成功则返回socket处理代码,失败返回-1。 95 | 错误代码 96 | EPROTONOSUPPORT 参数domain指定的类型不支持参数type或protocol指定的协议 97 | ENFILE 核心内存不足,无法建立新的socket结构 98 | EMFILE 进程文件表溢出,无法再建立新的socket 99 | EACCESS 权限不足,无法建立type或protocol指定的协议 100 | ENOBUFS/ENOMEM 内存不足 101 | EINVAL 参数domain/type/protocol不合法 102 | ``` 103 | 104 | ### htons 105 | ``` 106 | htons(将16位主机字符顺序转换成网络字符顺序) 107 | 相关函数 108 | htonl,ntohl,ntohs 109 | 表头文件 110 | #include 111 | 定义函数 112 | unsigned short int htons(unsigned short int hostshort); 113 | 函数说明 114 | htons()用来将参数指定的16位hostshort转换成网络字符顺序。 115 | 返回值 116 | 返回对应的网络字符顺序。 117 | ``` 118 | 119 | ### connect 120 | ``` 121 | connect(建立socket连线) 122 | 相关函数 123 | socket,bind,listen 124 | 表头文件 125 | #include 126 | #include 127 | 定义函数 128 | int connect (int sockfd,struct sockaddr * serv_addr,int addrlen); 129 | 函数说明 130 | connect()用来将参数sockfd 的socket 连至参数serv_addr 指定的网络地址。结构sockaddr请参考bind()。参数addrlen为sockaddr的结构长度。 131 | 返回值 132 | 成功则返回0,失败返回-1,错误原因存于errno中。 133 | 错误代码 134 | EBADF 参数sockfd 非合法socket处理代码 135 | EFAULT 参数serv_addr指针指向无法存取的内存空间 136 | ENOTSOCK 参数sockfd为一文件描述词,非socket。 137 | EISCONN 参数sockfd的socket已是连线状态 138 | ECONNREFUSED 连线要求被server端拒绝。 139 | ETIMEDOUT 企图连线的操作超过限定时间仍未有响应。 140 | ENETUNREACH 无法传送数据包至指定的主机。 141 | EAFNOSUPPORT sockaddr结构的sa_family不正确。 142 | EALREADY socket为不可阻断且先前的连线操作还未完成。 143 | ``` 144 | 145 | ### send 146 | ``` 147 | send(经socket传送数据) 148 | 相关函数 149 | sendto,sendmsg,recv,recvfrom,socket 150 | 表头文件 151 | #include 152 | #include 153 | 定义函数 154 | int send(int s,const void * msg,int len,unsigned int falgs); 155 | 函数说明 156 | send()用来将数据由指定的socket 传给对方主机。参数s为已建立好连接的socket。参数msg指向欲连线的数据内容,参数len则为数据长度。参数flags一般设0,其他数值定义如下 157 | MSG_OOB 传送的数据以out-of-band 送出。 158 | MSG_DONTROUTE 取消路由表查询 159 | MSG_DONTWAIT 设置为不可阻断运作 160 | MSG_NOSIGNAL 此动作不愿被SIGPIPE 信号中断。 161 | 返回值 162 | 成功则返回实际传送出去的字符数,失败返回-1。错误原因存于errno 163 | 错误代码 164 | EBADF 参数s 非合法的socket处理代码。 165 | EFAULT 参数中有一指针指向无法存取的内存空间 166 | ENOTSOCK 参数s为一文件描述词,非socket。 167 | EINTR 被信号所中断。 168 | EAGAIN 此操作会令进程阻断,但参数s的socket为不可阻断。 169 | ENOBUFS 系统的缓冲内存不足 170 | ENOMEM 核心内存不足 171 | EINVAL 传给系统调用的参数不正确。 172 | ``` 173 | 174 | ### recv 175 | ``` 176 | recv(经socket接收数据) 177 | 相关函数 178 | recvfrom,recvmsg,send,sendto,socket 179 | 表头文件 180 | #include 181 | #include 182 | 定义函数 183 | int recv(int s,void *buf,int len,unsigned int flags); 184 | 函数说明 185 | recv()用来接收远端主机经指定的socket传来的数据,并把数据存到由参数buf 指向的内存空间,参数len为可接收数据的最大长度。 186 | 参数 187 | flags一般设0。其他数值定义如下: 188 | MSG_OOB 接收以out-of-band 送出的数据。 189 | MSG_PEEK 返回来的数据并不会在系统内删除,如果再调用recv()会返回相同的数据内容。 190 | MSG_WAITALL强迫接收到len大小的数据后才能返回,除非有错误或信号产生。 191 | MSG_NOSIGNAL此操作不愿被SIGPIPE信号中断返回值成功则返回接收到的字符数,失败返回-1,错误原因存于errno中。 192 | 错误代码 193 | EBADF 参数s非合法的socket处理代码 194 | EFAULT 参数中有一指针指向无法存取的内存空间 195 | ENOTSOCK 参数s为一文件描述词,非socket。 196 | EINTR 被信号所中断 197 | EAGAIN 此动作会令进程阻断,但参数s的socket为不可阻断 198 | ENOBUFS 系统的缓冲内存不足。 199 | ENOMEM 核心内存不足 200 | EINVAL 传给系统调用的参数不正确 201 | ``` 202 | 203 | # 核心代码 204 | Step 0: 建立socket 205 | 建立一个sock连接 206 | ```c 207 | socketid = socket(AF_INET, SOCK_STREAM, 0); 208 | ``` 209 | 210 | Step 1: 设置连接信息结构 211 | ```c 212 | memset(&sockinfo, 0, sizeof(struct sockaddr_in)); 213 | sockinfo.sin_family = AF_INET; 214 | sockinfo.sin_addr.s_addr = *((unsigned long *)purl->h_addr_list[0]); 215 | sockinfo.sin_port = htons(PORT); 216 | ``` 217 | 218 | Step 2: 构造http请求 219 | ```c 220 | memset(request, 0, BUFFSIZE); 221 | strcat(request, "GET "); 222 | strcat(request, GET); 223 | strcat(request, " HTTP/1.1\r\n"); 224 | // 以上为http请求行信息 225 | strcat(request, "HOST: "); 226 | strcat(request, host); 227 | strcat(request, "\r\n"); 228 | strcat(request, "User-Agent: "); 229 | strcat(request, "2333 Browser"); 230 | strcat(request, "\r\n"); 231 | strcat(request, "Author: "); 232 | strcat(request, "By Jiavan&Kellen&LZY"); 233 | strcat(request, "\r\n"); 234 | strcat(request,"Cache-Control: no-cache\r\n\r\n"); 235 | ``` 236 | 237 | Step 3: 连接到远端服务器 238 | ```c 239 | // 成功则返回0,失败返回-1 240 | // 由于历史的原因,套接字函数中(如connect,bind等)使用的参数类型大多是sockaddr类型的。而如今进行套接字编程的时候大都使用sockaddr_in进行套接字地址填充 241 | // http://blog.csdn.net/lgp88/article/details/7171924 242 | connectid = connect(socketid, (struct sockaddr*)&sockinfo, sizeof(sockinfo)); 243 | ``` 244 | 245 | Step 4: 发送get请求 246 | ```c 247 | res = send(socketid, request, strlen(request), 0); 248 | if (res == -1) { 249 | printf("向服务器发送GET请求失败\n"); 250 | exit(1); 251 | } 252 | ``` 253 | 254 | Step 5: 阻塞接收服务器响应 255 | ```c 256 | // 接收的数据大小可能会大于缓冲区,可循环接收,当bufflen为0即读取完毕 257 | int bufflen = recv(socketid, text, TEXT_BUFFSIZE, 0); 258 | ``` 259 | 260 | Step 6: 输出重定向 261 | 262 | # 参考文章 263 | - http://net.pku.edu.cn/~yhf/linux_c/ 264 | - http://blog.csdn.net/xrb66/article/details/6048399 265 | - http://blog.csdn.net/gogor/article/details/5896931 266 | 267 | # License 268 | [WTFPL](http://www.wtfpl.net/txt/copying/) 269 | -------------------------------------------------------------------------------- /src/http-req.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Jiavan/httpclient-cli/bfb324a5c36fba894263477c577c8e3dbb1ea891/src/http-req.png -------------------------------------------------------------------------------- /src/tcp.gif: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Jiavan/httpclient-cli/bfb324a5c36fba894263477c577c8e3dbb1ea891/src/tcp.gif --------------------------------------------------------------------------------