Linux curl 是通过 URL 语法在命令行下上传或下载文件的工具软件,它支持 http, https, ftp, ftps, telnet 等多种协议,常被用来抓取网页和监控Web服务器状态。
curl 命令参数介绍请参考:Linux curl命令详解
抓取百度:
[root@liqiang.io]# curl http://www.baidu.com
如发现乱码,可以使用 iconv 转码:
[root@liqiang.io]# curl http://iframe.ip138.com/ic.asp | iconv -fgb2312
iconv的用法请参阅:在Linux/Unix系统下用iconv命令处理文本文件中文乱码问题
linux curl使用http代理抓取页面:
[root@liqiang.io]# curl -x 111.95.243.36:80 http://iframe.ip138.com/ic.asp | iconv -fgb2312[root@liqiang.io]# curl -x 111.95.243.36:80 -U aiezu:password http://www.baidu.com
使用socks代理抓取页面:
[root@liqiang.io]# curl --socks4 202.113.65.229:443 http://iframe.ip138.com/ic.asp | iconv -fgb2312[root@liqiang.io]# curl --socks5 202.113.65.229:443 http://iframe.ip138.com/ic.asp | iconv -fgb2312
代理服务器地址可以从爬虫代理上获取。
接收cookies:
[root@liqiang.io]# curl -c /tmp/cookies http://www.baidu.com #cookies保存到/tmp/cookies文件
发送cookies:
[root@liqiang.io]# curl -b "key1=val1;key2=val2;" http://www.baidu.com #发送cookies文本[root@liqiang.io]# curl -b /tmp/cookies http://www.baidu.com #从文件中读取cookies
curl -G -d "name=value&name2=value2" http://www.baidu.comcurl -d "name=value&name2=value2" http://www.baidu.comcurl -d a=b&c=d&txt@/tmp/txt http://www.baidu.comcurl -F file=@/tmp/me.txt http://www.aiezu.commethod="POST" 和 enctype='multipart/form-data' 两个属性。设置http请求头信息:
curl -A "Mozilla/5.0 Firefox/21.0" http://www.baidu.comcurl -e "http://pachong.org/" http://www.baidu.comcurl -I http://www.aiezu.comcurl -D /tmp/header http://www.aiezu.comcurl -u aiezu:password http://www.aiezu.comcurl -E mycert.pem https://www.baidu.com
[root@liqiang.io]# curl -L -I http://smartx.com
[root@liqiang.io]# curl --ipv4 http://google.com[root@liqiang.io]# curl --ipv6 http://google.com
curl -# http://www.baidu.comcurl -o /tmp/aiezu http://www.baidu.comLinux curl 是通过 URL 语法在命令行下上传或下载文件的工具软件,它支持 http, https, ftp, ftps, telnet 等多种协议,常被用来抓取网页和监控Web服务器状态。
curl 命令参数介绍请参考:Linux curl命令详解
抓取百度:
[root@liqiang.io]# curl http://www.baidu.com
如发现乱码,可以使用 iconv 转码:
[root@liqiang.io]# curl http://iframe.ip138.com/ic.asp | iconv -fgb2312
iconv的用法请参阅:在Linux/Unix系统下用iconv命令处理文本文件中文乱码问题
linux curl使用http代理抓取页面:
[root@liqiang.io]# curl -x 111.95.243.36:80 http://iframe.ip138.com/ic.asp | iconv -fgb2312[root@liqiang.io]# curl -x 111.95.243.36:80 -U aiezu:password http://www.baidu.com
使用socks代理抓取页面:
[root@liqiang.io]# curl --socks4 202.113.65.229:443 http://iframe.ip138.com/ic.asp | iconv -fgb2312[root@liqiang.io]# curl --socks5 202.113.65.229:443 http://iframe.ip138.com/ic.asp | iconv -fgb2312
代理服务器地址可以从爬虫代理上获取。
接收cookies:
[root@liqiang.io]# curl -c /tmp/cookies http://www.baidu.com #cookies保存到/tmp/cookies文件
发送cookies:
[root@liqiang.io]# curl -b "key1=val1;key2=val2;" http://www.baidu.com #发送cookies文本[root@liqiang.io]# curl -b /tmp/cookies http://www.baidu.com #从文件中读取cookies
curl -G -d "name=value&name2=value2" http://www.baidu.comcurl -d "name=value&name2=value2" http://www.baidu.comcurl -d a=b&c=d&txt@/tmp/txt http://www.baidu.comcurl -F file=@/tmp/me.txt http://www.aiezu.commethod="POST" 和 enctype='multipart/form-data' 两个属性。设置http请求头信息:
curl -A "Mozilla/5.0 Firefox/21.0" http://www.baidu.comcurl -e "http://pachong.org/" http://www.baidu.comcurl -I http://www.aiezu.comcurl -D /tmp/header http://www.aiezu.comcurl -u aiezu:password http://www.aiezu.comcurl -E mycert.pem https://www.baidu.com
[root@liqiang.io]# curl -L -I http://smartx.com
[root@liqiang.io]# curl --ipv4 http://google.com[root@liqiang.io]# curl --ipv6 http://google.com
curl -# http://www.baidu.comcurl -o /tmp/aiezu http://www.baidu.com