本文详细讲解了如何在Linux下使用wget命令,对大家的学习或工作都有一定的参考价值。有需要的朋友下面和边肖一起学习。
目录
先安装wget查看帮助手册1、用wget下载单个文件2、用wget -O下载并用不同的文件名保存3、用wget -c断点续传4、用wget -b断点续传5、用伪装代理名下载6、用wget -spider测试下载链接7、用wget-trys增加重试次数。8.使用wget -i下载多个文件。9.使用wget -mirror来镜像网站。10.使用wget -reject过滤指定格式的下载。11.使用wget -o将下载信息存储到日志文件中。示例指南:WGet是Linux中下载文件的工具。Wget是在Linux下开发的开源软件,由Hrvoje Niksic编写,后来移植到包括Windows在内的各种平台上。
它在命令行下使用。对于Linux用户,尤其是网络管理员来说,它是一个必不可少的工具,他们经常需要下载一些软件或将备份从远程服务器恢复到本地服务器。如果我们使用虚拟主机,我们只能从远程服务器下载这样的交易到我们的电脑磁盘,然后用ftp工具上传到服务器。这是浪费时间和精力,所以我们无能为力。说到Linux VPS,可以直接下载到服务器,不需要上传。Wget工具体积小但功能全。它支持断点下载,FTP和HTTP下载,代理服务器,易于设置。让我们用例子来说明如何使用wget。
首先安装wget
[root @ network test]# yum install-y wget
查看帮助手册
[root @网络测试]# wget - help
GNU Wget 1.14,非交互式网络文件下载工具。
用法:wget[选项].[网址].
长选项所必需的参数在使用短选项时也是必需的。
开始:
-v,-version显示Wget的版本信息并退出。
-h,-帮助打印这个帮助。
-b,-后台开始,进入后台。
-e -e,-execute=命令运行a "。wgetrc "样式命令。
和日志文件:
-o -o,- output-FILE=FILE=file将日志信息写入文件。
-a,-append-output=FILE向文件添加信息。
-d,-debug打印大量的调试信息。
-q,-安静模式(无信息输出)。
-v,-详细输出(这是默认值)。
-NV -nv,- no-verbose关闭详细输出,但不进入安静模式。
- report-speed=TYPE输出带宽为TYPE。类型可以是位。
-I -i,- input-FILE=FILE=本地或外部文件中的文件下载URL。
-f -F,- force-HTML将输入文件视为HTML文件。
-b -B,-base=与URL相关的URL解析
输入HTML文件(由-i -F选项指定)。
- config=FILE指定要使用的配置文件。
下载:
-t -t,- tries=NUMBER将重试次数设置为NUMBER (0表示无限制)。
-retry-即使连接被拒绝,conn retired也会重试。
-o,-output-document=FILE将文档写入文件。
-nc,- no-clobber跳过将下载到
现有文件(覆盖它们)。
-c,-continue断点继续下载文件。
- progress=TYPE选择进度条的类型。
-n,-stamping仅获取比本地文件新的文件。
-no-use-no-use-server-timestamps不使用服务器上的时间戳来设置本地文件。
-s -S,- server-response打印服务器响应。
-蜘蛛不下载任何文件。
-t -T,- timeout=SECONDS将所有超时设置为秒秒。
-DNS - dns-timeout=SECS将DNS查找超时设置为SECS秒。
- connect-timeout=SECS=SECS将连接超时设置为秒。
-read-timeout=SECS设置- read-timeout=SECS秒。
-w -w,- wait=SECONDS等待间隔是秒。
-Wait retry=等待1的秒数.重试获取文件期间的秒数。
-随机-等等。当获取多个文件时,每次等待的间隔是随机的。
0.5 *等等.1.5 *等待秒。
- no-proxy禁止使用代理。
-q -Q,- quota=NUMBER将采集配额设置为数字字节。
-bind - bind-ADDRESS=ADDRESS绑定到本地主机上的地址(主机名或IP)。
- limit-RATE=RATE=rate将下载速率限制为RATE。
-no-DNS-cache关闭DNS查找缓存。
-restrict-file-names=操作系统限定的文件名中的字符是操作系统允许的字符。
- ignore-case匹配文件/目录时忽略大小写。
-4 -4,- inet4-only仅连接到IPv4地址。
-6 -6,- inet6-only仅连接到IPv6地址。
-prefere-FAMILY=FAMILY=FAMILY首先连接到指定协议的地址。
系列是IPv6、IPv4或无。
- USER=USER将ftp和http的用户名设置为USER。
- PASSword=PASS将ftp和http的密码设置为PASS。
- ask-password提示输入密码。
-不-IRI关闭IRI支持。
-local-ENCoding=enciri(国际资源标识符)使用enc作为本地编码。
-remote-ENCoding=enc使用enc作为默认的远程编码。
-在删除文件前取消链接。
目录:
-nd -nd,-no-directory不创建目录。
-x -x,-force-directory强制创建目录。
- nH,-NH,-no-host-directory不创建主目录。
-protocol-directory使用目录中的协议名称。
-p,- P,- directory-prefix=PREFIX用前缀/保存文件.
-cut - cut-dirs=NUMBER忽略远程目录中的目录层数。
HTTP选项:
-http-USER=user将http用户名设置为USER。
-http-PASSword=pass设置- http-password=PASS。
- no-cache不缓存服务器上的数据。
-default-page=name更改默认页面
(默认页面通常是“index.html”)。
-e -E,- adjust-extension用合适的扩展名保存HTML/CSS文档。
- ignore-length忽略标头的“内容长度”区域。
- header=STRING在标头中插入字符串。
- max-redirect每页允许的最大重定向数。
- proxy-USER=USER=user使用USER作为代理用户名。
-proxy-PASSword=pass使用pass作为代理密码。
- referer=URL在HTTP请求标头中包含“Referer: URL”。
- save-headers将HTTP头保存到文件中。
-u,-user-AGENT=代理被标识为代理,而不是Wget/VERSION。
- no-http-keep-alive禁用-no-http-keep-alive(永久连接)。
-不-cookie不使用cookie。
-load-cookies=文件cookie在会话开始之前从文件中加载。
会话后-save-cookies=FILE-save-cookies=FILE。
-keep-keep-session-cookie加载并保存会话(非永久)cookie。
-POST-data=string使用POST方法;将字符串作为数据发送。
-POST-file=file使用POST模式;发送文件内容。
选择本地文件名时的- content-disposition
允许内容处置头(仍在试验中)。
- content-on-error在服务器出错时输出接收的内容。
-auth - auth-no-challenge在没有服务器的情况下发送查询的第一次等待。
的基本HTTP验证信息。
HTTPS (SSL/TLS)选项:
- secure-protocol=PR选择安全协议,auto、SSLv2、
SSLv3、TLSv1、TLSv1_1和TLSv1_2。
-no - no-check-certificate不验证服务器的证书。
-证书=文件客户端证书文件。
-证书类型=类型客户端证书类型,PEM或DER。
-私钥=文件私钥文件。
-私钥类型=类型私钥文件类型,PEM或DER。
- ca-certificate=FILE带有一组加拿大认证的文件。
- ca-directory=DIR保存加拿大认证的哈希列表的目录。
- random-file=FILE带有生成SSL PRNG的随机数据的文件。
- egd-file=FILE用于命名带有随机数据的以太网全局数据(以太网全局数据)套接字的文件。
文件传送协议选项:
-FTP-用户=用户设置文件传输协议(文件传输协议的缩写)用户名为用户。
-FTP-密码=通过设置文件传输协议(文件传输协议的缩写)密码为通过。
-不删除列表不要删除。'列表'文件。
-不-全球不在文件传送协议文件名中使用通配符展开。
-不-被动-ftp禁用"被动"传输模式。
-保留-权限保留远程文件的权限。
-返回-符号链接递归目录时,获取链接的文件(而非目录)。
WARC选项:
-warc-file=文件名将请求/响应数据保存到。warc.gz文件中。
- warc-header=STRING将字符串插入瓦尔辛福记录。
- warc-max-size=NUMBER将warc文件的最大大小设置为第10号.
详细说明:warc-cdx写cdx索引文件。
-warc-dedup=文件名不要存储此CDX文件中列出的记录。
不要用GZIP压缩warc文件。
-无战争-文摘不计算SHA1摘要。
-不-警告-保持-日志不要将日志文件存储在warc记录中。
-warc-tempdir=创建的临时文件的目录位置
WARC作家。
递归下载:
-r,-递归指定递归下载。
-l,-level=数字最大递归深度(inf或0 代表无限制,即全部下载)。
-删除-之后下载完成后删除本地文件。
-k,-转换-链接让下载得到的超文本标记语言或半铸钢钢性铸铁(铸造半钢)中的链接指向本地文件。
-备份=N在写入文件X之前,最多轮换普通个备份文件。
-K,-备份-转换在转换文件X前先将它备份为十。起源。
-m,-mirror-N-r-l INF-no-remove-listing的缩写形式。
-p,-第-页必需品下载所有用于显示超文本标记语言页面的图片之类的元素。
-严格-评论用严格方式(SGML)处理超文本标记语言注释。
递归接受/拒绝:
-A,- accept=LIST逗号分隔的可接受的扩展名列表。
-R,- reject=LIST逗号分隔的要拒绝的扩展名列表。
- accept-regex=REGEX regex匹配接受的URL .
- reject-regex=REGEX regex匹配被拒绝的URL .
-regex-TYPE=类型regex类型(posix|pcre).
-D,- domains=LIST逗号分隔的可接受的域列表。
- exclude-domains=LIST逗号分隔的要拒绝的域列表。
- follow-ftp跟踪超文本标记语言文档中的文件传送协议链接。
-跟随标签=列表逗号分隔的跟踪的超文本标记语言标识列表。
- ignore-tags=LIST逗号分隔的忽略的超文本标记语言标识列表。
-H,-span-主机递归时转向外部主机。
我相对的只跟踪有关系的链接。
-I,-include-directory=LIST允许目录的列表。
-信任服务器名称使用重定向指定的名称
最后一个组件的url .
-X,-exclude-directory=LIST排除目录的列表。
-np,-无父母不追溯至父目录。
1、使用 wget 下载单个文件
以下的例子是从网络下载一个文件并保存在当前目录
在下载的过程中会显示进度条,包含(下载完成百分比,已经下载的字节,当前下载速度,剩余下载时间)。
wget http://cn.wordpress.org/wordpress-4.9.4-zh_CN.tar.gz
2、使用 wget -O 下载并以不同的文件名保存
[root @网络测试]# wget https://cn.wordpress.org/wordpress-4.9.4-zh_CN.tar.gz
[root@network test]# ls
wordpress-4.9.4-zh_CN.tar.gz
我们可以使用参数-O来指定文件名:
wordpress.tar.gzhttp://cn.wordpress.org/wordpress-4.9.4-zh_CN.tar.gz
wordpress.tar.gz
3、使用 wget -c 断点续传
使用wget -c重新开始下载中断的文件:
对于我们下载因网络等原因突然中断的大文件很有帮助。我们可以继续下载它们,而不是再次下载文件。
https://cn.wordpress.org/wordpress-4.9.4-zh_CN.tar.gz
4、使用 wget -b 后台下载
当下载非常大的文件时,我们可以使用参数-b进行后台下载。
[root @网络测试]# wget-b https://cn.wordpress.org/wordpress-4.9.4-zh_CN.tar.gz
继续在后台运行,pid为1463。
将输出写入“wget-log”。
您可以使用以下命令来检查下载进度
[root @ network test]# tail-f wget-log
8550K.......96% 814K 0
8600K.......97% 953万秒
8650K.......98% 8680万0秒
8700K.......98% 1.45亿0
8750K.......99% 6740万秒
8800K.......99% 1.07亿个零
8850K...100% 1.95米=16秒
2018-11-10 15:39:07(564 KB/s)-保存的“WordPress-4 . 9 . 4-zh _ cn . tar . gz . 2”[9082696/9082696])
5、伪装代理名称下载
有些网站可以通过判断代理名称不是浏览器来拒绝你的下载请求。但是您可以通过- user-agent参数来伪装它。
6、使用 wget spider 测试下载链接
当您计划定期下载时,您应该在预定时间测试下载链接是否有效。我们可以添加- spider参数进行检查。
wget蜘蛛网址
如果下载链接正确,就会显示出来。
wget蜘蛛网址
启用蜘蛛模式。检查远程文件是否存在。
HTTP请求已发送,等待响应… 200 OK
长度:未指定[文本/html]
远程文件存在并可能包含更多链接,
但是递归是禁用的——不检索。
这确保了下载可以在预定的时间进行,但是当您给出一个错误的链接时,将会显示以下错误。
wget蜘蛛网址
启用蜘蛛模式。检查远程文件是否存在。
HTTP请求已发送,等待响应… 404未找到
远程文件不存在—链接断开!
您可以在下列情况下使用spider参数:
定期下载前检查。
查看interval网站是否可用。
检查网站页面的死链接。
7、使用 wget tries 增加重试次数
如果网络有问题或下载大文件,也可能会失败。默认情况下,Wget会重试20次来连接下载文件。如有必要,您可以使用-尝试增加重试次数。
wgettries=40 URL
8、使用 wget -i 下载多个文件
首先,保存一个下载链接文件。
cat文件列表. txt
url1
url2
url3
url4
然后使用这个文件和参数-i来下载。
wget -i文件列表. txt
9、使用 wget mirror 镜像网站
wget -镜像-转换-链接-调整-扩展-页面-必需品
没有父母的http://example.org
或者
wget-mkEpnp http://example.org
-镜像-递归下载给定网站下的所有资源。
-convert-links-将绝对链接转换为相对链接。
-adjust-extension-根据内容类型调整文件名,并添加适当的文件扩展名。
-页面-需求-下载其他资源,如CSS、Javascript、图片等。
-no-parent-不下载父目录资源。
10、使用 wget reject 过滤指定格式下载
你想下载一个网站,却不想下载图片。您可以使用以下命令。
wgetreject=gif URL
11、使用 wget -o 把下载信息存入日志文件
您不希望下载的信息直接显示在终端中,而是显示在日志文件中。您可以使用以下命令:
wget -o download.log URL
示例
使用wget -O下载并以不同的文件名保存(-O:将文件下载到相应的目录并修改文件名)
http://www.minjieren.com/download.aspx? id=1080
使用wget -b进行后台下载
wget-b http://www.minjieren.com/wordpress-3.1-zh_CN.zip
备注:您可以使用以下命令来检查下载进度:tail -f wget-log
Use -spider:模拟下载,不是下载,只是检查网站好不好。
[root @ localhost ~]# wget-spider www.baidu.com #不下载任何文件。
下载模拟打印服务器响应
[root @ localhost ~]# wget-s www.baidu.com #打印服务器响应
设置次数
[root @ localhost ~]# wget-r-tries=2次www.baidu.com(指定2次尝试,并且在2次尝试后不要重试)
[root @ localhost ~]# wget-r-tries=2-q www.baidu.com(指定尝试,不打印中间结果)
这就是本文的全部内容。希望对大家的学习有帮助,支持我们。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。