用wget下网站
见 NZ road code ,这份《道路规则》是有纸质书卖的,但是网上有我就不想去买了;携带还方便。苦于官方没有提供任何下载的途径,我只好学习了下wget,然后就靠它了。
D:\wget-test> wget \ --recursive \ --no-clobber \ --page-requisites \ --html-extension \ --convert-links \ --restrict-file-names=windows \ --user-agent="Mozilla/4.0 (Windows;MSIE 7.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)" \ --domains nzta.govt.nz \ --no-parent \ --exclude-directories=/cyclist-code/,/motorcycle-road-code,/heavy-vehicle-road-code \ nzta.govt.nz/resources/roadcode
参考:
- Downloading an Entire Web Site with wget | Linux Journal
- The Ultimate Wget Download Guide With 15 Awesome Examples
- Wget usage examples - rationallyPARANOID.com
- wget, recursive ftp and exclude-directories | Night Blue Fruit Technology
- GNU Wget Manual
- wget --exclude-directories option broken? (fc2)
发现了,排除目录需要相对与域名完整的路径。所以应该改成 --exclude-directories=/resources/roadcode/cyclist-code,/resources/roadcode/motorcycle-road-code,/resources/roadcode/heavy-vehicle-road-code
。另外,最后一行的URL应该改成 nzta.govt.nz/resources/roadcode/
,这样才能排除/roadcode 目录外的文件。
update_2:
发现domain
加上www.
与否可能造成不同。studylink.co.nz这个网站作为--domain
的值时没有www.
会导致recursive失败。
update_3:
增加参考: