uzverss

wget копирование статических сайтов

$ wget -r -l0 -np -k -c http://нужный адрес

ещё вариант

wget -m -k -nv -np -p -U "Mozilla/5.0 (compatible; Konqueror/3.0.0/10; Linux)"

[Error: Irreparable invalid markup ('<web-адрес>') in entry. Owner must fix manually. Raw contents below.]

<br><details><summary>wget копирование статических сайтов</summary>
$ wget -r -l0 -np -k -c http://нужный адрес

ещё вариант

wget -m -k -nv -np -p -U "Mozilla/5.0 (compatible; Konqueror/3.0.0/10; Linux)" <web-адрес>

Скачивание файла в указанный каталог (-P):
wget -P /path/for/save ftp://ftp.example.org/some_file.iso

GNU Wget - утилита, предназначенная для скачивания файлов из интернета.

описание используемых параметров:
-r, --recursive рекурсивная выгрузка то есть не только файлы с главной страницы, но и все остальные, на которые ведут ссылки (ключ -l0 бесконечная вложенность ссылок)
-с --continue продолжения прерванной закачки (мало ли оборвалась...)
-m - опция зеркалирования, включающая рекурсию и учитывающая время обновления скачиваемых ресурсов. эквивалентна -r -N -l inf --no-remove-listing.
-k - после завершения закачки выполнится преобразование ссылок в документе для офлайнового просмотра закаченных ресурсов.
-nv - отключение всех дополнительных сообщений во время закачивания. даже если эта опция указана, на экран по-прежнему будут печататься сообщения об ошибках и основная информация.
-np - при рекурсивном скачивании эта опция гарантирует, что не будут закачиваться ресурсы выше по иерархии сайта. другими словами, при скачивании определенной ветки сайта будет скачена только эта ветка, а сайт целиком.
-p - скачаются все файлы, которые необходимы для корректного отображения закачиваемой HTML-страницы, включая картинки, звуки и т.п.
-U "Mozilla/5.0 (compatible; Konqueror/3.0.0/10; Linux)" - определение строки User-Agent для HTTP сервера.
<web-адрес> - собственно ссылка, с которой нужно начать закачивать сайт/ветку сайта.

Включение и исключение файлов при загрузке:
-A acclist или --accept acclist
-R rejlist или --reject rejlist
Задаёт разделяемые запятыми шаблоны имён файлов, которые следует загружать (acclist) или игнорировать (rejlist)

-H или --span-hosts
Разрешает wget скачивать данные с любого адреса, на который есть ссылка в запрашиваемом документе

Для простой загрузки файла наберем в терминале

wget http://mirror.suse.ru/distribution/11.2/iso/openSUSE-11.2-DVD-i586.iso

Эта же команда с параметром "-c" или "-continue" продолжит оборванную загрузку.

wget -c http://mirror.suse.ru/distribution/11.2/iso/openSUSE-11.2-DVD-i586.iso

По умолчанию файл будет сохранен в домашней директории пользователя, но если wget запустили из другой директории, то в ней и сохранится файл.

Для загрузки из файла, содержащего ссылки либо html-страницы нужно использовать параметр "-i"

wget -i mirrorlist

Для создания локальной копии сайта используется параметр "-m"

wget -m http://www.open-suse.ru

Кроме этого ключ "-r" означает рекурсивную загрузку, "-к" конвертирует ссылки в автономные для удобства просмотра, а "-np" не выпустит Wget выше начального адреса.

Другие полезные ключи:

Включение и исключение файлов при загрузке

-A acclist | -accept acclist

-R rejlist | -reject rejlist

Задаёт разделяемые запятыми шаблоны имён файлов, которые следует загружать (acclist) или игнорировать (rejlist).

-k | -convert-links

Превращает абсолютные ссылки (типа http://www...) в относительные (типа file///home/vasya/www/index.html) для удобства локального просмотра. Чтобы локально в броузере просмотреть скачанный сайт, открываете файл index.html в броузере и бродите по ссылкам точно так же, как если бы вы были подключены к Интернету.

-p --page-requisites

Загружать все файлы, которые нужны для отображения страниц HTML. Например: рисунки, звук и каскадные стили. После завершения загрузки конвертировать ссылки в документе для просмотра в автономном режиме. Это касается не только видимых ссылок на другие документы, а ссылок на все внешние локальные файлы.

Ограничение канала загрузки –limit-rate=значение в кб. Например:

wget --limit-rate=50k http://www....

Это приведет к тому, что скорость загрузки не будет превышать указанных в примере пятидесяти килобайт/сек.

http://www.opennet.ru/man.shtml?topic=wget&category=1&russian=0
</details>
<details><summary>Примеры: wget</summary>
http://najomi.org/_nix/wget

№1 Загрузка всех URL, указанных в файле FILE:
$ wget -i FILE

№2 Скачивание файла в указанный каталог (-P):
$ wget -P /path/for/save ftp://ftp.example.org/some_file.iso

№3 Использование имя пользователя и пароля на FTP/HTTP:
$ wget ftp://login:password@ftp.example.org/some_file.iso
$ wget --user=login --password=password ftp://ftp.example.org/some_file.iso

№4 Скачивание в фоновом режиме (-b):
$ wget -b ftp://ftp.example.org/some_file.iso

№5 Продолжить (-c continue) загрузку ранее не полностью загруженного файла:
$ wget -c http://example.org/file.iso

№6 Скачать страницу с глубиной следования 10, записывая протокол в файл log:
$ wget -r -l 10 http://example.org/ -o log

№7 Скачать содержимое каталога http://example.org/~luzer/my-archive/ и всех его подкаталогов, при этом не поднимаясь по иерархии каталогов выше:
$ wget -r --no-parent http://example.org/~luzer/my-archive/

№8Для того, чтобы во всех скачанных страницах ссылки преобразовывались в относительные для локального просмотра, необходимо использовать ключ -k:
$ wget -r -l 10 -k http://example.org/

№9 Также поддерживается идентификация на сервере:
$ wget --save-cookies cookies.txt \
--post-data 'user=foo&password=bar' \
http://example.org/auth.php

№10 Скопировать весь сайт целиком:
$ wget -r -l 0 -k http://example.org/

№11 Скачивание галереи картинок с превьюшками.
$ wget -r -k -p -l1 -I /images/ -I /thumb/ \
--execute robots=off www.example.com/gallery.html

№12 Сохранить веб страницу (как она открывается локально) в текущую директорию
$ (cd cli && wget -nd -pHEKk http://www.pixelbeat.org/cmdline.html)

№13 Продолжить скачивание частично скаченного файла
$ wget -c http://www.example.com/large.file

№14 Скачать множество файлов в текущую директорию
$ wget -r -nd -np -l1 -A '*.jpg' http://www.example.com/

№15 Отображать вывод напрямую (на экран)
$ wget -q -O- http://www.pixelbeat.org/timeline.html | grep 'a href' | head

№16 Скачать url в 01:00 в текущую директорию
$ echo 'wget url' | at 01:00

№17 Сделать закачку с уменьшенной скоростью В данном случае 20 КB/s
$ wget --limit-rate=20k url

№18 Проверить ссылки в файле
$ wget -nv --spider --force-html -i bookmarks.html

№19 Оперативно обновлять локальную копию сайта (удобно использовать с cron)
$ wget --mirror http://www.example.com/

№20 Используем wildcard для того чтобы скачать несколько страниц
$ wget http://site.com/?thread={1..100}
$ wget http://site.com/files/main.{css,js}

№21 Запустить скачивание списка ссылок в 5 потоков
$ cat links.txt | xargs -P 5 wget {}

№22 Проверить ссылки из файла на живость
$ cat list.txt
http://yandex.ru
http://google.ru
http://yandex.ru/qweqweqweqwe

$ wget -nv --spider -i list.txt
2013-08-08 22:40:20 URL: http://www.yandex.ru/ 200 Ok
2013-08-08 22:40:20 URL: http://www.google.ru/ 200 OK
http://yandex.ru/qweqweqweqwe:
Удалённый файл не существует — битая ссылка!

скачать папку с сайта
wget --random-wait -r -np -e robots=off -U mozilla https://repo1.maven.org/maven2/org/openapitools/openapi-generator-cli/4.2.3/
без дерева каталогов
wget --random-wait -r -np -nd -e robots=off -U mozilla https://repo1.maven.org/maven2/org/openapitools/openapi-generator-cli/4.2.3/

-p параметр указывающий для wget необходимость скачивать все файлы, включая изображения.
-np, --no-parent — не подниматься выше начального адреса при рекурсивной загрузке
-nd, --no-directories — Не создавать иерархию каталогов во время рекурсивной выборки. При использовании этой опции, все получаемые
-e robots=off вы не хотите, чтобы wget подчинялся правилам файла robots.txt
-U mozilla идентификатор вашего браузера.
–random-wait указывает wget делать случайные интервал задержек между скачиваниями, своеобразная защита от возможного попадания в бан
</details>
<details><summary>wpull копирование динамических сайтов</summary>
pip3 install wpull
wpull google.com/about
https://pypi.org/project/wpull/
https://github.com/ArchiveTeam/wpull
https://wpull.readthedocs.io/en/master/options.html

<a href="https://uzverss.livejournal.com/66634.html">работа с pip</a>
</details>

<a href="https://hackware.ru/?p=10776">Как полностью скачать сайт из веб-архива</a>
wayback_machine_downloader https://сайт
получить список всех страниц о которых знает Wayback Machine для домена suip.biz:
echo suip.biz | waybackurls
Для показа страницы из кэша Google нужно в поиске Гугла ввести
cache:URL

<a href="https://chyvack.livejournal.com/40781.html">Как скачать файлы по маске с сайта, с помощью wget</a>
<a href="https://uzverss.livejournal.com/116630.html">Скачивание любого сайта с помощью Python себе на компьютер</a>
https://github.com/rajatomar788/pywebcopy/

https://web.archive.org/
https://github.com/ArchiveTeam/grab-site
https://github.com/internetarchive/brozzler
<a href="https://meduza.io/feature/2019/05/21/kak-skachat-internet-instruktsiya-po-vyzhivaniyu-v-avtonomnom-runete">Как скачать интернет: инструкция по выживанию в автономном Рунете</a><br>

Копирование сайта для локального просмотра

Копирование сайта для локального просмотра

no subject

no subject

Profile

December 2024

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags