Baixando páginas e websites da Internet

As vezes eu gosto de baixar uma página online para poder ler offline, ou para arquivá-la no meu computador caso o site original saia do ar. Nesse guia, vou lhe mostrar algumas formas de fazer isso.

Baixando uma página individual

No Desktop

Tanto o Firefox como o Chrome possuem funções para baixar uma página em PDF. Caso você já tenha um desses dois instalados, não precisa instalar nada a mais. Recomendo instalar o Firefox, caso não tenha nenhum dos dois instalados, ou algum navegador baseado neles. Em navegadores baseados no Firefox ou Chrome, as instruições serão semelhantes.

No Firefox, abra a página que deseja salvar, clique no menu de três listras no canto superior direito do navegador, e em "Imprimir", ou utilize o atalho Control + P. Onde diz "Destino", selecione "Salvar como PDF", e clique em "Salvar". Caso queira salvar a página como um HTML, clique em "Salvar página como" ao invés de "Imprimir" no menu, ou utilize o atalho Control + S.

No Chrome, abra a página que deseja salvar, clique no menu de três pontos no canto superior direito do navegador, e em "Imprimir", ou utilize o atalho Control + P, o mesmo do Firefox. Onde diz "Destino", selecione "Salvar como PDF", e clique em "Salvar". Caso queira salvar a página como um HTML, clique em "Transmitir, salvar e compartilhar" ao invés de "Imprimir" no menu, e então "Salvar página como", ou utilize o atalho Control + S.

No Celular

Podemos usar o Firefox Mobile para baixar páginas em PDF. Não conheço uma forma de fazer o mesmo pelo Chrome.

O processo no celular é semelhante ao desktop. Abra a página que deseja salvar, clique no menu de três pontos no canto inferior direito do navegador, e em "Imprimir". A tela que aparecer em seguida vai variar um pouco dependendo do seu celular, mas na opção que diz algo semelhante à "Selecionar Impressora", selecione "Salvar como PDF", e aperte o respectivo botão de salvar em seu celular.

Baixando um site completo

Também é possível baixar um site inteiro. Para fazer isso, podemos usar ferramentas como HTTrack e Wget.

Atenção: Baixar um site por completo irá consumir bastante tráfego de internet, tanto seu como do provedor do site, e pode demorar bastante. Tráfego não é de graça, boa parte dos provedores de VPS tem um limite em quanto tráfego um servidor pode receber, e cobram a mais caso esse limite seja excedido. Além disso, baixar um site por inteiro pode consumir boa parte da banda larga do site, tornado-o mais lento para seus usuários.

Portanto somente baixe um site por completo caso seja necessário, e siga as recomendações abaixo para não abusar do processamento ou banda larga do site que você está baixando.

HTTrack

HTTrack é uma ferramenta gráfica para baixar websites. Baixe-a e abra o programa. Caso ele não esteja em português, em "Language Preference", selecione "Portugues-Brasil". Clique em "Próximo".

Escolha um nome de novo projeto, algo para identificar o site que está baixando. O nome do site é uma boa escolha. O "caminho base" é o local onde os arquivos serão salvos, escolha de acordo com sua preferência. Você também pode escolher/criar uma categoria do projeto, mas isso não é necessário.

Em "Ação", a opção "Copiar site(s) da Web" deve estar selecionada, e provavelmente vai ser o que você quer. Clique em "Adicionar URL" para adicionar o site que deseja, removendo a parte "https://" ou "http://" do link. Você também pode simplesmente colar o link do site na caixa abaixo desta opção. Não é necessário mudar nada em "Parâmetros e opções de cópia de site", o padrão deve funcionar, mas talvez algumas opções lhe interessem quando estiver mais acostumado com essa ferramenta. Então, basta apertar "Próximo" e depois em "Iniciar" para começar a baixar o site.

Após o download terminar, você pode clicar em "Explorar cópia do site" para ver o site baixado, ou abrir a pasta que você selecionou para salvar os arquivos e abrir o "index.html" para ver uma lista dos sites baixados.

Você também pode, a qualquer momento, clicar em "Clique para obter ajuda" no canto superior direito do programa para ver instruções mais detalhadas de uso.

Wget

Wget é uma ferramenta de linha de comando para baixar informações de websites, e algumas outras coisas. Também é minha favorita, pessoalmente. Seu manual é bem extenso, e recomendo sua leitura caso queira entender melhor as opções abaixo ou utilizar todo o potencial dessa ferramenta. Porém irei ressaltar somente as opções relevantes para baixar um site por completo aqui.

Como ela é utilizada por meio de linha de comando, recomendo ter alguma proficiência com o terminal, ou vontade de aprender, para utilizá-la. Em Linux, você pode baixá-lo pelos repositórios da sua distro. Em MacOS, pode ser instalada via Homebrew. Em Windows, pode ser instalada por meio de Cygwin, Windows Subsystem for Linux, ou por meio de algum port feito para Windows. Como utilizar essas formas de instalação está além do escopo desse guia – em outras palavras, eu to com preguiça de explicar.

Para baixar um website por completo, utilize o seguinte comando. Substituia https://exemplo.org pelo site que deseja baixar.

wget -m -k -E --wait 2 --random-wait --user-agent="" -e robots=off https://exemplo.org

Explicação desse comando:

-m é a opção "mirror", ela habilita opções para baixar um site por completo, como recursão infinita.
-k converte os links do site para que sejam abertos localmente.
-E converte páginas do site para arquivos .html para que sejam abertas por um navegador normal
--wait 2 define que sejam esperados 2 segundos entre cada conexão. Isso é para evitar sobrecarregar o processador e a banda larga do site, assim como evitar que você seja impedido de continuar baixando devido à utilizar recursos demais do servidor do site.
--random-wait define uma espera aleatória entre 0.5 e 1.5 multiplicado pelos segundos definidos em --wait entre cada conexão. Isso é para evitar que sites que analizam o uso de ferramentas como Wget de bloquear tais conexões. Não é essencial, mas é bom ter caso o site esteja utilizando essa análise, já que não é possível saber se este é o caso sem ter acesso ao servidor do site.
--user-agent="" define o seu User Agent para um valor vazio. Isso é para evitar ser afetado por sites que bloqueiam o User Agent padrão do Wget. Você pode botar alguma outra coisa também entre as aspas caso acredite que isso vai lhe dar melhores chances de não ser bloqueado por um site que faz bloqueio de User Agents.
-e robots=off ignora o arquivo robots.txt. Esse arquivo é utilizado para dizer aos indexadores de ferramentas de busca, como os bots do Google e Bing, a não indexarem certas partes de um site. Por padrão, o Wget respeita esse arquivo. Porém, quando se está baixando um site por completo, você provavelmente vai querer não se limitar às definições desse arquivo.

Para baixar esse site, você faria:

wget -m -k -E --wait 2 --random-wait --user-agent="" -e robots=off https://livreware.org

O comando acima funciona para sites que hospedem todo seu conteúdo no mesmo domínio, como é o caso aqui. Porém é comum que alguns sites hospedem suas imagens/vídeos em outros domínios, e o Wget por padrão não baixa conteúdos além do domínio que você especificou. Por exemplo, o site exemplo.org pode hospedar suas imagens em imagens.net.

Para conseguir devidamente baixar de sites que hospedam parte de seu conteúdo em outros lugares, podemos usar as seguintes opções. Veja também essa seção do manual.

-H habilita baixar de outros domínios. Por padrão, isso vai fazer o Wget baixar de qualquer domínio que achar na página. Isso vai fazer ele baixar outras páginas de outros sites, não só imagens. Como esses sites provavelmente também vão linkar para outros sites, seu download vai crescer muito rápido e baixar coisas que você não quer. Somente use essa opção em conjunto com a opção -D abaixo para limitar de quais sites você baixa.
-Ddominio1.com,dominio2.net,... especifica a lista de domínios dos quais você gostaria de baixar conteúdos. Sempre use-a em conjunto com -H. A lista de domínios precisa vir logo depois do -D, sem espaço, e com vírgula separando os domínios.

Identificar se uma página contém conteúdo externo, e de quais domínios está puxando esse conteúdo, talvez requira um pouco de experimentação.

Você pode tentar ver o HTML da página/site dentro do seu navegador, e buscar os links das imagens. Também pode apertar F12 e ir na aba "Rede" ou "Network", recarregar a pagina e tentar observar quais domínios de terceiros aparacem nos registros, e então adicioná-los ao comando para baixar o site.

Wget é uma ferramenta poderosa, mas precisa de um tempo para ser aprendida. Caso você tenha interesse em usar/aprender o terminal, recomendo tomar tempo para aprender o Wget, caso ele seja útil para você. Ele pode fazer várias outras coisas, como baixar páginas individuais, baixar apenas um tipo específico de arquivo de uma página, como GIFs, ou baixar vários arquivos de uma vez ao especificar multiplos sites no comando, e podendo resumir seu download caso haja problemas de conexão. Tudo isso sem precisar de um navegador aberto, podendo ser automatizado em scripts e cronjobs.