2023 raspagem na web com belaspoup, solicitações e python

Anduque você como construir um bot de raspagem na web usando o BeautifulSoup, solicitações, sublime e Python. Confira

No Capítulo 1 anterior, discutimos como um profissional de marketing digital pode se beneficiar dos superpoderes do Python. Aprendemos por que ela precisa disso e como instalar e configurar a versão mais recente do Python para Mac OS. Como você deve saber, um dos benefícios mais essenciais do Python para profissionais de marketing digital é coletar dados da web e atualizá-los automaticamente.

Portanto, neste tutorial Python, falarei sobre como configurar um ambiente para escrever scripts Python com a finalidade de coletar dados objetivos de sites. Este artigo não entra em detalhes sobre a introdução de métodos Python, escrita de código e alimentação de dados em uma planilha ou banco de dados. Vou lançar outros artigos e vídeos para você conhecer. Mas o objetivo deste artigo é permitir que você entenda o panorama geral. Você pode aprender quais componentes são necessários e como funcionam.

Ao final deste capítulo, você poderá dominar a instalação de beautifulsoup4, requests, lxml, html5lib e sublime text. E você pode aprender como extrair dados da web deles.

Índice: Web Scraping com BeautifulSoup, Requests, Python

BeautifulSoup4

Beautiful Soup é uma biblioteca que facilita a extração de informações de páginas da web. Ele fica sobre um analisador HTML ou XML, fornecendo expressões idiomáticas Pythonic. Eles servem para iterar, pesquisar e modificar a árvore de análise.

Instalar o Beautifulsoup4 não é complexo, abaixo estão os passos

1. Acesse Pypi.org e baixe a versão mais recente beautifulsoup4-4.9.3

2. Abra o terminal Mac e insira

cd Desktop

(Nota: Desktop significa o local do arquivo beautifulsoup4 que você salva)

cd beautifulsoup4-4.9.3

sudo python3 ./setup.py install

3. Verifique se você instalou o beautifulsoup4 com sucesso

Entrada: pip3 instale beautifulsoup4. Se o valor de retorno for um requisito já atendido, significa que a instalação está concluída.

Depois de instalado, precisamos ter certeza de que temos analisadores para analisar o HTML. Os analisadores são essenciais para extrair os dados e obter o resultado de retorno correto. Basicamente, é porque as informações objetivas da página HTML são importantes. Se as estruturas da página de destino forem construídas de forma perfeita, não haverá diferença entre os analisadores. Mas se as estruturas da página de destino apresentarem erros, diferentes analisadores poderão preencher as informações ausentes de maneira diferente e garantir que o resultado retornado esteja correto.

Na documentação do BeautifulSoup4, há uma seção que explica a diferença entre os analisadores. Mas basicamente eles sugerem instalar e usar o analisador lxml e o analisador html5lib . Então aqui mostro como instalá-lo em um terminal Mac:

Pip3 install lxml

Pip 3 install html5lib

solicitações de

Você pode usar Solicitações para fazer solicitações HTTP ou HTTPS facilmente. É porque é uma biblioteca Python. Basicamente, seu objetivo principal é chamar os dados objetivos e mostrá-los na tela executando um script Python. Ele funciona enquanto você digita um URL em um navegador para abrir a página. Geralmente, as solicitações têm dois casos de uso principais: fazer solicitações a uma API e obter conteúdo HTML bruto de sites (ou seja, scraping).

Instalar solicitações é muito fácil, abaixo estão as etapas

  1. Abra o Terminal Mac.
  2. Entrada: solicitações de instalação do pip3. Lembre-se de usar pip3 se você não criou o alias entre sua versão Mac Python. E a versão mais recente do Python3 que uso aqui como exemplo. Caso contrário, poderá causar a instalação no caminho de pasta errado.
  3. Aguarde e veja se as solicitações foram instaladas com sucesso, o que inclui a data e as informações de versão relacionadas.

Editor de texto sublime

Sublime Text é um editor de código -fonte de plataforma cruzada shareware com uma interface de programação de aplicativos (API) Python gratuita. Ele oferece suporte nativo a muitas linguagens de programação e linguagens de marcação. E as funções podem ser adicionadas pelos usuários com plug-ins , normalmente criados pela comunidade e mantidos sob licenças de software livre .

Existem muitos editores gratuitos disponíveis, como o atome, etc. Você pode usar outro software semelhante se já tiver um. Tomarei o texto sublime como exemplo para orientá-lo sobre como usá-lo para criar scripts e extrair dados da web.

1. Verifique o sistema de compilação e atualize o Python mais recente

No texto Sublime, se você for em ferramentas e construir sistemas, poderá encontrar muitas opções de linguagens de programação disponíveis, incluindo Python. No entanto, a versão padrão do Python pode não ser atualizada. Como você pode ver no screencap abaixo, selecionamos Python e inserimos um código de linha única, e ele mostra Python 2.7, em vez do Python3 mais recente

Import sys

print(sys.version)

Foto 1

Foto 2

2. Adicione um novo sistema de compilação Python3

Adicionando um sistema de compilação e o script mostra uma linha de código:

“Shell_cmd”: “make”

Substitua-o pelos códigos abaixo e salve. Agora que você instalou a versão mais recente do Python3 e pode verificar inserindo import sys, print(sys. version)

"cmd": ["python3", "-i", "-u", "$file"],

"file_regex": "^[ ]File \"(...?)\", line ([0-9]*)",

"selector": "source.python"

Foto 1

Foto 2

Caso de raspagem da Web:

(www.easy2digital.com/topics/ecommerce/)

As coisas estão prontas agora e podemos testar web scraping no Sublime.

Primeiro de tudo, precisamos do BeautifulSoup e de requests, então vamos começar inserindo

from bs4 import BeautifulSoup

import requests

E abaixo está uma variável que solicita a obtenção de dados de texto de origem HTML da seção de artigos de comércio eletrônico do meu site

source = requests.get('https://www.easy2digital.com/topics/ecommerce/').text

Então, podemos analisar essas informações do código-fonte no BeautifulSoup e imprimi-las.

soup = BeautifulSoup(source,'lxml')

print(soup.prettify())

Por último, mas não menos importante, inserimos o comando B para executar a codificação e como você pode ver, todos os códigos-fonte da página são gerados. Esses dados ainda não são úteis porque precisamos criar linhas de código para extrair especificamente os dados de divisão de que precisamos.

Dito isto, um ambiente de Web scraping por um editor de texto sublime já está funcionando, e o fato é que pretendemos raspar e escrever os códigos com base no objetivo em um editor de texto sublime.

Espero que você goste de ler o Capítulo 2: Web Scraping com BeautifulSoup, Requests, Sublime Text. Se você fez isso, por favor, apoie-nos fazendo uma das coisas listadas abaixo, porque isso sempre ajuda nosso canal.

  • Apoie e doe para nosso canal através do PayPal ( paypal.me/Easy2digital )
  • Inscreva-se no meu canal e ative o sininho de notificação do canal Easy2Digital no Youtube .
  • Siga e curta minha página Página Easy2Digital no Facebook
  • Compartilhe o artigo em sua rede social com a hashtag #easy2digital
  • Compre produtos com código de desconto Easy2Digital 10% OFF ( Easy2DigitalNewBuyers2021)
  • Você se inscreve em nosso boletim informativo semanal para receber os artigos, vídeos e códigos de desconto mais recentes da Easy2Digital
  • Assine nossa assinatura mensal através do Patreon para aproveitar benefícios exclusivos ( www.patreon.com/louisludigital )

Se você estiver interessado no capítulo 3, confira o artigo abaixo

Capítulo 3: Utilize o módulo CSV para escrever, analisar e ler arquivos CSV para gerenciar dados extraídos

Perguntas frequentes:

Q1: Qual é a composição do Belasoup?

A: O Belasoup é feito com ingredientes naturais, como vegetais, especiarias e ervas aromáticas.

Q2: O Belasoup é vegano?

A: Sim, o Belasoup é 100% vegano, não contendo ingredientes de origem animal.

Q3: Como preparar o Belasoup?

A: Para preparar o Belasoup, basta adicionar água quente e aguardar alguns minutos até que esteja pronto para ser consumido.

Q4: O Belasoup contém glúten?

A: Não, o Belasoup é livre de glúten e adequado para pessoas com restrições alimentares.

Q5: Qual é o prazo de validade do Belasoup?

A: O prazo de validade do Belasoup é de 2 anos a partir da data de fabricação.

Q6: O Belasoup contém conservantes?

A: Não, o Belasoup não contém conservantes artificiais, sendo preservado de forma natural.

Q7: Posso consumir o Belasoup frio?

A: Sim, o Belasoup pode ser consumido tanto quente quanto frio, de acordo com a preferência do usuário.

Q8: O Belasoup é indicado para dietas de emagrecimento?

A: Sim, o Belasoup é uma opção saudável e de baixo teor calórico, sendo indicado para dietas de emagrecimento.

Q9: O Belasoup é rico em nutrientes?

A: Sim, o Belasoup é rico em nutrientes essenciais, como vitaminas, minerais e fibras.

Q10: O Belasoup é produzido de forma sustentável?

A: Sim, o Belasoup é produzido de forma sustentável, priorizando a utilização de ingredientes orgânicos e embalagens recicláveis.