2024 BeautifulSoup, 요청 및 파이썬으로 웹 스크래핑

BeautifulSoup, 요청, 숭고 및 파이썬을 사용하여 웹 스크래핑 봇을 만드는 방법을 안내하십시오. 확인 해봐

In the previous Chapter 1, we discussed how a digital marketer can benefit from Python superpowers. We learned why she or he needs it, and how to install and set up the latest Python version for Mac OS. As you might be aware, one of the most essential Python benefits to digital marketers is to scrape web data and update the data automatically. 

따라서이 Python 튜토리얼에서는 객관적인 웹 사이트 데이터를 폐기 할 목적으로 Python 스크립트를 작성하는 환경을 설정하는 방법에 대해 이야기하겠습니다. 이 기사는 Python Methods 소개, 코드 작성 및 데이터를 스프레드 시트 또는 데이터베이스에 공급하는 것에 대한 자세한 내용은 없습니다. 다른 기사와 비디오를 발표 할 것입니다. 그러나이 기사의 목적은 큰 그림을 이해하도록하는 것입니다. 필요한 구성 요소와 작동 방식을 배울 수 있습니다.

이 장의 끝까지 BeautifulSoup4, requests, lxml, html5lib 및 숭고한 텍스트의 설치를 마스터 할 수 있습니다. 그리고 웹 데이터를 긁어내는 방법을 배울 수 있습니다.

목차 : BeautifulSoup, 요청, 파이썬으로 웹 스크래핑

BeautifulSoup4

아름다운 수프는 웹 페이지에서 정보를 쉽게 긁어내는 도서관입니다. 그것은 HTML 또는 XML 파서에 앉아 피스닉 관용구를 제공합니다. 그들은 구문 분석 트리를 반복, 검색 및 수정하기위한 것입니다.

BeautifulSoup4를 설치하는 것은 복잡하지 않습니다. 아래 단계입니다.

1. pypi.org로 이동하여 최신 버전 Beautifulsoup4-4.9.3을 다운로드하십시오.

2. Mac 터미널을 열고 입력하십시오

cd Desktop

(참고 : 데스크탑은 저장된 BeautifulSoup4 파일 위치를 의미합니다)

cd beautifulsoup4-4.9.3

sudo python3 ./setup.py install

3. BeautifulSoup4를 성공적으로 설치하는지 확인하십시오

입력 : PIP3 설치 BeautifulSoup4. 반품 값이 이미 충족되는 경우 설치가 완료되었음을 의미합니다.

설치되면 HTML을 구문 분석 할 파서가 있는지 확인해야합니다. 구문 분석기는 데이터를 긁어 내고 올바른 반환 결과를 얻는 데 필수적입니다. 기본적으로 객관적인 HTML 페이지 정보가 중요하기 때문입니다. 대상 페이지 구조가 완벽한 형태로 내장되면 구문 분석기간에 차이가 없습니다. 그러나 대상 페이지 구조에 실수가있는 경우 다른 파서가 누락 된 정보를 다르게 채우고 반환 결과가 올바른지 확인할 수 있습니다.

In BeautifulSoup4 documentation, there is a section that explains the difference among parsers. But basically, they suggest installing and using the lxml parser and html5lib parser. So here I show how to install it in a Mac terminal:

Pip3 install lxml

Pip 3 install html5lib

요청

You can use Requests to easily make HTTP or HTTPS requests. It’s because it is a Python library. Basically, its primary purpose is to call the objective data and show it on your screen by running a Python script. It is functioning as you type in a URL on a browser to open the page. Generally, Requests have two main use cases, making requests to an API and getting raw HTML content from websites (i.e., scraping).

설치 요청은 매우 쉽습니다. 아래 단계는 단계입니다.

  1. Mac 터미널을 엽니 다.
  2. 입력 : PIP3 설치 요청. Mac Python 버전간에 별칭을 생성하지 않은 경우 PIP3을 사용해야합니다. 그리고 여기서 여기서 사용하는 최신 Python3 버전. 그렇지 않으면 잘못된 폴더 경로에 설치 될 수 있습니다.
  3. 날짜 및 관련 버전 정보가 포함 된 요청이 성공적으로 설치되어 있는지 확인하십시오.

숭고한 텍스트 편집기

Sublime Text is a shareware cross-platform source code editor with a Python application programming interface (API) for free. It natively supports many programming languages and markup languages. And the functions can be added by users with plugins, typically community-built and maintained under free software licenses

Atome 등과 같은 무료 편집기가 많이 있습니다. 이미 유사한 소프트웨어가있는 경우 다른 유사한 소프트웨어를 사용할 수 있습니다. 스크립트를 만들고 웹 데이터를 긁어내는 방법을 사용하여 숭고한 텍스트를 예로 들어 보겠습니다.

1. 빌드 시스템을 확인하고 최신 파이썬 업데이트

숭고한 텍스트에서 도구 및 빌드 시스템으로 이동하면 Python을 포함한 많은 프로그래밍 언어 옵션을 찾을 수 있습니다. 그러나 기본 파이썬 버전은 업데이트되지 않을 수 있습니다. 아래 Screencap에서 볼 수 있듯이 Python을 선택하고 단일 라인 코드를 입력하고 최신 Python3 대신 Python 2.7을 표시합니다.

Import sys

print(sys.version)

사진 1

사진 2

2. 새 Python3 빌드 시스템을 추가하십시오

빌드 시스템 추가 및 스크립트에는 코드 줄이 표시됩니다.

“Shell_cmd”: “make”

아래 코드로 교체하고 저장하십시오. 이제 최신 Python3 버전을 설치했으며 Import Sys, Print (Sys. 버전)를 입력하여 확인할 수 있습니다.

"cmd": ["python3", "-i", "-u", "$file"],    

"file_regex": "^[ ]File \"(...?)\", line ([0-9]*)",    

"selector": "source.python"

사진 1

사진 2

웹 스크래핑 케이스 :

(www.easy2digital.com/topics/ecommerce/)

이제 상황이 준비되었으며 웹 스크랩을 숭고하게 테스트 할 수 있습니다.

우선, 우리는 BeautifulSoup과 요청이 필요하므로 입력부터 시작하겠습니다.

from bs4 import BeautifulSoup

import requests

그리고 아래는 내 웹 사이트 전자 상거래 기사 섹션의 HTML 소스 텍스트 데이터를 얻도록 요청하는 변수입니다.

source = requests.get('https://www.easy2digital.com/topics/ecommerce/').text

그런 다음이 소스 코드 정보를 BeautifulSoup에 구문 분석하여 인쇄 할 수 있습니다.

soup = BeautifulSoup(source,'lxml')

print(soup.prettify())

Last but not least, we input command B to run the coding and as you can see, all source codes of the page are generated. This data is still not helpful because we need to create lines of code to specifically scrape the division data that we need.

숭고한 텍스트 편집기의 웹 스크래핑 환경이 이미 작동하고 있으며, 이는 숭고한 텍스트 편집기의 목표를 바탕으로 코드를 긁어 내고 작성하는 것을 목표로합니다.

2 장 : BeautifulSoup, 요청, 숭고한 텍스트로 웹 스크래핑을 읽는 것을 즐기시기 바랍니다. 당신이 그렇게했다면, 아래에 나열된 것들 중 하나를 수행하여 항상 우리의 채널을 도울 수 있기 때문에 우리를 지원하십시오.

  • Support and donate to our channel through PayPal (paypal.me/Easy2digital)
  • Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
  • Follow and like my page Easy2Digital Facebook page
  • 해시 태그 #easy2digital과 소셜 네트워크의 기사를 공유하십시오.
  • Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
  • Easy2Digital 최신 기사, 비디오 및 할인 코드를 받으려면 주간 뉴스 레터에 가입하십시오.
  • Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)

3 장에 관심이 있으시면 아래 기사를 확인하십시오.

3 장 : CSV 모듈을 사용하여 쓰기, 구문 분석, CSV 파일을 읽으려면 스크랩 된 데이터를 관리합니다.

자주 묻는 질문:

Q1: S

A: 2. S.에서 어떤 종류의 콘텐츠를 찾을 수 있나요?
S.에서는 다양한 종류의 콘텐츠를 찾을 수 있습니다. 여기에는 사진, 동영상, 기사, 링크 등이 포함됩니다.