2024 Web Scrapeing с BeautifulSoup, запросами и Python

In the previous Chapter 1, we discussed how a digital marketer can benefit from Python superpowers. We learned why she or he needs it, and how to install and set up the latest Python version for Mac OS. As you might be aware, one of the most essential Python benefits to digital marketers is to scrape web data and update the data automatically.

Итак, в этом учебном пособии по Python я расскажу о том, как настроить среду для написания сценариев Python с целью очистки объективных данных веб -сайта. Эта статья не входит в подробную информацию о введении методов Python, написании кода и подаче данных в электронную таблицу или базу данных. Я выпущу другие статьи и видео, чтобы пройтись. Но цель этой статьи — позволить вам понять общую картину. Вы можете узнать, какие компоненты необходимы и как это работает.

К концу этой главы вы можете овладеть установкой BeautifulSoup4, запросов, LXML, HTML5LIB и возвышенного текста. И вы можете научиться соскрести веб -данные из них.

Содержимое таблицы: сеть с помощью BeautifulSoup, запросов, Python

BeautifulSoup4
Запросы
Редактор возвышенного текста
Веб -штриховой случай: www.easy2digital/blog
Часто задаваемые вопросы

BeautifulSoup4

Beautiful Soup — это библиотека, которая позволяет легко соскрести информацию с веб -страниц. Он находится на вершине анализатора HTML или XML, обеспечивая питонические идиомы. Они предназначены для итерации, поиска и модификации дерева анализа.

Установка BeautifulSoup4 не сл. ожна, ниже приведены шаги

1. Перейдите на pypi.org и скачайте последнюю версию BeautifulSoup4-4.9.3

2. Откройте терминал Mac и вход

cd Desktop

(Примечание: настольный компьютер означает местоположение файла BeautifulSoup4, которое вы сохраняете)

cd beautifulsoup4-4.9.3

sudo python3 ./setup.py install

3. Проверьте, успешно ли вы установите BeautifulSoup4

Ввод: PIP3 Установить BeautifulSoup4. Если возвратное значение является уже удовлетворенным требованием, это означает, что установка выполняется.

После того, как он будет установлен, мы должны убедиться, что у нас есть анализаторы, чтобы проанализировать HTML. Парсеры необходимы для того, чтобы очистить данные и получить правильный результат возврата. По сути, это потому, что объективная информация о странице HTML имеет значение. Если структуры целевой страницы встроены в идеальную форму, нет разницы между анализаторами. Но если структуры целевой страницы имеют ошибки, различные анализаторы могут по -разному заполнять недостающую информацию и убедиться, что результат возврата является правильным.

In BeautifulSoup4 documentation, there is a section that explains the difference among parsers. But basically, they suggest installing and using the lxml parser and html5lib parser. So here I show how to install it in a Mac terminal:

Pip3 install lxml

Pip 3 install html5lib

Запросы

You can use Requests to easily make HTTP or HTTPS requests. It’s because it is a Python library. Basically, its primary purpose is to call the objective data and show it on your screen by running a Python script. It is functioning as you type in a URL on a browser to open the page. Generally, Requests have two main use cases, making requests to an API and getting raw HTML content from websites (i.e., scraping).

Запросы на установку довольно просты, ниже приведены шаги

Откройте терминал Mac.
Вход: PIP3 Установить запросы. Пожалуйста, не забудьте использовать PIP3, если вы не создали псевдоним между вашей версией Mac Python. И последняя версия Python3, которую я использую здесь в качестве примера. В противном случае это может вызвать установку на неправильном пути папки.
Подождите и посмотрите, успешно ли установлены запросы, которые включают информацию о дате и связанной версии.

Редактор возвышенного текста

Sublime Text is a shareware cross-platform source code editor with a Python application programming interface (API) for free. It natively supports many programming languages and markup languages. And the functions can be added by users with plugins, typically community-built and maintained under free software licenses.

Есть много доступных бесплатных редакторов, таких как Atome и т. Д. Вы можете использовать другое подобное программное обеспечение, если у вас уже есть. Я возьму возвышенное текст в качестве примера, чтобы провести вас через то, как использовать его для создания сценариев и очистки веб -данных.

1. Проверьте систему сборки и обновите последний Python

В превосходном тексте, если вы перейдете в инструменты и строительные системы, вы можете найти множество доступных вариантов языка программирования, включая Python. Однако версия Python по умолчанию не может быть обновлена. Как вы можете видеть на экране ниже, мы выбираем Python и вводим единый код линии, и он показывает Python 2.7, вместо последнего Python3

Import sys

print(sys.version)

Фото 1

Фото 2

2. Добавьте новую систему сборки Python3

Добавление системы сборки и сценария показывает строку кода:

“Shell_cmd”: “make”

Замените его на коды ниже и сохраните. Теперь вы установили последнюю версию Python3, и вы можете проверить, введя Sys Import Sys, Print (Sys. Версия)

"cmd": ["python3", "-i", "-u", "$file"],

"file_regex": "^[ ]File \"(...?)\", line ([0-9]*)",

"selector": "source.python"

Фото 1

Фото 2

Сборник веб -царапины:

(www.easy2digital.com/topics/ecommerce/)

Теперь все готово, и мы можем проверить сеть в возвышенности.

Прежде всего, нам нужна BeautifulSoup и запросы, так что давайте начнем с ввода

from bs4 import BeautifulSoup

import requests

А затем ниже представлена переменная, которая запрашивает, чтобы получить HTML -исходные текстовые данные в разделе «Статья по электронной коммерции веб -сайта»

source = requests.get('https://www.easy2digital.com/topics/ecommerce/').text

Затем мы можем проанализировать информацию об этом исходном коде в BeautifulSoup и распечатать ее.

soup = BeautifulSoup(source,'lxml')

print(soup.prettify())

Last but not least, we input command B to run the coding and as you can see, all source codes of the page are generated. This data is still not helpful because we need to create lines of code to specifically scrape the division data that we need.

Говорят, что среда скребки веб -царапины от возвышенного текстового редактора уже работает, и дело в том, что мы стремимся соскрести и написать коды, основанные на объективах в возвышенном текстовом редакторе.

Я надеюсь, что вам понравится читать Главу 2: Страб с помощью BeautifulSoup, запросов, возвышенного текста. Если вы это сделали, пожалуйста, поддержите нас, делая одну из перечисленных ниже вещей, потому что это всегда помогает нашему каналу.

Support and donate to our channel through PayPal (paypal.me/Easy2digital)
Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
Follow and like my page Easy2Digital Facebook page
Поделитесь статьей в вашей социальной сети с хэштегом #Easy2digital
Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
Вы регистрируетесь на нашем еженедельном информационном бюллетене, чтобы получить последние 2 -дигитальные последние статьи, видео и скидки
Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)

Если вы заинтересованы в главе 3, пожалуйста, ознакомьтесь с статьей ниже

Глава 3: Используйте модуль CSV для записи, . разбора, прочтите файлы CSV для управления сокрасненными данными

Содержимое таблицы: сеть с помощью BeautifulSoup, запросов, Python

BeautifulSoup4

1. Перейдите на pypi.org и скачайте последнюю версию BeautifulSoup4-4.9.3

2. Откройте терминал Mac и вход

3. Проверьте, успешно ли вы установите BeautifulSoup4

Запросы

Редактор возвышенного текста

1. Проверьте систему сборки и обновите последний Python

2. Добавьте новую систему сборки Python3

Сборник веб -царапины:

(www.easy2digital.com/topics/ecommerce/)

Поделиться этим постом

Частые вопросы

Раздел комментариев

Подпишитесь на нашу рассылку!

Файлы cookie и конфиденциальность данных