
In the previous Chapter 1, we discussed how a digital marketer can benefit from Python superpowers. We learned why she or he needs it, and how to install and set up the latest Python version for Mac OS. As you might be aware, one of the most essential Python benefits to digital marketers is to scrape web data and update the data automatically.
Итак, в этом учебном пособии по Python я расскажу о том, как настроить среду для написания сценариев Python с целью очистки объективных данных веб -сайта. Эта статья не входит в подробную информацию о введении методов Python, написании кода и подаче данных в электронную таблицу или базу данных. Я выпущу другие статьи и видео, чтобы пройтись. Но цель этой статьи — позволить вам понять общую картину. Вы можете узнать, какие компоненты необходимы и как это работает.
К концу этой главы вы можете овладеть установкой BeautifulSoup4, запросов, LXML, HTML5LIB и возвышенного текста. И вы можете научиться соскрести веб -данные из них.
Содержимое таблицы: сеть с помощью BeautifulSoup, запросов, Python
- BeautifulSoup4
- Запросы
- Редактор возвышенного текста
- Веб -штриховой случай: www.easy2digital/blog
- Часто задаваемые вопросы
BeautifulSoup4
Beautiful Soup — это библиотека, которая позволяет легко соскрести информацию с веб -страниц. Он находится на вершине анализатора HTML или XML, обеспечивая питонические идиомы. Они предназначены для итерации, поиска и модификации дерева анализа.
Установка BeautifulSoup4 не сл. ожна, ниже приведены шаги
1. Перейдите на pypi.org и скачайте последнюю версию BeautifulSoup4-4.9.3
2. Откройте терминал Mac и вход
cd Desktop
(Примечание: настольный компьютер означает местоположение файла BeautifulSoup4, которое вы сохраняете)
cd beautifulsoup4-4.9.3
sudo python3 ./setup.py install
3. Проверьте, успешно ли вы установите BeautifulSoup4
Ввод: PIP3 Установить BeautifulSoup4. Если возвратное значение является уже удовлетворенным требованием, это означает, что установка выполняется.
После того, как он будет установлен, мы должны убедиться, что у нас есть анализаторы, чтобы проанализировать HTML. Парсеры необходимы для того, чтобы очистить данные и получить правильный результат возврата. По сути, это потому, что объективная информация о странице HTML имеет значение. Если структуры целевой страницы встроены в идеальную форму, нет разницы между анализаторами. Но если структуры целевой страницы имеют ошибки, различные анализаторы могут по -разному заполнять недостающую информацию и убедиться, что результат возврата является правильным.
In BeautifulSoup4 documentation, there is a section that explains the difference among parsers. But basically, they suggest installing and using the lxml parser and html5lib parser. So here I show how to install it in a Mac terminal:
Pip3 install lxml
Pip 3 install html5lib
Запросы
You can use Requests to easily make HTTP or HTTPS requests. It’s because it is a Python library. Basically, its primary purpose is to call the objective data and show it on your screen by running a Python script. It is functioning as you type in a URL on a browser to open the page. Generally, Requests have two main use cases, making requests to an API and getting raw HTML content from websites (i.e., scraping).
Запросы на установку довольно просты, ниже приведены шаги

- Откройте терминал Mac.
- Вход: PIP3 Установить запросы. Пожалуйста, не забудьте использовать PIP3, если вы не создали псевдоним между вашей версией Mac Python. И последняя версия Python3, которую я использую здесь в качестве примера. В противном случае это может вызвать установку на неправильном пути папки.
- Подождите и посмотрите, успешно ли установлены запросы, которые включают информацию о дате и связанной версии.
Редактор возвышенного текста
Sublime Text is a shareware cross-platform source code editor with a Python application programming interface (API) for free. It natively supports many programming languages and markup languages. And the functions can be added by users with plugins, typically community-built and maintained under free software licenses.
Есть много доступных бесплатных редакторов, таких как Atome и т. Д. Вы можете использовать другое подобное программное обеспечение, если у вас уже есть. Я возьму возвышенное текст в качестве примера, чтобы провести вас через то, как использовать его для создания сценариев и очистки веб -данных.
1. Проверьте систему сборки и обновите последний Python
В превосходном тексте, если вы перейдете в инструменты и строительные системы, вы можете найти множество доступных вариантов языка программирования, включая Python. Однако версия Python по умолчанию не может быть обновлена. Как вы можете видеть на экране ниже, мы выбираем Python и вводим единый код линии, и он показывает Python 2.7, вместо последнего Python3
Import sys
print(sys.version)
Фото 1

Фото 2

2. Добавьте новую систему сборки Python3
Добавление системы сборки и сценария показывает строку кода:
“Shell_cmd”: “make”

Замените его на коды ниже и сохраните. Теперь вы установили последнюю версию Python3, и вы можете проверить, введя Sys Import Sys, Print (Sys. Версия)
"cmd": ["python3", "-i", "-u", "$file"],
"file_regex": "^[ ]File \"(...?)\", line ([0-9]*)",
"selector": "source.python"
Фото 1

Фото 2

Сборник веб -царапины:
(www.easy2digital.com/topics/ecommerce/)
Теперь все готово, и мы можем проверить сеть в возвышенности.
Прежде всего, нам нужна BeautifulSoup и запросы, так что давайте начнем с ввода
from bs4 import BeautifulSoup
import requests
А затем ниже представлена переменная, которая запрашивает, чтобы получить HTML -исходные текстовые данные в разделе «Статья по электронной коммерции веб -сайта»
source = requests.get('https://www.easy2digital.com/topics/ecommerce/').text
Затем мы можем проанализировать информацию об этом исходном коде в BeautifulSoup и распечатать ее.
soup = BeautifulSoup(source,'lxml')
print(soup.prettify())
Last but not least, we input command B to run the coding and as you can see, all source codes of the page are generated. This data is still not helpful because we need to create lines of code to specifically scrape the division data that we need.

Говорят, что среда скребки веб -царапины от возвышенного текстового редактора уже работает, и дело в том, что мы стремимся соскрести и написать коды, основанные на объективах в возвышенном текстовом редакторе.
Я надеюсь, что вам понравится читать Главу 2: Страб с помощью BeautifulSoup, запросов, возвышенного текста. Если вы это сделали, пожалуйста, поддержите нас, делая одну из перечисленных ниже вещей, потому что это всегда помогает нашему каналу.
- Support and donate to our channel through PayPal (paypal.me/Easy2digital)
- Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
- Follow and like my page Easy2Digital Facebook page
- Поделитесь статьей в вашей социальной сети с хэштегом #Easy2digital
- Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
- Вы регистрируетесь на нашем еженедельном информационном бюллетене, чтобы получить последние 2 -дигитальные последние статьи, видео и скидки
- Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)
Если вы заинтересованы в главе 3, пожалуйста, ознакомьтесь с статьей ниже