Parsing

3 — BeautifulSoup

Опубликовано

Помните тот замечательный вкусный суп с буквами, который готовила вам мама? Сейчас мы тоже будем вариться в нечто подобном, только на программном языке. Как вы могли заметить, когда мы выводим на экран результат нашего запроса, то получаем слишком много текста, из которого нам может понадобиться только малая часть! Замечательная библиотека BeautifulSoup поможет нам сфокусироваться на необходимых данных! Импортируем её…

from bs4 import BeautifulSoup

Теперь нам необходимо из всего этого сварить «Замечательный суп», иными словами создать объект BeautifulSoup, для его дальнейшего разбора.

features — это дополнительная опция, которую мы указываем для того, чтобы дать понять программе, какой вид обработки информации мы будем использовать. Существуют такие варианты как "lxml", "html"и "html5lib", каждый имеет свои преимущества и недостатки, но мы их не будем сейчас рассматривать.

Instructions:

  1. В самом начале документа импортируйте пакет BeautifulSoup
  2. Создайте объект BeautifulSoup и сохраните его в переменной soup, указав в качестве парсера «html.parser»
  3. Выведите на экран и взгляните на содержимое супа. Визуально результат ничем не отличается от свойства content, но дело в том, что сейчас мы получили объект BeautifulSoup. А как мы знаем, каждый объект обладает своими свойствами и методами, с которыми мы как-раз и будем работать.