7 — Function and parent. Второй способ.

Опубликовано Оставить комментарийОпубликовано в рубрике Parsing

В предыдущем уроке мы получили необходимые данные путём выбора всех параграфов используя метод find_all() и добавили условие для прекращения выполнения цикла. Сейчас мы рассмотрим ещё один способ, который будет использовать функцию для поиска необходимого раздела. После чего мы получим родителя найденного элемента и получим весь его код, в котором уже будет находиться нужная нам информация. […]

6 — Step by step. Первый способ.

Опубликовано Оставить комментарийОпубликовано в рубрике Parsing

На предыдущем уроке мы получили выборку из элементов принадлежащих к классу .wp-block-columns. Но нам необходимо ограничить эту выборку. Во-первых, сами теги <div class=»wp-block-column»> нам малоинтересны, информация которая нам нужна находится во дочерних тегах <p>. Для выбора всех параграфов используется метод find_all(), который вернёт нам итерируемый объект. Во-вторых, из получившегося результата мы видим, что нам интересны […]

5 — Next level

Опубликовано Оставить комментарийОпубликовано в рубрике Parsing

На прошлом уроке мы получили ссылки на курсы. Теперь я предлагаю вам закрепить ваши знания разобрав более сложный по структуре код. Для разбора возьмём основную страницу по Python — https://koddom.com/kodim/ .Сразу импортируем необходимые библиотеки и получим HTML парсер. Вы сразу же увидите что кода на данной странице намного больше, чем в предыдущем примере. Это связано […]

4 — Get links

Опубликовано Оставить комментарийОпубликовано в рубрике Parsing

И так, мы получили код для анализа, теперь мы можем получать необходимые объекты. Давайте попробуем получить список доступных курсов на koddom.com, указанных в самом низу в виде красных кнопок. Сначала найдём эти кнопки в коде. Пролистайте код в самый низ. Там вы увидите блок div принадлежащий к классу share. Здесь вы видите закомментированные кнопки, которые […]

3 — BeautifulSoup

Опубликовано Опубликовано в рубрике Parsing

Помните тот замечательный вкусный суп с буквами, который готовила вам мама? Сейчас мы тоже будем вариться в нечто подобном, только на программном языке. Как вы могли заметить, когда мы выводим на экран результат нашего запроса, то получаем слишком много текста, из которого нам может понадобиться только малая часть! Замечательная библиотека BeautifulSoup поможет нам сфокусироваться на […]

2 — Request

Опубликовано Опубликовано в рубрике Parsing

Прежде чем начать обрабатывать станицу, нам необходимо отправить запрос на сервер и получить её. Это мы можем сделать используя библиотеку requests. Всё что необходимо — просто передать адрес сайта в метод get(). При этом нам вернётся объект страницы у которого есть атрибут text, в нём содержится весь HTML код страницы необходимый нам для обработки данных. […]

1 — Intro to Web Scrapping

Опубликовано Опубликовано в рубрике Parsing

Наверняка вы слышали о BigData — это наука занимающаяся обработкой больших данных. Но для того чтобы обрабатывать данные их для начала необходимо как-то собрать. Одним из способов является парсинг (parsing — разбор на составляющие) сайтов. Конечно можно и вручную составлять таблицы просматривая каждую страницу сайта, но это достаточно долго и утомительно. А если данные на […]