6 — Step by step. Первый способ.

Опубликовано Оставить комментарийОпубликовано в рубрике Parsing

На предыдущем уроке мы получили выборку из элементов принадлежащих к классу .wp-block-columns. Но нам необходимо ограничить эту выборку. Во-первых, сами теги <div class=»wp-block-column»> нам малоинтересны, информация которая нам нужна находится во дочерних тегах <p>. Для выбора всех параграфов используется метод find_all(), который вернёт нам итерируемый объект. Во-вторых, из получившегося результата мы видим, что нам интересны […]

5 — Next level

Опубликовано Оставить комментарийОпубликовано в рубрике Parsing

На прошлом уроке мы получили ссылки на курсы. Теперь я предлагаю вам закрепить ваши знания разобрав более сложный по структуре код. Для разбора возьмём основную страницу по Python — https://koddom.com/kodim/ .Сразу импортируем необходимые библиотеки и получим HTML парсер. Вы сразу же увидите что кода на данной странице намного больше, чем в предыдущем примере. Это связано […]

4 — Get links

Опубликовано Оставить комментарийОпубликовано в рубрике Parsing

И так, мы получили код для анализа, теперь мы можем получать необходимые объекты. Давайте попробуем получить список доступных курсов на koddom.com, указанных в самом низу в виде красных кнопок. Сначала найдём эти кнопки в коде. Пролистайте код в самый низ. Там вы увидите блок div принадлежащий к классу share. Здесь вы видите закомментированные кнопки, которые […]

3 — BeautifulSoup

Опубликовано Опубликовано в рубрике Parsing

Помните тот замечательный вкусный суп с буквами, который готовила вам мама? Сейчас мы тоже будем вариться в нечто подобном, только на программном языке. Как вы могли заметить, когда мы выводим на экран результат нашего запроса, то получаем слишком много текста, из которого нам может понадобиться только малая часть! Замечательная библиотека BeautifulSoup поможет нам сфокусироваться на […]

2 — Request

Опубликовано Опубликовано в рубрике Parsing

Прежде чем начать обрабатывать станицу, нам необходимо отправить запрос на сервер и получить её. Это мы можем сделать используя библиотеку requests. Всё что необходимо — просто передать адрес сайта в метод get(). При этом нам вернётся объект страницы у которого есть атрибут text, в нём содержится весь HTML код страницы необходимый нам для обработки данных. […]

1 — Intro to Web Scrapping

Опубликовано Опубликовано в рубрике Parsing

Наверняка вы слышали о BigData — это наука занимающаяся обработкой больших данных. Но для того чтобы обрабатывать данные их для начала необходимо как-то собрать. Одним из способов является парсинг (parsing — разбор на составляющие) сайтов. Конечно можно и вручную составлять таблицы просматривая каждую страницу сайта, но это достаточно долго и утомительно. А если данные на […]

Ищем самый большой файл на компьютере с Python.

Опубликовано Опубликовано в рубрике Командная строка, Курсы

ссылка на репл если окно ниже не работает На предыдущем уроке мы написали функцию, которая «прогуливается» по указанной директории и выводит на экран наименования всех файлов, которые она нашла. Давайте немного модифицируем нашу функцию. Во-первых, переименуем её в find_big_file(dir). Изменения должны коснуться трёх строк. Во-вторых, вместо того чтобы переписывать переменную name, объявим отдельную переменную abs_name, […]

Работа с файлами: часть 2.

Опубликовано Опубликовано в рубрике Командная строка, Курсы

Теперь, когда наши файлы отсортированы и раскиданы по разным папкам , наша файловая система очень напоминает реальные условия. Заказчик, который попросил нас написать эту программу, хочет расширить функционал и хочет иметь возможность выводить на экран все файлы, которые у него хранятся в папке downloads, минуя вложенные папки. До сортировки, когда все файлы хранились в одной […]

Работа с файлами

Опубликовано Опубликовано в рубрике Командная строка, Курсы

Начнём с Папок для файлов. В предыдущем уроке мы все команды вбивали в окно консоли. Теперь же попробуем использовать наши знания для написания файла с программой, которая будет сортировать файлы в папке. Не забудем импортировать библиотеку import os и создадим методом mkdir() папку downloads. При первом запуске должна создастся папка и никаких ошибок быть не […]

Навигация текстом.

Опубликовано Опубликовано в рубрике Командная строка, Курсы

Первую часть урока все команды мы будем писать в консоли питона. Но всё что мы пишем в этом окне, мы можем писать и в тексте программы. Делаем мы это с целью демонстрации возможности консоли Python, библиотека os идеально для этого подходит. И так, создав новый репл, под вкладкой Console введите команду import os Теперь нам […]