lt;< парсить>> сайты, или как написать свой первый парсер на Python ### В этой статье я постараюсь понятно рассказать о парсинге данных и его нюансах. Для начала давайте разберемся, что же действительно означает на первый взгляд непонятное слово — **парсинг**. Прежде всего это процесс сбора данных с последующей их обработкой и анализом. К этому способу прибегают, когда предстоит обработать большой массив информации, с которым сложно справиться вручную. Понятно, что программу, которая занимается парсингом, называют — **парсер**. С этим вроде бы разобрались. Перейдем к этапам **парсинга**. * Поиск данных * Извлечение информации * Сохранение данных ### И так, рассмотрим первый этап парсинга — _Поиск данных_. Так как нужно парсить что-то полезное и интересное давайте попробуем спарсить информацию с сайта [work.ua]( https://www.work.ua/ru/ ). Для начала работы, установим 3 библиотеки Python. `pip install beautifulsoup4` Без цифры 4 вы ставите старый BS3, который работает только под Python(2.х). `pip install requests pip install pandas` Теперь с помощью этих трех библиотек Python, можно проанализировать нашу веб-страницу. ### Второй этап парсинга — _Извлечение информации_. Попробуем получить структуру html-кода нашего сайта. Давайте подключим наши новые библиотеки. import requests from bs4 import BeautifulSoup as bs import pandas as pd И сделаем наш первый get-запрос. URL_TEMPLATE = " https://www.work.ua/ru/jobs-odesa/?page=2" r = requests.get(URL_TEMPLATE) print(r.status_code) Статус 200 состояния HTTP — означает, что мы получили положительный ответ от сервера. Прекрасно, теперь получим код странички. print(r.text) Получилось очень много, правда? Давайте попробуем получить названия вакансий на этой страничке. Для этого посмотрим в каком элементе html-кода хранится эта информация. ` <h2 class="add-bottom-sm"><a href="/ru/jobs/3682040/" title="Комірник, вакансия от 5 ноября 2019">Комірник</a></h2> ` У нас есть тег h2 с классом «add-bottom-sm», внутри которого содержится тег a. Отлично, теперь получим title элемента a. [Читать дальше ->]( https://habr.com/ru/post/568334/?utm_source=habrahabr&utm_medium=rss&utm_campaign=568334#habracut ) https://habr.com/ru/post/568334/?utm_source=habrahabr&utm_medium=rss&utm_campaign=568334
hehe
Почему стоит научиться &
lt;< парсить>> сайты, или как написать свой первый парсер на Python
### В этой статье я постараюсь понятно рассказать о парсинге данных и его нюансах.
Для начала давайте разберемся, что же действительно означает на первый взгляд непонятное слово — **парсинг**. Прежде всего это процесс сбора данных с последующей их обработкой и анализом. К этому способу прибегают, когда предстоит обработать большой массив информации, с которым сложно справиться вручную. Понятно, что программу, которая занимается парсингом, называют — **парсер**. С этим вроде бы разобрались.
Перейдем к этапам **парсинга**.
* Поиск данных
* Извлечение информации
* Сохранение данных
### И так, рассмотрим первый этап парсинга — _Поиск данных_.
Так как нужно парсить что-то полезное и интересное давайте попробуем спарсить информацию с сайта [work.ua]( https://www.work.ua/ru/ ).
Для начала работы, установим 3 библиотеки Python.
`pip install beautifulsoup4`
Без цифры 4 вы ставите старый BS3, который работает только под Python(2.х).
`pip install requests
pip install pandas`
Теперь с помощью этих трех библиотек Python, можно проанализировать нашу веб-страницу.
### Второй этап парсинга — _Извлечение информации_.
Попробуем получить структуру html-кода нашего сайта.
Давайте подключим наши новые библиотеки.
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
И сделаем наш первый get-запрос.
URL_TEMPLATE = " https://www.work.ua/ru/jobs-odesa/?page=2" r = requests.get(URL_TEMPLATE)
print(r.status_code)
Статус 200 состояния HTTP — означает, что мы получили положительный ответ от сервера. Прекрасно, теперь получим код странички.
print(r.text)
Получилось очень много, правда? Давайте попробуем получить названия вакансий на этой страничке. Для этого посмотрим в каком элементе html-кода хранится эта информация.
`
<h2 class="add-bottom-sm"><a href="/ru/jobs/3682040/" title="Комірник, вакансия от 5 ноября 2019">Комірник</a></h2>
`
У нас есть тег h2 с классом «add-bottom-sm», внутри которого содержится тег a. Отлично, теперь получим title элемента a.
[Читать дальше ->]( https://habr.com/ru/post/568334/?utm_source=habrahabr&utm_medium=rss&utm_campaign=568334#habracut ) https://habr.com/ru/post/568334/?utm_source=habrahabr&utm_medium=rss&utm_campaign=568334