A
Android
Original poster
Есть несколько пакетов в Python, которые позволяют нам очищать информацию от интернет-страниц. Один из наиболее распространенных - BeautifulSoup.
BeautifulSoup позволяет нам разбирать содержание HTML данного URL и получать доступ к его элементам, отождествляя их с их признаками. Поэтому мы будем использовать его, чтобы извлечь определенные части текста с веб-сайтов.
Это - чрезвычайно простой в использовании, но все же сильный пакет. Почти с 3-5 линиями кодекса мы будем в состоянии извлечь любой текст, который мы хотим от Интернета.
Чтобы установить его, пожалуйста, напечатайте следующий кодекс в свое распределение Python:
! pip install beautifulsoup4
Чтобы предоставить BeautifulSoup HTML-код любой страницы, мы должны будем также импортировать модуль запросов. Чтобы установить его, если это уже не включено в Ваше распределение питона, пожалуйста, напечатайте:
! pip install requests
Мы будем использовать модуль запросов, чтобы получить HTML-код от страницы и затем провести через него с пакетом BeautifulSoup. Мы будем учиться использовать две команды, которые будут достаточно для нашей задачи:
find_all (признак элемента, признак): это позволяет нам определять местонахождение любого элемента HTML от интернет-страницы, вводящей ее признаки. Эта команда определит местонахождение всех элементов того же типа. Чтобы получить только первый, мы можем использовать, находят () вместо этого.
get_text (): как только мы определили местонахождение данного элемента, эта команда позволит нам извлекать текст внутри.
Так, в этом пункте, что мы должны сделать, должны провести через HTML-код нашей интернет-страницы (например, в Google Chrome, мы должны войти в интернет-страницу, нажать кнопку щелчка правой кнопкой мыши, чтобы Видеть исходный код), и определить местонахождение элементов, которые мы хотим очистить. Мы можем просто сделать этот с помощью Ctrl F или Cmd F, как только мы видим исходный код.
Как только мы определили элементы интереса, мы получим HTML-код с модулем запросов и извлечем те элементы с BeautifulSoup.
На данном этапе мы в состоянии извлечь содержание различных новостных статей.