Семаль - Как очистить веб-страницы?

Beautiful Soup - это библиотека Python, широко используемая для очистки веб-страниц путем создания дерева разбора из документов XML и HTML. Соскреб в Интернете, метод извлечения данных с веб-сайтов и страниц, широко используется в областях анализа данных и управления ими. В большинстве случаев язык программирования Python является необходимым условием в науке о данных.

В Python 3 есть инструменты и модули, которые вы можете применить к своему проекту управления данными. В настоящее время работает как Beautiful Soup 4, этот модуль совместим с Python 3 и Python 2.7. Модуль Beautiful Soup 4 также способен создавать дерево разбора для незакрытого тега супа. В этом руководстве вы узнаете, как очистить страницу и записать очищенные данные в файл CSV.

Начиная

Для начала настройте сервер или локальную среду программирования Python на своем ПК. Вам также следует установить на свой компьютер модуль Beautiful Soup and Requests. Знание работы с обоими модулями также является необходимым условием. Знакомство с тегами и структурой HTML также является дополнительным преимуществом.

Понимание ваших данных

В этом контексте реальные данные из Национальной художественной галереи помогут вам понять, как использовать Beautiful Soup 4. Национальная художественная галерея состоит из 120 000 произведений, которые сделаны примерно 13 000 художников. Искусство базируется в Вашингтоне, округ Колумбия, США.

Извлечение веб-данных с Beautiful Soup не так сложно. Например, если вы сосредоточены на букве Z, отметьте и запишите имя в списке. В данном случае первое имя - Забалья, Никкола. Для согласованности укажите количество страниц и имя последнего исполнителя на этой странице.

Как импортировать библиотеку «Запросы» и «Красивый суп»

Чтобы импортировать библиотеки, активируйте среду программирования Python 3. Убедитесь, что вы находитесь в одном каталоге с вашей средой программирования. Запустите следующую команду, чтобы начать. my_env / бен / активировать.

Создайте новый файл и начните импортировать библиотеки Beautiful Soup и Requests. Библиотека запросов позволит вам использовать HTTP в программах Python в удобочитаемых форматах. Красивый Суп, с другой стороны, работает, чтобы быстро поцарапать страницы. Используйте bs4 для импорта Beautiful Soup.

Как собрать и разобрать веб-страницу

Используя запросы собирать URL вашей первой страницы. URL первой страницы будет назначен переменной странице. Создайте объект BeautifulSoup из Requests и проанализируйте объект из анализатора Python.

Цель этого урока - собрать ссылки и имена художников. Например, вы можете собирать даты художников и национальностей. Для пользователей Windows, щелкните правой кнопкой мыши на имени исполнителя. В этом случае используйте Zabaglia, Niccola. Для пользователей Mac OS нажмите «CTRL» и нажмите на имя. Нажмите «Inspect Element» меню, которое появляется на вашем экране, чтобы получить доступ к инструментам веб-разработчиков. Распечатайте имена художников, чтобы Beautiful Soup быстро разбирал дерево.

Удаление нижних ссылок

Чтобы удалить нижние ссылки на вашей веб-странице, проверьте DOM, щелкнув правой кнопкой мыши элемент. Вы обнаружите, что ссылки находятся под таблицей HTML. Используя Beautiful Soup, используйте «метод декомпозиции» для удаления тегов из дерева разбора.

Как вытащить контент из тега

Вам не нужно печатать весь тег ссылки, используйте Beautiful Soup, чтобы удалить материал из тега. Вы также можете захватывать URL-адреса, связанные с художниками, используя Beautiful Soup 4.

Захват очищенных данных в файл CSV

Файл CSV позволит вам хранить структурированные данные в виде простого текста, формат, который в основном используется для таблиц данных. Рекомендуется знание работы с простыми текстовыми файлами в Python.

Извлечение веб-данных используется для очистки страниц и получения информации. Будьте внимательны к веб-сайтам, с которых вы извлекаете информацию. Некоторые динамические веб-сайты ограничивают извлечение веб-данных на своих сайтах. Очистить страницу с помощью Beautiful Soup и Python 3 - это так просто.