Памятки

Beautiful Soup

Beautiful Soup

Beautiful Soup - это библиотека Python, которая используется для извлечения данных из HTML и XML файлов. Она предоставляет удобные методы для парсинга и навигации по структурам документов.

Вот основные функции и методы Beautiful Soup:

1. BeautifulSoup(markup, parser) - создает объект BeautifulSoup из HTML или XML разметки. Параметр markup содержит разметку (html код), а parser указывает парсер (например, 'html.parser').

2. soup.find(name, attrs, recursive, string) - находит первый тег с указанным именем (name). Можно использовать дополнительные параметры, такие как attrs (словарь атрибутов, к примеру {"class": "класс_тега"), recursive (указывает, нужно ли искать во вложенных элементах) и string (искать по тексту элемента, к примеру string="текст в теге"). Возвращает объект тега.

3. soup.find_all(name, attrs, recursive, string) - находит все элементы с указанным именем (name). Аргументы attrs, recursive и string также могут использоваться (смотр. функцию soup.find).

4. tag.name - возвращает имя тега (пример: input).

5. tag.text – возвращает текст тега (пример: "текст в теге").

6. tag.get(attribute) - возвращает значение указанного атрибута элемента (пример: href).

7. tag.contents - возвращает список всех дочерних тегов (на пример все теги внутри body, тег head не будет выведен т.к. он не дочерний элемент body).

8. tag.parent - возвращает родительский тег (к примеру код <tr><td>1</td></tr>, у нас есть тег td и используя tag.parent мы можем получить tr).