Python爬蟲程式設計思想(49):Beautiful Soup環境搭建

語言: CN / TW / HK

目錄

1. Beautiful Soup簡介

2. 安裝Beautiful Soup

1. Beautiful Soup簡介

Beautiful Soup是一個強大的基於Python語言的XML和HTML解析庫,可以用它來方便地從網頁中提取資料,那麼Beautiful Soup到底有什麼功能呢?先看一段對Beautiful Soup的標準解釋。

Beautiful Soup提供了一些簡單的函式來處理導航、搜尋、修改分析樹等功能。它是一個工具箱,通過解析文件為使用者提供需要抓取的資料,由於Beautiful Soup非常簡單,所以可以用非常少的程式碼寫出一個完整的HTML分析程式,再加上requests庫,可以寫出非常簡潔且強大的爬蟲應用。

Beautiful Soup自動將輸入的文件轉換為Unicode編碼,輸出文件轉換為UTF-8編碼,所以在使用Beautiful Soup的過程中並不需要考慮編碼問題,除非文件沒有指定編碼方式,這時只需要指出輸入文件的編碼方式即可。