python第二课，抓个网页练练手

且听风吟
1134
文章
16
评论
2025年12月11日00:16:07已关闭评论 148发布
前几年比较流行的就是抓网页，随然现在已经网站完全没啥用了，但是我觉得作为入门级别还是可以玩玩，毕竟阅读千遍不如亲自练练。
在Python中爬取网站数据，通常可以使用多种库，其中最常用的是requests和BeautifulSoup。这两个库结合起来非常强大，可以处理大部分网页的抓取需求。下面是一个简单的步骤指南，教你如何使用Python来爬取网站数据。

1. 安装必要的库

首先，你需要安装requests和BeautifulSoup。可以使用pip来安装这些库：

bash
Copy Code
pip install requests beautifulsoup4

2. 编写代码抓取网页
步骤1: 导入库
python
Copy Code
import requests
from bs4 import BeautifulSoup

步骤2: 发送HTTP请求

使用requests.get()方法发送一个HTTP请求到目标URL。

python
Copy Code
url = 'http://example.com'
response = requests.get(url)

步骤3: 检查响应状态

确保请求成功，通常HTTP状态码200表示成功。

python
Copy Code
if response.status_code == 200:
    print("成功获取网页！")
else:
    print("请求失败，状态码:", response.status_code)

步骤4: 解析网页内容

使用BeautifulSoup解析网页内容。

python
Copy Code
soup = BeautifulSoup(response.text, 'html.parser')

步骤5: 提取数据

使用BeautifulSoup的查找方法（如.find(), .find_all(), .select()等）来提取你感兴趣的数据。

python
Copy Code
# 例如，提取所有的链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

示例：抓取一个简单的HTML页面中的所有链接
python
Copy Code
import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    links = soup.find_all('a')
    for link in links:
        print(link.get('href'))
else:
    print("请求失败，状态码:", response.status_code)

注意：遵守爬虫协议和法律

在编写爬虫时，请确保遵守目标网站的robots.txt文件规则，并尊重网站的版权和使用条款。不要对网站进行过度的请求（如爬取频率过高），以免给网站服务器造成不必要的负担。对于一些需要登录的网站，你还需要处理登录过程，可能需要使用requests.Session()或selenium等工具。对于动态加载的内容，可以考虑使用selenium或分析Ajax请求。

使用Selenium处理动态内容加载的页面：

如果你需要处理JavaScript动态加载的内容，可以使用Selenium。首先需要安装Selenium：

bash
Copy Code
pip install selenium


然后下载对应浏览器的WebDriver（如ChromeDriver）。以下是一个使用Selenium的示例：

python
Copy Code
from selenium import webdriver
from bs4 import BeautifulSoup
import time

# 设置WebDriver路径（以Chrome为例）
driver_path = 'path/to/chromedriver'  # 替换为你的chromedriver路径
driver = webdriver.Chrome(driver_path)
driver.get('http://example.com')  # 打开目标URL
time.sleep(5)  # 等待页面加载完成（视具体页面而定）
html = driver.page_source  # 获取页面源代码
driver.quit()  # 关闭浏览器窗口
soup = BeautifulSoup(html, 'html.parser')  # 使用BeautifulSoup解析页面内容
# 提取数据...


这样你就可以抓取那些需要JavaScript渲染的动态内容了。