3dm 大题 | 多肉Blog

使用 requests 获取网页 HTML 并保存为本地文件

要求：
1.导入必要的库；
2.发送 HTTP GET 请求；
3.将响应内容写入文件（编码为 UTF-8）；
4.打印查看响应文件的文本信息；
5.有必要的注释。

# 导入 requests 库，用于发送 HTTP 请求
import requests

# 设置目标网页 URL
url = "https://www.3dmgame.com/"

# 发送 GET 请求，获取响应对象
response = requests.get(url)

# 将网页内容保存到本地文件，编码为 UTF-8
with open("page.html", "w", encoding="utf-8") as f:
    f.write(response.text)

# 打印网页 HTML 内容，调试用，可查看网页结构
print(response.text)

在上一题保存的page.html中，使用BeautifulSoup解析并提取所有`<p>`标签的文本内容，保存到paragraphs.txt文件中，每行一个段落。

要求：
1.导入必要的库、模块；
2.打开page.html文件；
3.解析 HTML 并提取指定标签；
4.处理文本中的空白字符（如换行、空格）；
5.有必要的注释。

# 导入 BeautifulSoup（用于解析 HTML 内容）
from bs4 import BeautifulSoup

# 打开前面保存的 HTML 文件
with open("page.html", "r", encoding="utf-8") as f:
    html = f.read()

# 使用 html.parser 创建解析器对象
soup = BeautifulSoup(html, "html.parser")

# 查找所有 <p> 标签并提取文本，strip=True 去除首尾空白
paragraphs = [p.get_text(strip=True) for p in soup.find_all("p")]

# 将段落逐行写入文本文件，每行一个段落
with open("paragraphs.txt", "w", encoding="utf-8") as f:
    f.write("\n".join(paragraphs))

本文作者为wzzyhg，转载请注明。

使用 requests 获取网页 HTML 并保存为本地文件

在上一题保存的page.html中，使用BeautifulSoup解析并提取所有<p>标签的文本内容，保存到paragraphs.txt文件中，每行一个段落。

在上一题保存的page.html中，使用BeautifulSoup解析并提取所有`<p>`标签的文本内容，保存到paragraphs.txt文件中，每行一个段落。