使用 requests 获取网页 HTML 并保存为本地文件
要求:
1.导入必要的库;
2.发送 HTTP GET 请求;
3.将响应内容写入文件(编码为 UTF-8);
4.打印查看响应文件的文本信息;
5.有必要的注释。
# 导入 requests 库,用于发送 HTTP 请求
import requests
# 设置目标网页 URL
url = "https://www.3dmgame.com/"
# 发送 GET 请求,获取响应对象
response = requests.get(url)
# 将网页内容保存到本地文件,编码为 UTF-8
with open("page.html", "w", encoding="utf-8") as f:
f.write(response.text)
# 打印网页 HTML 内容,调试用,可查看网页结构
print(response.text)
在上一题保存的page.html中,使用BeautifulSoup解析并提取所有<p>标签的文本内容,保存到paragraphs.txt文件中,每行一个段落。
要求:
1.导入必要的库、模块;
2.打开page.html文件;
3.解析 HTML 并提取指定标签;
4.处理文本中的空白字符(如换行、空格);
5.有必要的注释。
# 导入 BeautifulSoup(用于解析 HTML 内容)
from bs4 import BeautifulSoup
# 打开前面保存的 HTML 文件
with open("page.html", "r", encoding="utf-8") as f:
html = f.read()
# 使用 html.parser 创建解析器对象
soup = BeautifulSoup(html, "html.parser")
# 查找所有 <p> 标签并提取文本,strip=True 去除首尾空白
paragraphs = [p.get_text(strip=True) for p in soup.find_all("p")]
# 将段落逐行写入文本文件,每行一个段落
with open("paragraphs.txt", "w", encoding="utf-8") as f:
f.write("\n".join(paragraphs))
本文作者为wzzyhg,转载请注明。