学习路径#

天数	学习目标	产出	耗时
第 1 天	用 5 行代码抓取网页标题	0 能运行、看到结果	20 分钟
第 2 天	学会用浏览器“检查”HTML 结构	能找到文章标题的标签	15 分钟
第 3 天	用 BeautifulSoup 提取多篇文章标题	打印出 5 篇文章标题	30 分钟
第 4 天	提取发布时间 + 链接	标题 + 时间 + 链接三件套	30 分钟
第 5 天	把结果保存到 `articles.txt` 文件	生成本地文件	20 分钟
第 6 天	处理常见问题（请求失败、找不到标签）	代码更健壮	25 分钟
第 7 天	自己爬一个新网站（比如豆瓣电影 Top250）	独立完成小项目	40 分钟

第一天#

用 5 行代码抓取网页标题#

PRTCL // PYTHON

1
import requests
2
#导入 requests 库，用于发送 web 请求
3
from bs4 import BeautifulSoup
4
#导入 Beautifulsoup,用于分析网页成分
5

6
#定义 url 链接
7
url = 'https://blog.echospace.top'
8
#使用 requestsh 中的.get 工具访问链接
9
response = requests.get(url)
10
#response 拉下来的是整个 HTML 网页，还需要用美丽汤进行分析
11
#美丽汤（获取的 HTML 使用 txt 格式，使用 html.parser 解析器进行解析
12
soup = BeautifulSoup(response.text, 'html.parser')
13

14
#在 soup 获取的结构中找到 <title> 标签，这是快捷描述，原意为 soup.find('title')
15
#.get_text() 是只提取目标标签中的纯文本，忽视标记等符号
16
title = soup.title.get_text()
17

18
#答应
19
print(title)

第三天#

学会用浏览器“检查”HTML 结构#

PRTCL // PYTHON

1
# =============================================
2
# 第 3 天：提取多篇文章标题
3
# 功能：抓取 https://blog.echospace.top 首页所有文章的标题
4
# 前置知识：你已通过“检查”知道标题在 <h2> 标签里，且每篇文章是 <div class="post"># =============================================
5

6

7
# 第 1 行：导入 requests，用于发送网络请求（就像浏览器打开网页）
8
# 不要修改这一行，所有爬虫都需要它
9
import requests
10

11
# 第 2 行：导入 BeautifulSoup，用于解析网页结构（帮你从 HTML 中找内容）
12
# 不要修改这一行
13
from bs4 import BeautifulSoup
14

15
# 第 3 行：设定目标网址（你的博客首页）
16
# 修改建议：如果你想爬别人的网站，改这里就行（但请遵守网站规则！）
17
url = "https://blog.echospace.top"
18

19
# 第 4 行：向目标网址发送 GET 请求，获取网页内容
20
# requests.get(url) 会返回一个“响应对象”，我们存到变量 response 里
21
# 注意：这一步可能会因网络问题失败，但你的博客一般不会
22
response = requests.get(url)
23

24
# 第 5 行：检查请求是否成功（状态码 200 表示成功）
25
# 为什么需要？避免网页打不开时程序出错
26
# response.status_code 是一个数字，200 = 成功，404 = 页面不存在，500 = 服务器错误
27
if response.status_code != 200:
28
    # 如果失败，打印错误信息并退出程序
29
    print(f"❌ 请求失败！状态码: {response.status_code}")
30
    print("可能原因：网络问题、网址写错、或网站拒绝访问")
31
    exit()  # exit() 是 Python 的“立即停止程序”命令
32
else:
33
    print("✅ 网页请求成功！")
34

35
# 第 6 行：用 BeautifulSoup 解析网页内容
36
# response.text 是网页的原始 HTML 字符串
37
# 'html.parser' 是 Python 自带的 HTML 解析器（不用额外安装）
38
# 结果存到变量 soup 里，后面用它来找标题
39
soup = BeautifulSoup(response.text, 'html.parser')
40

41
# 第 7 行：【关键步骤】找到所有文章的容器
42
# 根据你第 2 天的“检查”结果：
43
# - 所有文章都在 <div id="posts"> 里面
44
# - 每篇文章是一个 <div class="post"># 所以我们先找到 id="posts" 的大容器
45
posts_container = soup.find(id='posts')
46

47
# 第 8 行：如果没找到 id="posts"，说明结构变了或请求有问题
48
if posts_container is None:
49
    print("❌ 未找到 id='posts' 的容器！")
50
    print("请打开浏览器，右键 -> 检查，确认网页结构是否还是 <div id=\"posts\">")
51
    exit()
52

53
# 第 9 行：【核心】在 posts_container 里找到所有 class="post" 的 div# .find_all() 是 BeautifulSoup 的方法，作用是“找所有匹配的标签”
54
# 参数说明：
55
#   'div'          → 只找 <div> 标签
56
#   class_='post'  → 要求 class 属性等于 "post"# 返回一个“列表”，里面是所有匹配的元素
57
post_divs = posts_container.find_all('div', class_='post')
58

59
# 第 10 行：检查是否找到了文章
60
# len(post_divs) 是列表的长度（即文章数量）
61
if len(post_divs) == 0:
62
    print("❌ 未找到任何 class=\"post\" 的文章！")
63
    print("请检查网页结构是否变化")
64
    exit()
65

66
# 第 11 行：打印找到的文章数量
67
print(f"🔍 共找到 {len(post_divs)} 篇文章")
68

69
# 第 12 行：【遍历】每一篇文章，提取标题
70
# for 循环：对列表 post_divs 中的每一个元素（我们叫它 post），执行下面的操作
71
# enumerate() 的作用：给每篇文章加一个序号（从 1 开始），方便打印
72
for index, post in enumerate(post_divs, start=1):
73

74
    # ========== 提取标题 ==========    # 第 10 行：找 <a> 标签（因为 h2 在 a 里面）
75
    a_tag = post.find('a')
76
    if a_tag is None:
77
        title = "❗ 未找到链接标签"
78
        full_link = "无链接"
79
    else:
80
        # 第 11 行：从 a 标签里找 h2        h2_tag = a_tag.find('h2')
81
        if h2_tag is not None:
82
            # 第 12 行：提取标题文字，并去掉前后空格 / 换行
83
            title = h2_tag.get_text(strip=True)
84
        else:
85
            title = "❗ 未找到标题"
86

87
        # 第 13 行：获取链接（href 属性）
88
        href = a_tag.get('href')  # .get('href') 获取 <a href="..."> 里的 ...
89
        # 第 14 行：如果链接是相对路径（以 / 开头），拼接成完整 URL        if href and href.startswith('/'):
90
            full_link = "https://blog.echospace.top" + href
91
        elif href:
92
            full_link = href  # 已经是完整链接（少见）
93
        else:
94
            full_link = "无链接"
95

96
    # ========== 提取发布时间 ==========    # 第 15 行：找包含日期的 div（class="category-and-date"）
97
    date_div = post.find('div', class_='category-and-date')
98
    if date_div is None:
99
        publish_date = "❗ 未找到日期区域"
100
    else:
101
        # 第 16 行：在日期区域里找 class="date" 的 span        date_span = date_div.find('span', class_='date')
102
        category_span = date_div.find('span',class_='category')
103
        if date_span is None:
104
            publish_date = "❗ 未找到日期标签"
105
        else:
106
            # 第 17 行：提取 span 里的所有文本（可能包含图标 + 日期）
107
            raw_text = date_span.get_text(strip=True)
108

109
            # 第 18 行：按空白字符（空格、换行等）分割成列表
110
            # 例如 "📅 2025/12/18" → ['📅', '2025/12/18']
111
            parts = raw_text.split()
112

113
            # 第 19 行：取最后一个元素（通常是日期）
114
            # 如果分割后有内容，取最后一项；否则写“未知”
115
            if parts:
116
                publish_date = parts[-1]  # [-1] 表示“最后一个”
117
            else:
118
                publish_date = "未知日期"
119
        if category_span is None:
120
            publish_category = "！ 未找到分类"
121
        else:
122
            raw_text = category_span.get_text(strip=True)
123
            parts = raw_text.split()
124
            if parts:
125
                publish_category = parts[-1]
126
            else:
127
                publish_category = "未知类目"
128

129

130
    # ========== 打印结果 ==========    # 第 20 行：输出三件套
131
    print(f"{index}. {title}")
132
    print(f"   📅 时间: {publish_date}")
133
    print(f"   🔗 链接: {full_link}")
134
    print(f"   类别: {publish_category}\n")
135

136
    # 第 18 行：为了不输出太多，只打印前 5 篇（避免刷屏）
137
    if index >= 5:
138
        print("...（只显示前 5 篇）")
139
        break  # break 是“跳出循环”的命令

第五天#

把结果保存到 `articles.txt` 文件#

PRTCL // PYTHON

1
# =============================================
2

3
# 第 5 天：保存爬取结果到 articles.txt 文件
4

5
# 功能：抓取博客文章的标题、分类、时间、链接，并写入本地文本文件
6

7
# 优势：数据不再只在屏幕上一闪而过，而是永久保存，可分享、可备份
8

9
# 注意：本代码基于你博客的真实 HTML 结构（id="posts", class="post" 等）
10

11
# =============================================
12

13

14

15

16
# 第 1 步：导入必需工具
17

18
import requests
19

20
from bs4 import BeautifulSoup
21

22

23

24
# 第 2 步：设定目标网址
25

26
url = "https://blog.echospace.top"
27

28

29

30
# 第 3 步：发送网络请求
31

32
response = requests.get(url)
33

34

35

36
# 第 4 步：检查请求是否成功
37

38
if response.status_code != 200:
39

40
    print(f"❌ 请求失败！状态码: {response.status_code}")
41

42
    exit()
43

44
else:
45

46
    print("✅ 网页加载成功！")
47

48

49

50
# 第 5 步：解析网页
51

52
soup = BeautifulSoup(response.text, 'html.parser')
53

54

55

56
# 第 6 步：定位文章容器
57

58
posts_container = soup.find(id='posts')
59

60
if posts_container is None:
61

62
    print("❌ 未找到 id='posts' 的容器，请检查网页结构。")
63

64
    exit()
65

66

67

68
# 第 7 步：获取所有文章卡片
69

70
post_divs = posts_container.find_all('div', class_='post')
71

72
if len(post_divs) == 0:
73

74
    print("❌ 未找到任何文章。")
75

76
    exit()
77

78

79

80
# 第 8 步：【核心操作】打开文件，准备写入
81

82
# 'w' 模式：每次运行都会覆盖旧文件（适合更新最新文章）
83

84
# encoding='utf-8'：确保中文、表情符号能正确保存（非常重要！）
85

86
# with open(...) as f：安全写法，文件用完自动关闭，避免损坏
87

88
with open('BlogDate.txt', 'w', encoding='utf-8') as f:
89

90
    # 第 9 步：写入文件标题和分隔线（让文件更美观）
91

92
    f.write("我的博客文章列表\n")
93

94
    f.write("=" * 50 + "\n\n")  # 写入 50 个等号 + 换行
95

96

97

98
    # 第 10 步：只处理前 10 篇文章（避免文件过大）
99

100
    for index, post in enumerate(post_divs[:10], start=1):
101

102

103

104
        # --- 提取标题和链接 ---
105

106
        a_tag = post.find('a')
107

108
        if a_tag:
109

110
            h2_tag = a_tag.find('h2')
111

112
            title = h2_tag.get_text(strip=True) if h2_tag else "无标题"
113

114
            href = a_tag.get('href')
115

116
            # 拼接完整链接
117

118
            #href.startswith,用于检查是否是 / 开头
119

120
            #href.endswith,用于匹配结尾
121

122
            if href and href.startswith('/'):
123

124
                full_link = "https://blog.echospace.top" + href
125

126
            else:
127

128
                full_link = href or "无链接"
129

130
        else:
131

132
            title = "无标题"
133

134
            full_link = "无链接"
135

136

137

138
        # --- 提取分类和时间 ---
139

140
        date_div = post.find('div', class_='category-and-date')
141

142
        if date_div:
143

144
            # 提取分类
145

146
            category_span = date_div.find('span', class_='category')
147

148
            publish_category = category_span.get_text(strip=True) if category_span else "未找到分类"
149

150
            # 提取时间
151

152
            date_span = date_div.find('span', class_='date')
153

154
            if date_span:
155

156
                raw_date = date_span.get_text(strip=True)
157

158
                # 分割并取最后一部分（处理可能的图标）
159

160
                date_parts = raw_date.split()
161

162
                publish_date = date_parts[-1] if date_parts else "未知日期"
163

164
            else:
165

166
                publish_date = "未找到日期"
167

168
        else:
169

170
            publish_category = "未找到分类"
171

172
            publish_date = "未找到日期"
173

174

175

176
        # 第 11 步：【写入文件】将四件套按格式写入
177

178
        f.write(f"{index}. {title}\n")
179

180
        f.write(f"   🗂️ 分类: {publish_category}\n")
181

182
        f.write(f"   📅 时间: {publish_date}\n")
183

184
        f.write(f"   🔗 链接: {full_link}\n")
185

186
        f.write("\n")  # 空一行，分隔不同文章
187

188

189

190
    # 第 12 步：写入文件尾注（可选）
191

192
    f.write("-" * 50 + "\n")
193

194
    f.write("数据由 Python 爬虫自动生成 | 保存时间：运行时刻\n")
195

196

197

198
# 第 13 步：提示用户文件已生成
199

200
print("✅ 成功！结果已保存到当前目录的 articles.txt 文件中。")
201

202
print("👉 请用记事本、VS Code 或其他文本编辑器打开查看。")

关于我#

免费提供各种技术咨询，欢迎留言私信。

原创：汪多多是只猫专注分享实用开源工具和各种电脑技巧，让你的数字生活更自由！关注我，发现更多好玩的工具和实用的技巧！

1 直在和电脑打交道，从给大学生清灰到折腾黑苹果，修的是机器，交的是朋友。
0 距离帮你解决问题——不管是 WiFi 连不上、系统卡顿，还是想装双系统，尽管问。
7 年折腾没停过：Ubuntu 脚本、KVM 虚拟机、数据库…我的电脑永远在“测试中”。
8 成新技能靠实战：家里整了服务器，电费每个月飞起，个人虚拟机就有 40 个。
0 基础？我也从 Shell 脚本一行行学起。普通人技术进阶总会走这些路。
1 心想做点有用的事：写明白每一篇教程，讲清楚每一个报错，不让小白踩我踩过的坑。
5 点起床调虚拟机是常态，但看到你留言“搞定啦！”，就觉得值了。
3 更半夜还在跑日志脚本？别笑，这就是我——一个爱自动化的 Linux 宅。
1 直相信：技术不该高冷，它该帮你省时间、少焦虑、多自由。
4 处漂流也想稳稳搞技术，未来希望能远程工作，边为房车旅行努力，边维护我的 40 台虚拟机 😄

爬虫

学习路径#

第一天#

用 5 行代码抓取网页标题#

第三天#

学会用浏览器“检查”HTML 结构#

第五天#

把结果保存到 `articles.txt` 文件#

关于我#

Related Posts

Comments

学习路径#

第一天#

用 5 行代码抓取网页标题#

第三天#

学会用浏览器“检查”HTML 结构#

第五天#

把结果保存到 articles.txt 文件#

关于我#

Related Posts

Comments

把结果保存到 `articles.txt` 文件#