Agent 时代的工作流:Python 处理数据,AI 整理归纳,我的知识库全靠它了。
今天突发奇想,觉得这两年写了这么多技术干货,想着把它们全部备份到本地,整理成 Markdown 格式归档,方便以后检索和查看。
打开后台一看,头都大了:几十篇文章,大量的图片,复杂的格式。
如果要手动一篇篇复制粘贴,再把图片下载下来重新上传,最后还得手动写文件名、摘要、标签……这周末估计就别想休息了。
作为一名能用代码解决问题绝不动手的程序员,我把目光投向了最近爆火的 Claude Code。
既然 Claude Code 推出了 Skills(技能) 功能,允许我们通过自然语言定义工作流,那我能不能写一个 Skill,让它帮我自动把文章“存”下来?

说干就干。
🚨 遇到的第一个问题:直接读取失败
最开始,我天真地以为直接让 Claude 去访问文章链接就行。
结果发现,Claude Code 自带的浏览器工具(Fetch)无法直接解析正文内容,拿到的全是跳转提示或者验证页面的 HTML 代码。直接读取这条路走不通。
这时候就体现出 Agentic Workflow(代理工作流) 的价值了:
-
Claude (LLM):擅长理解意图、生成元数据(摘要、分类、文件名)、统筹全局。但它不擅长处理复杂的网络请求。
-
Python:拥有强大的生态,处理数据清洗、图片下载这种“脏活累活”最合适。
于是,我制定了 “Python 处理数据,Claude 处理脑力” 的组合战术。
🛠️ 第一步:Python 脚本(数据处理)
我写了一个 Python 脚本(其实是 ai 写的,我只负责复制),专门负责解决“读不到”的问题:
-
模拟正常的浏览器请求,获取网页源码。
-
解析页面中特殊的懒加载图片属性。
-
将所有图片下载到本地(这很重要,直接引用链接可能会因为过期或权限问题导致裂图)。
-
将 HTML 转换为通用的 Markdown 格式。
-
最后吐出一串干净的 JSON 数据给 AI 读取。

(部分核心代码片段)
Python
# scripts/wechat_to_md.py
def parse_url(url):
# ... 省略请求头配置 ...
soup = BeautifulSoup(response.text, 'html.parser')
# 核心逻辑:自动下载图片并替换为本地路径
imgs = content_div.find_all('img')
for img in imgs:
real_src = img.get('data-src')
if real_src:
# 下载图片到 src/assets/2026/xxx.jpg
local_path = download_image(real_src, year)
# 替换为 Markdown 可用的相对路径
img['src'] = local_path
# ... 转换为 Markdown 并输出 JSON ...
print(json.dumps(result))
🧠 第二步:Claude Skill(大脑担当)
这是最精彩的部分。我在项目里定义了一个 import-article 的 Skill。
我不需要写复杂的逻辑,我只需要用自然语言告诉 Claude:
“运行那个 Python 脚本,拿到数据后,你帮我把标题翻译成英文做文件名,写一段摘要,然后根据内容自动分类,最后保存文件。”
看看这个 Skill 的定义(Prompt),是不是像在教助手做事?
(SKILL.md 核心配置)
Markdown
## Tool Selection Rules
1. NEVER use `Fetch` on the URL. (禁止直接访问链接)
2. ALWAYS use `Run` to execute the python script. (必须运行脚本)
## Instructions
...
### Step 3: Metadata Gen (AI Task)
Using the parsed JSON:
1. **Slug**: Translate `title` to English kebab-case.
2. **Category**: Choose ONE from ['指南与教程', '实战与进阶', ...].
3. **Tags**: Generate 2-4 tags based on content.
4. **Frontmatter**: Construct the final file content...
🎬 见证奇迹的时刻
一切准备就绪,我在终端里只需要说一句话:
“使用 skill 备份这篇文章:文章链接 [https://mp.weixin.qq.com/s/xxx]”
(此处插入视频/GIF:展示终端输入命令后,Claude Code 自动调用 Python,然后输出 ”✅ Saved” 的流畅过程)
大家可以看到,Claude Code 瞬间完成了以下操作:
-
调用 Python 脚本获取到了干净的内容。
-
图片自动下载到了本地目录
src/assets/2026/。 -
它自动读懂了文章,把标题《…全攻略》翻译成了
antigravity-macos-guide作为文件名。 -
自动打上了
macOS、故障排除的标签。 -
最后生成了一个格式完美的 Markdown 文件。
(此处插入截图:左侧是 VS Code 的文件目录,显示图片和 MD 文件已生成;右侧是生成的 Markdown 文件内容预览,展示 Frontmatter 元数据)

🎉 成果展示
以前备份整理一篇文章可能要 20 分钟(复制、存图、改格式),现在只需要 3 秒钟。
而且最重要的是,数据完全掌握在自己手里。Markdown 格式配合本地图片,是目前最通用的知识管理格式。
这就是 AI Agent 的魅力:它不是简单的自动化脚本,它是一个能听懂人话、能做决策、还能帮你整理归纳的“超级员工”。
One More Thing…
备份文章只是基本操作,Claude Code Skill 的上限取决于你的脑洞。
它可以是你的代码审查员,也可以是你的自动化测试官,甚至可以是你的“赛博分身”。
你有没有开发出什么让同事直呼“卧槽”的 Skill 玩法?
评论区见,优秀的思路,我下期直接实战复现,送你上墙!😎
🎁 源码获取
如果你也想备份自己的文章,或者想学习如何编写这种“Python + AI”混合驱动的 Claude Skill。
关注公众号 【瓜皮程序】
后台回复关键词:文章 skill
即可获取完整的 Python 脚本和 Skill 配置文件!