点击上方?公众号?关注我✅

你好啊，我是雨飞，见字如面。感谢阅读，期待我们下一次的相遇。

之前在Cursor实战中，给大家讲过如何利用Cursor去完成简单的谷歌插件的制作，整体耗时不超过3分钟。最近，有不少船员在询问关于爬虫的事情，今天雨飞就和大家简单分享下如何利用Cursor去制造一个静态网页的爬虫。

值得注意的是，爬虫本身具有一定的风险，爬取别人的网站一定要遵循网站的robots.txt文件，控制好爬取的速度以及频率。

我们以下面这个网页为例，去进行爬取。

https://tophub.today/n/KqndgxeLl9

打开网站的源代码（Ctrl+U），可以看到所有的内容都展示在网站上，因此这种静态网站是比较容易爬取的。另外，可以使用官方提供的API接口去接受数据，这个更方便快捷，推荐使用。API接口：https://www.tophubdata.com/

使用Cursor去生成提示词，然后完成爬虫代码。

提示词：

请帮我编写一个 Python 程序，去爬取微博的热榜。要求：1、使用 requests 和 python32、目标网站：https://tophub.today/n/KqndgxeLl9 3、爬取表格中热榜的序号、名字、热度、链接，并保存到 csv 文件里。
请一步步思考，你可以先打开目标网站分析其网页结构，并编写代码。

在这个提示词，雨飞使用了COT的提示词书写技巧，让大模型一步步思考，先分析网站结构然后编写代码，这样生成的代码成功率就会更高。

也可以进一步和Cursor对话，去优化代码。

这样，一个简单的爬虫程序就完成了，部署好python的环境后可以直接运行。

值得注意的是，当前这个网站是一个静态网页，也就是所有展示出来的内容，都在网页源代码里，这种可以直接使用雨飞提供的提示词去开发。但是，还有很多网站内容根据用户的请求或交互动态生成，通常涉及服务器端脚本（如PHP、Python、Node.js等）和数据库交互，这种通过渲染生成的网页被称为动态网页，可以使用Selenium去抓取动态网页。

后面，会陆续更新更多的爬虫技巧。

❤️常驻小尾巴❤️

加微 1060687688，备注「公众号」，送你一份「AI工具大全与变现指南」

推荐阅读

「雨飞同行」这是雨飞的介绍（第8版，交个朋友，限时送福利）

Cursor实战：热榜网页爬虫