点击上方?公众号?关注我✅
你好啊,我是雨飞,见字如面。感谢阅读,期待我们下一次的相遇。

之前在Cursor实战中,给大家讲过如何利用Cursor去完成简单的谷歌插件的制作,整体耗时不超过3分钟。最近,有不少船员在询问关于爬虫的事情,今天雨飞就和大家简单分享下如何利用Cursor去制造一个静态网页的爬虫。
值得注意的是,爬虫本身具有一定的风险,爬取别人的网站一定要遵循网站的robots.txt文件,控制好爬取的速度以及频率。
我们以下面这个网页为例,去进行爬取。
https://tophub.today/n/KqndgxeLl9
打开网站的源代码(Ctrl+U),可以看到所有的内容都展示在网站上,因此这种静态网站是比较容易爬取的。另外,可以使用官方提供的API接口去接受数据,这个更方便快捷,推荐使用。API接口:https://www.tophubdata.com/
使用Cursor去生成提示词,然后完成爬虫代码。
提示词:
请帮我编写一个 Python 程序,去爬取微博的热榜。要求:1、使用 requests 和 python32、目标网站:https://tophub.today/n/KqndgxeLl93、爬取表格中热榜的序号、名字、热度、链接,并保存到 csv 文件里。请一步步思考,你可以先打开目标网站分析其网页结构,并编写代码。
在这个提示词,雨飞使用了COT的提示词书写技巧,让大模型一步步思考,先分析网站结构然后编写代码,这样生成的代码成功率就会更高。
也可以进一步和Cursor对话,去优化代码。
这样,一个简单的爬虫程序就完成了,部署好python的环境后可以直接运行。
值得注意的是,当前这个网站是一个静态网页,也就是所有展示出来的内容,都在网页源代码里,这种可以直接使用雨飞提供的提示词去开发。但是,还有很多网站内容根据用户的请求或交互动态生成,通常涉及服务器端脚本(如PHP、Python、Node.js等)和数据库交互,这种通过渲染生成的网页被称为动态网页,可以使用Selenium去抓取动态网页。
后面,会陆续更新更多的爬虫技巧。
❤️常驻小尾巴❤️
加微 1060687688,备注「公众号」,送你一份「AI工具大全与变现指南」
