Cursor实战:热榜网页爬虫


点击上方?公众号?关注我✅


你好啊,我是雨飞,见字如面感谢阅读,期待我们下一次的相遇。

之前在Cursor实战中,给大家讲过如何利用Cursor去完成简单的谷歌插件的制作,整体耗时不超过3分钟。最近,有不少船员在询问关于爬虫的事情,今天雨飞就和大家简单分享下如何利用Cursor去制造一个静态网页的爬虫。

值得注意的是,爬虫本身具有一定的风险,爬取别人的网站一定要遵循网站的robots.txt文件,控制好爬取的速度以及频率

我们以下面这个网页为例,去进行爬取。

https://tophub.today/n/KqndgxeLl9


打开网站的源代码(Ctrl+U),可以看到所有的内容都展示在网站上,因此这种静态网站是比较容易爬取的。另外,可以使用官方提供的API接口去接受数据,这个更方便快捷,推荐使用。API接口:https://www.tophubdata.com/

使用Cursor去生成提示词,然后完成爬虫代码。

提示词:

请帮我编写一个 Python 程序,去爬取微博的热榜。要求:1、使用 requests 和 python32、目标网站:https://tophub.today/n/KqndgxeLl9 3、爬取表格中热榜的序号、名字、热度、链接,并保存到 csv 文件里。
请一步步思考,你可以先打开目标网站分析其网页结构,并编写代码。

在这个提示词,雨飞使用了COT的提示词书写技巧,让大模型一步步思考,先分析网站结构然后编写代码,这样生成的代码成功率就会更高。

也可以进一步和Cursor对话,去优化代码。

这样,一个简单的爬虫程序就完成了,部署好python的环境后可以直接运行。

值得注意的是,当前这个网站是一个静态网页,也就是所有展示出来的内容,都在网页源代码里,这种可以直接使用雨飞提供的提示词去开发但是,还有很多网站内容根据用户的请求或交互动态生成,通常涉及服务器端脚本(如PHP、Python、Node.js等)和数据库交互种通过渲染生成的网页被称为动态网页,可以使用Selenium去抓取动态网页

后面,会陆续更新更多的爬虫技巧。

❤️常驻小尾巴❤️

加微 1060687688备注「公众号」,送你一份AI工具大全与变现指南

推荐阅读

「雨飞同行」这是雨飞的介绍(第8版,交个朋友,限时送福利)

请使用浏览器的分享功能分享到微信等