专业的编程技术博客社区

网站首页 > 博客文章 正文

小红书单个笔记数据采集(小红书爬虫,获取博主的笔记列表)

baijin 2024-08-28 11:34:01 博客文章 3 ℃ 0 评论

点击上方卡片关注,您的关注是我持续更新优质文章的动力。


功能、效果说明

之前就有考虑过做一个小红书单个笔记的数据采集的功能。

笔记页面有图片、标题、描述信息、评论。

如若存在其他信息:地点、话题、艾特用户等。后续也会将此类信息归纳整理。

这个功能完整版包含了

  1. 采集下载所有图片到指定目录。
  2. 笔记描述保存成文本数据文件。
  3. 评论单独保存为一个文本数据文件。

效果演示

请求笔记详情页的接口可以获得以下数据。

写入到csv文件的数据结构大概如下图所示。

实现思路

先前有做过小红书关键词采集功能。

在那个功能中,我可以获得笔记基础信息。

在采集结果文件中有笔记的id

我们只需要把id加上url前缀,就可以拿到指定笔记页面主要的数据。

再借助程序,采集该页面的数据即可。

实现代码

以下是获取笔记数据并写入csv文件的相关代码。

实现原理

request模拟get请求小红书微信端的笔记详情接口。

就可以拿到所有的笔记详情页的基础数据。

用csv简单处理数据,将所有数据写入到csv文件中。

这个保存了笔记详情页数据的文件可以用于后续完整功能的编写。

总结与拓展

采集单个小红书笔记有助于我们对高赞高质量笔记进行内容分析。

对于内容运营者的我们,可以学习他们优秀的地方。

只有知己知彼方能百战不殆。

希望这个点子能帮助你我创作出更优质的小红书笔记。


是哪个:

金九亿

95后进化不完全的前后端不分离程序猿。

我的关键词

2015-2018:社团、交友、恋爱、兼职。

2018-2019:创业、路演、校招。

2019-2022:职场、健身。

2022~未来:表达。

我的信条

坚持健身,持续学习,刻意表达。

我的目标

从现在开始,我刻意练习表达能力,为了更好地进化。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表