网络爬虫 | 使用Python采集B站弹幕和评论数据
...
...
...
在以上的操作中,Step1 **找网址规律** 只要你把已经有规律性的内容丢给ta,ta能给你生成对应的代码。Step2 **发起访问** 这一步是需要我们重点测试的,因为chatgpt不能联网,一定确保访问ok,且获取的源代码中含有我们关注的信息。Step3 **解析数据** 把输入的html源代码和输出的数据中蕴含着规律丢给ta,需要重点检查 Step4 **存至csv** 没啥问题 Step5 **代码汇总** **Bug最多,最容易睁眼瞎写代码**。我明明采集hiadadeng.github.io, 结果有几次给我汇总的代码采集的是别的网站。定位方式偷换为BeautifulSoup。所以如果能懂爬虫五步法,可以自己负责提问题,负责每个环节的检查,最终的汇总Step5暂时不要交给chatGPT,还是留给我们自己吧。...
Journal of Marketing 2022年一篇关于营销领域使用网络爬虫收集数据的文献...
百度指数数据采集...