一个晚上,我爬了这个公众号的所有推送。。。
Posted on
事情的起源是这样的,昨晚我想看一下前几年的推送,了解一下历史嘛,毕竟萌新。
但是呢,手机翻起来很慢,bjres.net上只有文字,图是没有的(编辑:有图啊,点开每个文章就有了……),必须点到微信看原文。
搜狗搜一下再看?可是我本来就是漫无目的乱看,也不知道该搜啥……
弄个RSS?貌似也只有最新的。
于是心生一计,写个爬虫爬下来看呢?
行动力很关键,白嫖党迅速打开了G**hub,找到了一个1月份才更新的Repo,Git clone…下Fiddler4 抓包...获取全部历史文章Json数据……···Python start.py…一切顺利!
除了遇到微信服务器返回空数据…还遭遇反爬机制被暂停web访问文章几个小时
总之,在大约十秒整一篇的速度下,一个晚上断断续续总算是扒下来了。
起始时间2015年4月26日,截止时间2020年2月19日。一共2943篇推送(编辑:这数字不对……肯定是漏爬了什么,写本文的时候统计稿件超过4600了),大小3.5G。
爬下来了,干点啥好呢。。
这样只有日期也不好看,要不转成PDF吧
这下可以挑着看了。
嗯。。搞完了这些。。感觉意犹未尽。。额。。要不。。整个词频分析?
于是提取出了一个大小10.6M的TXT文档,放到了一个随手搜出来的词云生成网站。
一开始没抱希望,这么大量,能受得了么?在线不行的话只能本地整。谁成想,这网站反过头来提醒我:
看起来有戏!
五年啊,水了400多万字呢……够二十本长篇小说了。
然后就是成果:
还挺好看的不是~亮点自寻,寻不到也不要找我!
自动生成的,我就调了个颜色。
水完了,揉揉请给我稿费,要是打赏能归我,也不要脸的求打赏。(编辑:微信现在加不了其他打赏……)
各取所需:
如果你也想随便翻翻,请保存PDF版然后在线看:
https://drive.google.com/open?id=1fKDKA0y5Z27TH7vO7-R-H36mx0hiBhQ6
秘技:保存之后就可以按关键字搜索,比搜狗快一万倍!
如果你也想弄一下词频分析,研究下邓大哥和小姐姐的出场频率谁高谁低。
请下载Html文件包:
https://drive.google.com/open?id=1NuHgDDlMfX9T-fhZ-IhcFf0gLRXlHaKo
[原汁原味,留档必备。美中不足的是没有视频]
[按说建个站弄个索引效果更好,但是我没有qian。]
[按说弄个动态的词云,还能点进去看相关文章的那种,效果更好。但是我没有那个shui平]
参考资料:
1.Github/vWeChatCrawl
https://github.com/LeLe86/vWeChatCrawl
2.词云生成-微词云
https://www.weiciyun.com/
欢迎关注我们的同步渠道
Telegram - https://t.me/IngressBeijing
Twitter - @ingressbeijing
网站 - https://bjres.net
投稿请发邮件至 tougao@bjres.net
请务必投稿后联系 @AlexRowe 确认稿件到达
Telegram - @alexrowe
QQ - 350259971