点击查看微信稿件原文






 
 
 

点击上方蓝字关注
#IngressBeijing
Ingress Beijing
 
 
 


事情的起源是这样的,昨晚我想看一下前几年的推送,了解一下历史嘛,毕竟萌新。


但是呢,手机翻起来很慢,bjres.net上只有文字,图是没有的(编辑:有图啊,点开每个文章就有了……),必须点到微信看原文。


搜狗搜一下再看?可是我本来就是漫无目的乱看,也不知道该搜啥……


弄个RSS?貌似也只有最新的。


于是心生一计,写个爬虫爬下来看呢?


此为背景。
[ 友情提示,如果不想看过程只想白嫖请跳到最后 ]


行动力很关键,白嫖党迅速打开了G**hub,找到了一个1月份才更新的Repo,Git clone…下Fiddler4 抓包...获取全部历史文章Json数据……···Python start.py…一切顺利!


除了遇到微信服务器返回空数据…还遭遇反爬机制被暂停web访问文章几个小时



总之,在大约十秒整一篇的速度下,一个晚上断断续续总算是扒下来了。


起始时间2015年4月26日,截止时间2020年2月19日。一共2943篇推送(编辑:这数字不对……肯定是漏爬了什么,写本文的时候统计稿件超过4600了,大小3.5G。


爬下来了,干点啥好呢。



这样只有日期也不好看,要不转成PDF吧



这下可以挑着看了。


嗯。搞完了这些。感觉意犹未尽。额。要不。整个词频分析?

于是提取出了一个大小10.6M的TXT文档,放到了一个随手搜出来的词云生成网站。


一开始没抱希望,这么大量,能受得了么?在线不行的话只能本地整。谁成想,这网站反过头来提醒我:



看起来有戏!


五年啊,水了400多万字呢……够二十本长篇小说了。


然后就是成果:





还挺好看的不是~亮点自寻,寻不到也不要找我!


自动生成的,我就调了个颜色。



水完了,揉揉请给我稿费,要是打赏能归我也不要脸的求打赏。(编辑:微信现在加不了其他打赏……)



最后成果大放送

各取所需:

  • 如果你也想随便翻翻,请保存PDF版然后在线看:


https://drive.google.com/open?id=1fKDKA0y5Z27TH7vO7-R-H36mx0hiBhQ6

秘技:保存之后就可以按关键字搜索,比搜狗快一万倍!


  • 如果你也想弄一下词频分析,研究下邓大哥和小姐姐的出场频率谁高谁低。


请下载Html文件包:

https://drive.google.com/open?id=1NuHgDDlMfX9T-fhZ-IhcFf0gLRXlHaKo


[原汁原味,留档必备。美中不足的是没有视频]


[按说建个站弄个索引效果更好,但是我没有qian。]


[按说弄个动态的词云,还能点进去看相关文章的那种,效果更好。但是我没有那个shui平]


参考资料:

1.Github/vWeChatCrawl  

https://github.com/LeLe86/vWeChatCrawl


2.词云生成-微词云  

https://www.weiciyun.com/


欢迎关注我们的同步渠道


Telegram - https://t.me/IngressBeijing

Twitter - @ingressbeijing

网站 - https://bjres.net

投稿请发邮件至 tougao@bjres.net


请务必投稿后联系 @AlexRowe 确认稿件到达

Telegram - @alexrowe

QQ - 350259971


戳原文访问网站对历史文章进行搜索。