本站木有非理性广告和有害内容,请大度地将本站加入广告屏蔽白名单吧~~~ ::博客文章推荐::

赋闲生活报告 · Day 25

: 活着 木魚 1349℃ 0评论

由于今天日更了,所以今天续航不咋行,很快就会到文尾了。

我是路标

总结了一下三周多的赋闲生活后,在生活方面的手艺长进情况。

从整体来看,经过这三周多的磨炼,我已经熟练掌握了很多生活必备技能。

如使用洗衣机洗衣服,用马桶冲水,用热水器洗澡等。

在餐饮方面,我已经对诸如泡面、煮水饺、煮粥、蒸包子、蒸烧麦、煎饼、煎锅贴等技能烂熟于心。

除此以外对蚝油生菜、排骨汤有了初步的入门,并大大提升了对它们的好感度。

在以上内容之外,还与盒马、饿了么、清美、京东、淘宝、PDD等电商及外卖平台达成了密切的合作关系,以饿了么为例,本月截止目前为止,发生的业务往来同比增加1000%,为近五年来的新高。

不得不说业务往来一派欣欣向荣啊。

这两周干的最正经的事儿就是帮一个朋友写了一个数据爬虫。

她是负责运营的,外部达人合作后对内容的质量需要进行回顾,于是会有一大批链接在各个不同的平台上,他们的现状是人工一个一个链接看数据。

工作量确实大了些,然后她找了下市面上有没有此类的工具也没找到,就问我是不是可以做。

我寻思着刀太久不用也会钝,反正纯躺也是蹉跎岁月,不如找点儿有意思的事儿干干得了,于是就应了下来。

她让我开个价。

我寻思着这还开啥价……就当玩具写了,友情帮忙,毕竟友情无价,所以没啥可开的。

她说主要是XHS和DY的平台,如果可以的话DP也请帮忙搞一下。

我开始的时候就琢磨着这个东西么……既然只是友情帮忙一下,也不是准备后面长期维护的,亦不是什么正经的商业项目,那应该不用讲究那么多了罢。

于是一开始的时候我就想着怎么简单怎么来得了。短平快,能用就行。什么设计模式设计原则,什么可维护性健壮性用户体验啥的,统统靠边站。

但是后来断断续续写的过程中就很痛苦。

因为看着明明可以用更好的设计模型更具可扩展性的解耦设计,却因为觉得怎么简单怎么来就按照简单直接的方式来写,就越来越觉得别扭。

所以最终一边写一边看不下去重构,搞到最后什么DI 单例 服务化 工厂模式 接口抽象 服务自动发现挂载什么鬼的还是全都给安排上了。

早知如此何必当初呢,还不如一开始就这么干呢。

在写爬虫测试的过程中,也慢慢发现朋友给的示例数据列表中的一万多链接里,除了XHS和DP外,还有WB啊Douban啊B站这些链接,而链接类型里除了短文还有视频,虽然比例不高她也没说需要,但本着送佛送到西的原则,一并给支持了。

所以,原始需求是XHS和DY最好再加上DP的数据,最后我给的是支持了六大平台、十七种链接格式的数据爬虫。

在交付给她的那天,还特地写了使用文档及演示视频。

嗯,我忽然觉得自己很敬业有没有。

这个工具是帮她定制的,所以就不放出来了,不过拿个截图晒晒应该可以的哦?朋友不会揍我吧 78.gif 

最终的感受是,搞数据爬虫还是比较麻烦的,尤其是DP这种JSON数据格式结构清奇的站点。

前东家之前在线办公系统用得很乱。

很长一段时间里用的都是石墨文档。

石墨文档是需要付费的。

后来因为想要统一文档加上降低成本(其实就是想白嫖腾讯文档),石墨就被放弃了。

然后石墨文档里好多年的文档不能说扔就扔呀。

于是我就写了一个工具来导出自己账号里的内容。

其实工具是三年前写的。今年又要用,便翻出来重新迭代了一下,支持断点续传、文件更新、自动重试(石墨对导出数量及速度有限制)、共享文档、空间等一系列文档的下载。

闲来无事,开个源吧。

Gayhub 鱼的个人Gitea

需要用的拿去用,Github上有编译后的程序。有兴趣看看代码的随便看。

开源的意思是,没有技术支持,纯粹技术交流。

喜欢 (1)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址