这两天,又一个关于新冠肺炎的 GitHub 登上了中文趋势榜的首位,截至目前,已经收获近 5K Star,600+ Fork。

项目介绍

nCovMemory  项目的中文名称是「2020新冠肺炎记忆:报道、非虚构与个人叙述」,创立该项目的目的是为研究人士提供方便自然语言处理、疫情防治取用相关资料的资料库。

资料库中收录了 2020  年新型冠状病毒感染的肺炎相关媒体报道、非虚构作品和亲历者个人叙述。所有的内容均来源于网络,一个完整的条目从可信的信源收录内容,包括日期、标题、原始  URL、截图、archive 等要素,并且暂时不收录评论、分析、科普等类别的作品。

项目的具体结构如下:

├─archive                          文章的存档,目前提供jpg格式│   └─jpg│    ├─1.jpg│    └─...├─data                              csv格式的文章数据│  └─data.csv├─docs                              一个用于展示README的github page├─gh- page├─template                         README模板│   └─README.handlebars├─utils                            构建README 的工具│  ├─generateReadmeFromCsv.js│  └─...└─README.md                         主文档

项目意义何在?

毫无疑问,这次的疫情已经成为了一场全民战争。从最开始的武汉加油到现在的中国加油,我们不停的讨论着疫情的发展。

我们会为在疫情中失去生命的人员痛惜,为医护人员、抗疫一线人员的奉献精神所感动;我们会自我隔离、随时佩戴戴口罩,这些都是我们力所能及的小事儿,但我们每一个人都在为抗疫胜利而努力。

但不管最终结果如何、疫情何时结束,这都是一段在我们心中无法忘却的历史,而我们能做的,就是通过记录完整的事件历程,通过大数据分析来得出一些相关结论,避免悲剧的再次发生。这也是大数据给我们带来的价值之一。

我们前几日推送的文章《数据模型分析告诉你,现在还不是出门的时候》中,作者用数据分析告诉来我们,控制人口流动对疫情防治的重要性。

而 GitHub 上的这个项目,凭我个人的理解,可以利用 AI  来分析网站、新闻报道和社交媒体中关于新型冠状肺炎的报道,通过自然语言处理来解析社交媒体上发布的文本,根据新闻发生的先后顺序,来分析真新闻、假新闻,分析事件之间直接或间接的联系,从而得出一些结论和归因。

我相信这些信息对于专业的认识和团队一定有更多、更大的用途。

对于这次疫情控制工作,相关的信息已经变得越来越透明,我们期待看到更多的好消息和正面消息,但对于事件中那些可能做的不好的地方,我们记录下来的初心也是为了让这个国家更好、让人民更幸福。

「2020新冠肺炎记忆:报道、非虚构与个人叙述」GitHub 项目地址:  https://github.com/2019ncovmemory/nCovMemory

更多人在行动

除了「nCovMemory」之外,其实还有很多项目值得我们关注和 Star。我司技术大大 @joyqi  就用公开数据记录了疫情的发展趋势,来便于自己和大家从中分析更多有价值的信息:

项目地址:https://github.com/joyqi/ncov2019

许多网友也在做报道、个体叙述、网上舆论的整理和记录,如:

1.2020 Wuhan Individual Stories

  • https://github.com/jiayiliujiayi/2020nCov_individual_archives

备份普通人在疫情期间的记录,主要来自豆瓣,未来可能有所扩增。

2.疫情之下的劳动者——中文媒体报道收集(持续更新)

  • https://note.youdao.com/ynoteshare1/index.html?id=eee7c8c3d7b8b054dc94d8abd1a211d8&type=note

整理了劳动者们在疫情中的所作所为。按行业编排。

3.疫情与舆情:武汉新冠肺炎时间线TIMELINE

  • https://github.com/Pratitya/wuhan2020-timeline

记录自2019年12月起武汉新冠肺炎疫情进展的时间线。以社会学年鉴模式编撰。

4.Academic2019-nCoV

  • https://github.com/Academic-nCoV/2019-nCoV

每日发布疫情相关的海外学术、非学术信息。

此次武汉疫情通报所带来的恐惧,远比通报本身的内容蔓延得更快。多个城市陆续通报新型冠状病毒的病例数据,使大家对各种预防方法越来越关注。

但是,很多不正确的预防方法,也在这种时候混淆视听,甚至使人忽视了正确的应对方法。

(文章来源:SegmentFault