从零实现基于医疗知识图谱的问答系统目录及总结

文章目录
  1. 1. 目录
  2. 2. 总结
  3. 3. 项目改进建议

整个系统花了差不多两个星期的时间终于复现出来了,撒花庆祝!

之前看刘老师说这个系统自己两天就写完的时候我还预计自己应该一个星期能写完,事实证明我还是太年轻了,和大佬比差距还很远很远,还要继续学习鸭!
再次感谢刘老师分享的代码!!!感激不尽!!!
全部代码及数据链接:https://github.com/Klaus925/MedicalKG_QA

目录

系统搭建环境:
Windows 10
Python 3.6
Visual Studio Installer

[1]从零实现基于医疗知识图谱的问答系统(一)-数据收集
[2]从零实现基于医疗知识图谱的问答系统(二)-Neo4j构建知识图谱
[3]从零实现基于医疗知识图谱的问答系统(三)-问题解析处理
[4]从零实现基于医疗知识图谱的问答系统(四)-构建回答

总结

首先,整个QA系统是基于KG的,要建立一个完整的图谱毫无疑问需要完整的数据,对于KG来说,数据有结构化数据和非结构化数据,为了方便这里使用结构化数据。而获取结构化数据的方式分两种:
(1)寻找现成的语料库;
(2)使用爬虫来收集想要构建的领域的数据。

注意:使用爬虫也就意味存在着ip被封的风险。

我在看cs224n中Richard老师给过一个建议,最好使用现成语料库,因为曾经存在学生花了半年的时间去搜集数据一无所获最终无法完成作业。
获取完数据存入MongoDB后可以命令导出为json文件,然后通过加载json文件来生成相应的知识图谱。

接着,在我们有了知识图谱之后工作其实已经完成了大半,后续构建问答系统主要是基于知识图谱的查询语句来构建,因此,KG的查询语句编写需要认真xio习。
除此之外,问题解析中将问题提问的方式整理为一个list这点也同样重要,这就需要人工来进行建立。
其次,我发现准备数据的过程中,有一个build_data.py文件感觉没有用上,不知用意何在,所以这个文件我仍然保留着。

项目改进建议

[1]使用Django或者Flask构建问答器的界面使其更美观;
[2]增加数据可视化功能,在Web后台查看某类问题的提问次数等;
[3]使用神经网络训练语料库来生成问答对。

注意:假如使用神经网络的话,对于没有人训练过类似问答领域的语料库可能需要自己构建并标注数据。

Over.