面向医学数据的年龄数据清洗与可视化毕业论文

 2021-04-12 04:04

摘 要

FDA不良事件报告系统是一个针对药物不良反应的数据库。该数据库包含了向FDA提交的大量不良反应事件和药物错误报告的信息,其中包含大量病例数据,但是由于长时间没有统一的数据标准,数据表达混乱,需要一套完整的数据清洗系统。

本课题开发使用python语言,使用pycharm和anaconda进行开发。为了方便开发,必须选择一个数据清洗框架,经过研究选择pandas框架。本项目通过挖掘数据间关联定义一套清理规则,并借助pandas的数据帧将年龄和药物数据中空缺值,冗余值,异常值清洗。最后使用pyecharts框架对医疗数据进行可视化分析,生成医疗数据的图表。为更高效的使用这些数据促进医疗领域进步夯实基础。

关键词:数据清洗;Python;Pandas;Pyecharts

Data cleaning and visualization based on medical age data

ABSTRACT

The FDA Adverse Event Reporting System is a database of adverse drug reactions. The database contains a large number of adverse reaction events and drug error reports submitted to the FDA, which contains a large number of case data, but because there is no uniform data standard for a long time, the data expression is confusing, and a complete data cleaning system is needed.

This project was developed using the Python language and developed using pycharm and anaconda. In order to facilitate development, you must choose a data cleaning framework, and choose the pandas framework after research. This project defines a set of clean-up rules by mining data associations, and uses the data frames of pandas to clean the age and drug data hollow values, redundant values, and outliers. Finally, visual analysis of medical data is performed using the pyecharts framework to generate a chart of medical data. To use this data more efficiently to promote the foundation of the medical field.

Key words:Data cleaning;Python;Pandas;Pyecharts

目录

1 绪论 1

1.1 研究背景与目的意义 1

1.2 国内外研究概况 1

1.3 研究内容 2

2 开发技术与开发环境介绍 3

2.1 数据清洗 3

2.1.1 数据清洗的定义 3

2.1.2 数据清洗的原理 3

2.1.3 数据清洗常见错误 3

2.2 Python语言 4

2.3 Pandas框架 4

2.3.1 Pandas简介 4

2.3.2 Dataframe简介 4

2.4 Pyecharts框架 4

2.5 Faers数据库 5

3 算法设计与解决方案实现 6

3.1 数据的获取 6

3.2 分析各个季度数据文件内容 8

3.3 整合数据文件 11

3.4 清洗年龄数据 13

3.4.1 组合年龄数据 13

3.4.2 分析年龄数据 14

3.4.3 年龄数据清洗 17

3.4.4 年龄分组填充 19

3.4.5 年龄数据拆分 22

3.5 清洗药名数据 23

3.5.1 组合药名数据 23

3.5.2 获取药品有效成分 23

3.5.3 填充空缺值 25

3.6 数据可视化 29

3.6.1 可视化需求分析 29

3.6.2 年龄数据可视化 29

3.6.3 药名数据可视化 34

3.7 项目不足 36

总结 37

致谢 38

参考文献 39

1 绪论

    1. 研究背景与目的意义

如今大数据是一个经常被提到的话题。随着互联网的发展,各行各业的大数据都对人们的生或产生了巨大的影响,尤其是医疗卫生领域。就药物研究领域来说,可靠准确的高质量数据会大大缩减药物研发的难度,但不准确不完整的脏数据却给药物研发人员带来极大的困扰。由于这些数据是由消费者,医疗人员以及制药商自发上传,所以数据本身的不完整性,不规范性以及不正确性需要本项目进行数据清洗以便于分析及可视化。

    1. 国内外研究概况

数据清洗主要在数据仓库、数据库知识发现(也称数据挖掘)和总体数据质量管理这 3个领域研究较多。在数据仓库研究和应用领域,数据清洗处理是构建数据仓库的第一步,由于数据量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注。国外对数据清洗的研究最早出现在美国,是从对全 美的社会保险号错误的纠正开始。国外信息业和商业的相互存进极大的促进了数据科学的发展。同时这也极大地促进了对数据清洗的方法研究,其主要方法主要集中在以下 4个方面:

(1)检测并消除数据异常

(2)检测并消除近似重复记录

(3)数据的集成

(4)特定领域的数据清洗。

目前,国内对数据清洗技术的研究还处于初步阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其作一些比较简单的阐述。银行、保险和证券等对 客户数据的准确性要求很高的行业,都在做各自的客户 数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。

    1. 研究内容

面向医学数据的年龄数据清洗与可视化的主要研究内容如下:

  1. 从fda的官网下载2012年-2018年数据集。
  2. 分析数据集中各个文件,分析所要清洗数据字段的含义,找出其中关联
  3. 对所要清洗的数据文件进行整合,借助pandas分析其中的数据异常,冗余及空缺情况。
  4. 查阅资料,查找合适的年龄划分标准,对年龄计量单位进行统一,设计一套清洗规则,并根据规则清洗数据。
  5. 最后根据清洗完的数据,生成可交互的数据图表。

2 开发技术与开发环境介绍

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。