多源数据的真值发现算法Python实现毕业论文

 2021-04-10 10:04

摘 要

随着互联网技术的发展,信息的传播和访问变得更加方便。万维网带来越来越多的信息源,同时也带来信息源的真实性和及时性问题,其中,不同网站为相同对象提供冲突信息的问题尤为突出,例如,不同图书网站为同一本书提供了不同的作者信息,不同网站对珠穆朗玛峰的高度值不一致等等这类问题,这些冲突信息可能由于输入错误,信息过期,语义理解不一致,抽取程序错误等各种原因造成,给用户带来误导甚至造成巨大损失。

如何从这些冲突信息中找到正确信息成为亟待解决的问题,这类问题被称为真值发现问题。为了解决多数据源冲突的数据真值发现,近年来许多研究者提出相关算法。本文对典型的TruthFinder、CRH和KDEm等算法的原理、准确度和性能进行分析比较,并用Python语言编程加以实现,然后通过实验对它们的准确性进行比较验证,发现KDEm算法准确度高,实现比较复杂。为相关的真值发现应用,比如无线传感器应用、移动群智感知等,打下良好的基础。

关键词:真值发现;TruthFinder;CRH;KDEm

A Python implementation of the truth discovery algorithm for multi-source data

Abstract

With the development of Internet technology, information dissemination and access become more convenient. The world wide web to bring more and more sources of information, and at the same time bring the authenticity of information sources and timeliness problem, among them, the different websites as the object of the same information conflict problem is particularly prominent, for example, different books website provides the same book with different information, the author of different sites on the height of mount Everest values are not consistent, etc. This kind of problem, the conflict information may be due to the input error, information, semantic understanding, extract the bugs all sorts of reasons, such as bring misleading to users and even cause huge losses.

How to find correct information from these conflicting information becomes a problem to be solved urgently. This kind of problem is called truth value discovery problem. In order to solve the data truth value discovery of multi-data source conflicts, many researchers have proposed relevant algorithms in recent years. In this paper, the principles, accuracy and performance of typical TruthFinder, CRH and KDEm algorithms are analyzed and compared, and implemented by Python language programming. Then the accuracy of these algorithms is compared and verified through experiments. It is found that KDEm algorithm has high accuracy and relatively complicated implementation. It lays a good foundation for relevant truth value discovery applications, such as wireless sensor applications and mobile group intelligence perception.

Key words:Truth Discovery;TruthFinder;CRH;KDEm

目 录

1绪论 1

1.1 课题的背景及意义 1

1.2 国内外研究概况 2

1.3 本文的组织结构 3

2数据冲突及评估方法介绍 4

2.1 数据冲突 4

2.2真值发现 4

2.3评估方法 6

3 TruthFinder、CRH和KDEm算法原理 7

3.1 TruthFinder算法 7

3.1.1相关符号定义 7

3.1.2 TruthFinder模型 8

3.2 CRH算法 10

3.2.1符号定义 10

3.2.2 CRH模型 11

3.3 KDEm算法 14

3.3.1相关概念 16

3.3.2 KDEm模型 17

4算法的Python实现 20

4.1系统总体设计 20

4.1.1多源数据的获取 20

4.1.2真值数据的发现 21

4.1.3输出结果分析 21

4.2算法实现 21

4.2.1获取数据模块 21

4.2.2 TruthFinder算法 22

4.2.3 CRH算法 26

4.2.4 KDEm算法 28

5实验数据分析 32

5.1数据集的介绍与说明 32

5.2数据集的处理和算法对比 32

6总结与展望 37

6.1 总结 37

6.2 展望 37

致 谢 38

参考文献 39

1绪论

随着科技进步,信息交流变得越来越便利。与之相伴随的是各种来源的形形色色的信息日益增多,在这个自媒体时代,人们获取信息的渠道非常多,比如社交软件、各种网站、新闻媒体。同一信息来自不同的媒体,有可能会不一致,这样就增加了信息的筛选,甄别。要想从众多网站以及它的不同信息源获取一个真实的数据有时是困难的。而获取正确的及时的信息,已然成为生活所需,并且随着信息传播速度的提高,这一需求也会越来越大。目前,已有的处理信息冲突的算法在一定程度解决真值发现问题。

本文介绍了国内外真值发现问题研究的总体情况,并分析了几种真值发现算法的原理、实现以及优缺点。以此作为根本,进一步描述了信息冲突和真值发现的意义。

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。