南京八城区房价走势曲线图与地理可视化描述毕业论文

 2021-04-12 04:04

摘 要

进入到二十一世纪以后,互联网信息技术得到了迅猛发展,我们在互联网当中看到纷繁复杂的信息,应该怎样更加有效的对信息展开搜索就变成了一个十分现实的问题,并且也是急需解决的一个问题。Web爬虫程序是一种可以用来自行搜索Internet里面众多信息的程序。

本课题的基本任务就是借助于Python开发环境来设计出一种分布式爬虫分析系统,然后将它设置于本地系统当中,以此来借助于网络爬虫来获取到网页里面的有关信息,而且还可以进一步处理以及存放所爬取到的信息,最后经由图形界面来向广大用户展示。本文先是对课题研究的相关背景以及意义作了一个简要的介绍,并且还对网络爬虫当前的发展情况作了详细的阐述,接下来对系统设计所用到的有关知识以及技术作了详细的讲解;然后分析了系统的基本功能需求,还进一步介绍了系统所处的操作环境以及产生的数据,最为重要的地方就是介绍了系统的设计过程;最后对设计出来的系统作了相应的测试。

关键词: 信息爬取;Python;可视化展示

Curve Map and Geographical Visualization Description of Housing Price Trend in Eight Urban Areas of Nanjing ABSTRACT

After entering the 21st century, the Internet information technology has been developed rapidly. We can see the complicated information on the Internet. How to search for information more effectively has become a very real problem, and it is also an urgent problem to be solved. Web crawler program is a kind of program that can be used to search Internet by itself.

The basic task of this research is to use Python development environment to design a distributed crawler analysis system, and then set it in the local system, in order to use web crawler to get into the web page information, but also can further processing and crawl to the stored information, finally show the broad masses of the user through a graphical interface. This paper first makes a brief introduction to the relevant background and significance of the subject research, and also makes a detailed description of the current development of the web crawler, followed by a detailed explanation of the relevant knowledge and technology used in the system design; Then it analyzes the basic functional requirements of the system, and further introduces the operating environment and data generated by the system. The most important place is to introduce the design process of the system. Finally, the system is tested accordingly.

Key words:information crawling; Python; Word frequency analysis

目 录

1 概述 1

1.1 研究背景以及意义 1

1.2 网络爬虫及数据可视化现状 2

1.3 本课题主要工作 3

2 相关技术简介 4

2.1 Python语言 4

2.2 Scrapy简介 4

2.3 Jieba分词简介 5

2.4 数据爬取与挖掘 7

2.5 Web Crawler简介 8

2.5.1 Web Crawler概念 8

2.5.2 爬虫分类 8

3 系统分析 11

3.1 系统可行性 11

3.1.1 语言方面 11

3.1.2 财力方面 11

3.1.3 操作方面 12

3.2 功能需求分析 12

3.3 系统实际的性能方面 13

3.4 系统运行环境分析 13

4 系统规划及实际功能 14

4.1 设计的目的和要求 14

4.2 系统结构框架 14

4.3 主线流程 15

4.4 数据库设计 16

4.4.1 数据库Entity 16

4.4.2 数据库表信息设计 17

4.5 系统实现 18

4.5.1 系统爬取界面 18

4.5.2 可视化显示界面 19

4.5.3 地图可视化界面 20

4.5.3 房贷计算器 22

结 论 23

致 谢 24

参考文献 25

  1. 概述

1.1 研究背景以及意义

因为当前网络发展的速度非常快,这也导致万维网需要承受越来越多的信息。不过究竟应该怎样更加有效的获得这些信息,并且对这些信息予以合理的使用,就变成了当前需要我们去解决的问题。现阶段,我们展开网络信息搜索的时候通常会选取采用搜索引擎,比方说我们平时用的相对比较多的百度、搜狗等。然而,这些我们常用的搜索引擎同样存在着一定的缺陷,例如:(1)我们利用搜索引擎也许想获取到不一样的结果,不过搜索引擎所返回的数据基本上没有太大的差别,这对许多用户而言都是一些没有使用价值的信息。(2)因为搜索引擎所能够得到的信息同样很有限,不是说互联网当中的每一条信息它都可以搜索到,因此这就存在着信息遗漏的情况。 (3)数据有很多种表现形式,既有文字也有图片,还有视频等,而搜索引擎在获取文字信息方面比较强大,而对图片以及图表等信息的获取能力就要弱很多。 (4)搜索引擎必须要借助于关键字的使用,但是它对词义的理解和我们想要表达的信息无法实现高度的匹配,因此这就极大的减小了搜索的准确性。基于上面所讲述的情况,爬虫系统就在这一大背景之下产生了。它可以根据用户设定的目标,定向的在相关网页网络中,来抓取相关的信息。存储捕获的数据以供用户使用。[1]

互联网现在已经得到了普遍性的使用,并且对我们的生活方式产生了重要的影响,甚至逐渐的在改变着我们的生活习性。它的信息存储量十分的惊人,信息传播的速度也很快,因为网络技术的迅猛发展,网名的申请量也随之而增加,作为我们人类之间沟通的桥梁,互联网起到了十分重要的作用。不过,在搜索引擎取得了巨大发展以后,人们再也不会被互联网里面所充斥的各类信息弄得茫然不知所措。根据相关统计数据显示:到2017年底,我们国家的网民数量以及超过了七亿人,这也就是说我们国家有超过一半的人口都是网络用户,这比全球平均水平高了5%。而且我们国家的网民数量还在持续增加,随着互联网模式的创新发展速度逐渐加快,以及线上线下服务融合水平逐渐的提升,这又进一步推动了网民数量的增加。在众多纷繁复杂的信息中能够爬取想要的信息,比如用户、热点、评论信息等等,这些信息对单位的战略方向的部署有重要意义。

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。