基于Python的微信朋友圈关系数据分析与实现毕业论文

 2021-04-12 04:04

摘 要

目前,随着科技的快速发展,也迅速地推动了网络的发展日新月异,作为当今最重要的海量信息载体万维网,如何有效、快速地提取并利用信息则成为了一个非常大的挑战。为了解决这个问题,发展出能自行获取网页的一种基于网络的爬虫技术。而Python是种较为简易的语言,用较少的变成即可爬到较为繁杂的网站。为了对微信朋友圈的好友的信息进行数据分析,从而促进对好友的爱好和价值取向的了解,因此,本论文将探讨基于python的微信朋友圈关系数据分析与实现这个内容。本论文将好友上网行为数据项进行预处理,对不同类别进行描述,并且用聚类进行分析,从而根据结果得出好友上网行为的规律。

本文通过使用Python语言来对微信好友的相关数据去进行分析,选择的维度主要是:签名、性别、位置等内容,主要是通过图表和词云等等的方式去呈现出结果。

关键词:网络爬虫;微信;python数据分析

Analysis and Implementation of Python-based WeChat Friends Circle Relationship Data

ABSTRACT

As the network began to develop rapidly, the World Wide Web has become a vehicle for massive information, and how to effectively extract and utilize information has become a very big challenge. In order to solve this problem, a web crawler technology that automatically extracts web pages has been developed. And Python, a simple programming language, can crawl to more complex websites with less programming. In order to analyze the information of friends of WeChat friends circle, so as to promote the understanding of friends' hobbies and value orientation, this paper will discuss the analysis and implementation of Python-based WeChat friend circle relationship data. This paper pre-processes the online behavior data items of friends, describes different categories, and analyzes them with clusters, so as to get the rules of online behavior of friends according to the results.

This article uses the Python language to analyze the relevant data of WeChat friends. The selected dimensions are mainly: signature, gender, location, etc., mainly using charts and word clouds to present the results.

Keywords: Web crawler;WeChat;python data analysis

目 录

1 绪论 1

1.1 选题背景 1

1.2 研究意义 2

1.3 论文主要研究内容及组织结构 3

1.3.1 主要研究内容 3

1.3.2论文组织结构 3

2 关键技术和理论基础综述 4

2.1 社交网络 4

2.1.1 社交网络的概念 4

2.1.2 社交网络特点 5

2.1.3 社交朋友圈关系数据分析动机 6

2.1.4 社交网络主要研究方向 6

2.2 朋友圈关系数据分析 7

2.2.1朋友圈关系数据分析研究现状 7

2.2.2本文对社交朋友圈关系数据分析的定义 7

2.3 聚类分析 8

2.3.1聚类定义 8

2.3.2聚类分析过程 8

2.3.3主要的聚类分析方式 9

2.4 技术方法框架 9

3 基于网络爬虫技术的数据采集 11

3.1 网络爬虫工作原理 11

3.1.1 网络爬虫基本工作原理 11

3.1.2 URL存在形态分析 11

3.2 定向爬虫定制 13

3.2.1通过wireshark抓包法分析HTTP协议 13

3.2.2分析网站行为 14

3.2.3正则表达式设计 15

3.3代码设计 15

3.3.1 UID获取 15

3.3.2以CSV格式对数据进行输出 16

4 微信朋友圈关系数据聚类分析 17

4.1 数据预处理 17

4.1.1数据格式标准化处理 17

4.1.2通过SPSS描述数据特征 19

4.1.3通过SPSS离散化数据 20

4.2聚类分析 21

4.2.1聚类算法选取 21

4.2.2 EM算法参数设置 22

4.3 聚类结果分析 23

4.3.1EM算法结果 23

4.3.2结果分析 23

5 结 论 25

5.1 全文总结 25

5.2 进一步研究的问题 25

致 谢 27

绪论

1.1 选题背景

在Web2.0浪潮中,社交网络已经发展成为社会化媒体中其中一个主要平台。社交网络呈现出俩大增长的趋势:其一是微博用户的持续增长;其二是用户开始逐渐的移动化也成为了社交网络用户开始增长的一大原因,在生产、流行智能化手机以来,在日常生活、学习工作中,越来越多的人们离不开智能化手机,习惯于利用手机终端进行用户访问和发送信息,这在一定程度上有力地推动了社交网站的发展。随着这些现象的持续发展,“社交化”这一概念也与时俱进地渐渐融入到各种互联网的应用里。同时,也渐渐地涌现出许多具有社交基因的一对一交流的私密社交、图片社交等之类的新型应用。与此同时,移动互联网领域里,因为通讯是手机的本质,大量移动应用具备社交功能;而网络shopping、搜索等各类互联网应用也与时俱进,渐渐无可避免地融入了社交因素,用来改善用户使用感、增添自身功能,并积极创新盈利、服务等模式。所以互联网的大势所趋就是社交化的应用,从前实名制类型的社交网站,也在之前传统应用的基础上,与时俱进地融入了一些具有典型特色的具有社交功能的组件,移动终端也成为其业务发展的重点,这样一来,吸引了更多的社交网站用户,也进一步推动了社交网络的快速发展。

目前,国内外的网络非常发达,拥有许多流行且日趋成熟的社交网站。在国外,主要有Google ,Plurk,Flickr,Facebook,twitter,Linked-in等,而国内也拥有着微信、豆瓣、微博等社交网络应用。在国内的SNS中,微信注册的人数也已超过了1.6亿,拥有了超过一半的活跃用户,阿里巴巴也投资购取新浪微博的股份,显示出了我国互联网巨头对其的看好。社交网站的用户群与访问量非常地庞大,随着这个数量的日益增多,社交网站渐渐成为网络应用中最重要的一部分。

图1-1 社交网站发展时间表

1.2 研究意义

社交网络的广泛应用,在推动了信息传播技术的改革的同时,也使人们无可避免地改变了在日常生活、工作、学习中处理事情的思维方式和相关的生活态度等,因为社交网络的这些特点,大大地吸引了国内外更多的专家学者深入研究社交网络。不过,就目前的研究成果而言,不管是国内还是国外,现在对社交网络主体——网络用户的研究相对较少,大多数学者和专家的研究重点还是着重于研究朋友圈关系数据,缺少专门对社交朋友圈关系数据分析的分析化。现在,研究网络行为的主要议题是:一是作为行为场域的网络空间的社会特性;二是网络行为和其影响因素。

虽然从目前的研究情况来看,这两项研究相对较为深入,不过大多数的学者专家基本上都是站在社会学的角度,切入式地对宏观的朋友圈关系进行相应的研究,分析相关的数据,其研究的内容也主要是偏重于理论化的研究,契合社交网络的研究相对很少。本文使用网络爬虫去采集数据,使用数据分析软件Weka和spss对采集数据挖掘数据,通过数据寻找社交朋友圈关系数据分析及其影响因素,创新角度对社交朋友圈关系进行了数据分析。若能有效提取社交网络里的各种数据,具体分析朋友圈的群体的特征和关系等,掌握用户的行为模式及影响因素,不仅能够使网站运营商充分而又全面地掌握用户信息及用户所需,还能让网站运营商根据这些信息为客户提供更为优质丰富的服务和产品,并且能让营销商非常容易的明白受众群体以及与其相关的传播信息的模式,在这个基础上,可以帮助营销商改变传统思维,创新举措,进一步改进网络推广方式与网络营销手段,从而达到最佳最理想的运营效果,这样也有利于推动社交网络的优化和快速发展。

1.3 论文主要研究内容及组织结构

1.3.1 主要研究内容

本论文主要的研究内容分为三方面:

1.社交网络及社交朋友圈关系数据分析

该部分为最终通过分析软件对社交朋友圈关系数据分析进行总结奠定理论基础。重点阐述社交网络概念的产生和其发展的具体过程。在此基础上,描述了社交网络拥有的WEB2.0时代的特点。然后,分析了一般社交朋友圈关系数据分析动机。

2.数据挖掘中的聚类分析

该部分描述了数据挖掘的聚类分析的定义、分析过程、主要分析手段,对各聚类方法的优缺点进行了具体的分析,通过收集的数据特征选取相应的聚类分析方法。

3.数据采集技术——网络爬虫

该部分确定所要爬取的网页内容,根据网站HTTP协议和网页行为特征制定定向网页爬虫方案,通过python语言实行具体编码。编码过程为:通过使用Wireshark抓包后,使用python里的urlllib库构造目标网站可识别HTTP协议,再使用设计正则表达式进行数据提取。

1.3.2论文组织结构

论文第二章主要讨论了社交网络定义与特点,分析一般社交朋友圈关系数据分析动机。描述数据挖掘里的聚类分析定义、过程等,阐明了本文所涉及的理论基础。

论文第三章重点地介绍了怎样通过网络爬虫技术进行数据采集。说明了网络爬虫技术原理和URL存在形态,然后具体分析了如何制定定向网络爬虫,最后说明了本次网络爬虫程序编码所解决的难题与部分具体代码。

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。