基于深度学习的网页内容提取方法研究毕业论文

 2021-04-12 04:04

摘 要

近年来,随着互联网时代的不断发展,越来越多的信息数据被不断地注入到各种网页中去。人们在享受网络给生活带来的便利的同时,很多不法分子通过建立钓鱼网站来骗取用户的个人数据及钱财。据统计,仅2018年,全国共有近6.88亿网民因个人信息外泄等原因造成了大约915亿元的经济损失。据不完全统计,约57%的用户感觉个人信息外泄严重,89%的用户曾感受到由于个人信息外泄所带来的对生活产生的负面影响,42%的用户曾被网络钓鱼所攻击。因此,为了保护人们的信息安全,将钓鱼网和正规网站区分出来就显得极为重要了。首先利用网络爬虫对各种新闻网页进行爬取,然后建立深度神经模型,模型建立成功后,再利用TensorFlow深度学习编程系统对建立的模型进行实现,并在实验中对模型中各种主要参数进行逐一调整与对比,这种方法在模型得到优化的同时也可以将钓鱼网站识别出来,并给出结论。经过对模型的分析与优化,对各种钓鱼网站的检测准确率大大提升,并且准确率也可以达到较为理想的水平,这种方法可以极大程度减少钓鱼网站对用户的危害。

关键词:钓鱼网站;网页分类;网络爬虫;深度学习;深度神经网络模型

Research on Web Content Extraction Method Based on Deep Learning

ABSTRACT

In recent years, with the continuous development of the Internet era, more and more information data has been continuously injected into various web pages. While people enjoy the convenience brought by the Internet to life, many lawless elements defraud the user's personal data and money by establishing a phishing website. According to statistics, in 2018 alone, nearly 688 million netizens across the country caused economic losses of about 91.5 billion yuan due to personal information leakage. According to incomplete statistics, about 57% of users feel that personal information is leaking seriously, and 89% of users have experienced the negative impact on life caused by the leakage of personal information, 42% of users have been attacked by phishing.Therefore, In order to protect people's information security, it is extremely important to distinguish the fishing net from the regular website.Firstly, web crawlers are used to crawl various news pages, and then a deep neural model is built. After the model is successfully established, the TensorFlow deep learning programming system is used to implement the established model, and various main parameters in the model are performed in the experiment. One by one adjustment and comparison, this method can also identify the phishing website and give conclusions while the model is optimized. After analyzing and optimizing the model, the detection accuracy of various phishing websites is greatly improved, and the accuracy rate can also reach an ideal level. This method can greatly reduce the harm of phishing websites to users. 

Keywords: phishing website; web page classification; web crawler; deep learning; deep neural network model

目 录

1 绪论…………………………………………………………………………………………….1

    1. 研究背景及意义…………………………………………………………………………1
      1. 网络钓鱼的基本概念……………………………………………………………1
      2. 网络钓鱼的攻击方式……………………………………………………………1
    2. 国内外研究现状………………………………………………………………………….3
      1. 基于URL的钓鱼网站检测……………………………………………………..3
      2. 基于内容特征的钓鱼网站检测…………………………………………………3
      3. 基于视觉特征的钓鱼网站检测…………………………………………………3
    3. 论文结构………………………………………………………………………………….4
  1. 基本概念………………………………………………………………………………………5
    1. 网页的概念………………………………………………………………………………..5
    2. 标签………………………………………………………………………………………..5
      1. 格式标签………………………………………………………………………….5
      2. 文本标签………………………………………………………………………….5
      3. 锚点标签………………………………………………………………………….6
      4. 图像地图标签…………………………………………………………………….7
  2. 背景技术………………………………………………………………………………………8
    1. 网络爬虫技术……………………………………………………………………………..8
    2. 深度学习技术……………………………………………………………………………..8
    3. Tensorflow深度学习编程系统……………………………………………………………9
  3. 深度神经网络模型…………………………………………………………………………...11
    1. 深度神经网络模型的起源……………………………………………………………….11
    2. 深度神经网络模型的由来……………………………………………………………….11
      1. 感知机模型………………………………………………………………………11
      2. 深度神经网络模型………………………………………………………………12
    3. 深度神经网络模型的基本结构………………………………………………………….13
  4. Tensorflow模型的建立………………………………………………………………………14
    1. 词库表的建立……………………………………………………………………………14
    2. 关键词的向量表示………………………………………………………………………15
    3. 模型的建立与训练………………………………………………………………………15
      1. 数据准备…………………………………………………………………………15
      2. 样本表示…………………………………………………………………………16
      3. 个层条件的分布…………………………………………………………………17
      4. 目标函数…………………………………………………………………………17
      5. 训练模型…………………………………………………………………………18
  5. 实验验证与分析……………………………………………………………………………...20
    1. 实验结果验证指标……………………………………………………………………….20
      1. 准确率与召回率…………………………………………………………………20
      2. F1-Measure……………………………………………………………………….20
    2. 实验测试环境…………………………………………………………………………….21
    3. 实验测试方法…………………………………………………………………………….21
      1. 数据抽样…………………………………………………………………………21
      2. 建模过程…………………………………………………………………………23
      3. 实验结果分析……………………………………………………………………26
  6. 总结与展望…………………………………………………………………………………...28
      1. 实验总结…………………………………………………………………………28
      2. 未来展望…………………………………………………………………………28

致谢………………………………………………………………………………………………..29

参考文献…………………………………………………………………………………………..30

  1. 绪论
    1. 研究背景及意义

1.1.1 网络钓鱼的基本概念

网络钓鱼是一种利用邮件或通讯工具向用户发送一些具有欺骗性的消息,以引诱用户给出敏感信息的一种攻击。如今,随着社会的发展,互联网已经走入人们的生活,人们在利用互联网来看新闻、看视频、听音乐的同时,一些心怀不轨的人也在不断对网络钓鱼技术进行升级并用此来骗取人们的钱财。同时网络钓鱼对国家网络安全也构成了巨大的威胁。

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。