信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对爬虫设计与数据分析等问题,对基于Python的爬虫设计与数据分析进行研究分析,然后开发设计出基于Python的爬虫设计与数据分析以解决问题。
基于Python的爬虫设计与数据分析主要功能模块包括轮播图(轮播图管理)公告栏管理(公告栏)资源管理(旅游资讯、资讯分类)系统用户(管理员、旅游用户)模块管理(地区分类、景点等级、景点信息、景点订票),采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善了对应的软体架设以及程序编码的工作,采取MySQL作为后台数据的主要存储单元,采用django框架、python技术、Ajax技术进行业务系统的编码及其开发,实现了本系统的全部功能。本次报告,首先分析了研究的背景、作用、意义,为研究工作的合理性打下了基础。针对基于Python的爬虫设计与数据分析的各项需求以及技术问题进行分析,证明了系统的必要性和技术可行性,然后对设计系统需要使用的技术软件以及设计思想做了基本的介绍,最后来实现基于Python的爬虫设计与数据分析和部署运行使用它。
关键词:基于Python的爬虫设计与数据分析;django;MYSQL
In the information society, there is a need for targeted information acquisition channels, but the expansion of channels is basically the direction of people's efforts. Due to the deviation in perspective, people often can obtain different types of information, which is also the most difficult topic for technology to overcome. To address issues such as crawler design and data analysis, research and analyze Python based crawler design and data analysis, and then develop and design a Python based crawler design and data analysis to solve the problem.
The main functional modules of Python based crawler design and data analysis include rotation chart (rotation chart management) bulletin board management (bulletin board) resource management (tourism information, information classification) system user (administrator, tourism user) module management (region classification, attraction level, attraction information, attraction booking), adopting an object-oriented development model for software development and hardware installation, It can well meet the actual usage needs, improve the corresponding software installation and program coding work, adopt MySQL as the main storage unit for backend data, and use django framework, Python technology, Ajax technology for business system coding and development, achieving all the functions of this system. This report first analyzes the background, role, and significance of the research, laying the foundation for the rationality of the research work. Analyze the various requirements and technical issues of Python based crawler design and data analysis, prove the necessity and technical feasibility of the system, and then provide a basic introduction to the technical software and design ideas required for designing the system. Finally, implement Python based crawler design and data analysis, and deploy and run it.
Keywords:Python based crawler design and data analysis; django; MYSQL
1 绪论
1.1课题背景
随着经济水平的提高,国内的旅游业发展快速,但是相对来说,国内旅游业发展的程度并不能完全适应经济的发展和人民生活水平提高的需要。因此国内旅游业在国民经济中的地位和作用凸显重要。
但国内旅游产业管理滞后,基础弱,企业效益差,信息化较低。旅游行政管理部门的管理方式些许落后,缺少信息化管理,信息沟通渠道不顺畅等一系列问题。面对挑战和挫折,国内旅游产业必须转变旧观念,勇于创新,打破传统理念,提供各种资源,这样一来使整个行业有了崭新的一幕。同时要加强旅游信息化的建设,不断提高各级管理部门的管理能力和工作效率,简化办事的程序,减少工作的成本,加快信息的传播速度,多做宣传,提高信息的真实性;另一方面通过开展旅游产业来满足游客的需求,提升旅游的服务质量,缩减成本,转变旅游企业传统经营模式,这样做的话不仅提高整个旅游产业的素质,而且提升旅游产业的信息化,优化产业的结构和资源。进而带动许多产业的发展,提高就业机率,对经济的发展有着积极的推动作用。
1.2研究目的及意义
大数据可视化分析是当今活跃的具有广阔应用前景的信息技术研究领域,是人工智能、统计学、数据分析、信息检索、高性能计算和数据可视化等多领域相互交叉的研究方向。近年来,数据分析技术与特定领域的知识结合在一起,提供了满足特定任务的大数据可视化分析解决方案,为这些行业的信息化发展作出了突出的贡献。
1.3爬虫技术
网络为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
1.4django框架介绍
Django是高水准的Python编程语言驱动的一个开源模型.视图,控制器风格的Web应用程序框架,它起源于开源社区。使用这种架构,程序员可以方便、快捷地创建高品质、易维护、数据库驱动的应用程序。这也正是OpenStack的Horizon组件采用这种架构进行设计的主要原因。另外,在Dj ango框架中,还包含许多功能强大的第三方插件,使得Django具有较强的可扩展性。Django 项目源自一个在线新闻 Web 站点,于 2005 年以开源的形式被释放出来。Django 框架的核心组件有:
用于创建模型的对象关系映射;
为最终用户设计较好的管理界面;
URL 设计;
设计者友好的模板语言;
缓存系统。
Django(发音:[`dʒæŋɡəʊ]) 是用python语言写的开源web开发框架(open source web framework),它鼓励快速开发,并遵循MVC设计。Django遵守BSD版权,初次发布于2005年7月, 并于2008年9月发布了第一个正式版本1.0 。
Django 根据比利时的爵士音乐家Django Reinhardt命名,他是一个吉普赛人,主要以演奏吉它为主,还演奏过小提琴等。
由于Django在近年来的迅速发展,应用越来越广泛,被著名IT开发杂志SD Times评选为2013 SD Times 100,位列“API、库和框架”分类第6位,被认为是该领域的佼佼者。
1.5论文结构与章节安排
论文将分层次经行编排,除去论文摘要致谢文献参考部分,正文部分还会对网站需求做出分析,以及阐述大体的设计和实现的功能,最后罗列部分调测记录,论文主要架构如下:
第一章:引言。第一章主要介绍了课题研究的背景,系统开发的现状和本文的研究目的与主要工作。
第二章:系统需求分析。第二章主要从系统的用户、功能等方面进行需求分析。
第三章:系统设计。第三章主要对系统框架、系统功能模块、数据库进行功能设计。
第四章:系统实现。第四章主要介绍了系统框架搭建、系统界面的实现。
第五章:系统测试。第五章主要对系统的部分界面进行测试并对主要功能进行测试
2 基于Python的爬虫设计与数据分析分析
系统分析是开发一个项目的先决条件,通过系统分析可以很好的了解系统的主体用户的基本需求情况,同时这也是项目的开发的原因。进而对系统开发进行可行性分析,通常包括技术可行性、经济可行性等,可行性分析同时也是从项目整体角度进行的分析。然后就是对项目的具体需求进行分析,分析的手段一般都是通过用户的用例图来实现。下面是详细的介绍。
2.1 可行性分析
在项目上使用的工具大部分都是是当下流行开源免费的,所以在开发前期,开发时用于项目的经费将会大大降低,不会让开发该软件在项目启动期受到经费的影响,所以经济上还是可行的。尽量用最少的花费去满足用户的需求。省下经费用于人工费,以及设备费用。将在无纸化,高效率的道路上越走越远。
所以经济可行性没有问题。
(2)操作可行性:
此次项目设计参考了几个该模式下网站的开发案例,对他们的操作界面分析,将众多案例结合在一起,突出以人为本简化操作,所以具有基本计算机知识的人都会操作本项目。
因此操作可行性也没有问题。
(3)技术可行性:
技术可行性指的是对于搭建框架的可行性,以及有更优秀的技术出现时系统的技术更新换代的纳新性如何,开发时间成本费用比如何。
现有的django技术能够迎合所有电子商务系统的搭建。开发这个基于Python的爬虫设计与数据分析的时候我采用了django+MYSQL用以运行整体程序。
综上所述技术可行性也没有问题。
(4)法律可行性:
从开发者角度来看,django和MYSQL是网上开源且免费的,在知识产权方面不会产生任何法律纠纷。
从用户使用角度来看,只要不再系统上贩卖违禁品,对系统做出条约协议,杜绝非法支付即可。
综上所述法律可行性也没有问题。
开发基于Python的爬虫设计与数据分析最主要的一个目的就是实现用户对景点的订票,图2-4就是系统的数据流图。
图2-1景点订票操作展开图
2.2.2 业务流程
分析完基于Python的爬虫设计与数据分析的数据流,那么接下来我们来看系统的业务流程,图2-5就是业务流程图:
2.3 系统功能分析
按照基于Python的爬虫设计与数据分析的角色,我划分为了旅游用户模块和管理员管理模块这两大部分。
旅游用户管理模块:
(1)用户注册登录:游客可以随时进入到系统中,对系统中的信息浏览,但是想要实现旅游资讯信息的收藏评论等,就必须有这个系统的账号,如果没有账号的话,可以注册成系统用户进行相关的操作,同时用户还可以对个人信息以及操作的信息进行管控。
(2)查看基于Python的爬虫设计与数据分析的首页信息:基于Python的爬虫设计与数据分析的首页信息包含了首页、公告栏、旅游资讯、景点信息、我的(我的账户、我的收藏、个人中心)。
(3)公告栏:用户可以查看后台管理员发布的公告信息,在查询到自己想要了解的公告信息的时候,可以进入查看详细的介绍。
(5)旅游资讯:用户可以查看旅游资讯信息,在查询到自己想要了解的旅游资讯的时候,可以进入查看详细的介绍进行评论、点赞、收藏操作。
(6)景点信息:当用户点击“景点信息”这一菜单按钮,会显示管理员在后台发布的所有的景点信息,支持通过关键词对景点信息进行搜索,选择需要的景点信息点击可以进入到景点信息详细的介绍界面,在详细界面可以查看到景点的景点名字、景点描述、门票销量、所在城区、景区等级、景区热度、详情地址、门票价格等信息,同时可以进行订票、点赞、收藏、评论操作;
(7)订票:当用户在景点信息详情界面想要进行订票,点击下方的“订票”按钮,就会跳转到订票信息填写界面,根据界面提示输入订票信息,点击“提交”按钮,订票就完成了;
(8)我的账户:在前台点击“我的”下面的“我的账户”可以对个人资料+密码修改+自己收藏的信息进行管控。
管理员管理模块:
(1)登录:管理员在后台可以输入用户名+密码进行登录,管理员的用户名和密码是在数据库中直接设定好的。
(2)轮播图:管理员点击“轮播图”菜单可以对首页展示的轮播图进行增删改查。
(3)公告栏:管理员点击“公告栏”菜单可以查看到系统中的所有公告栏信息,对已经存在的公告栏信息,管理员可以修改,也可以添加新的公告信息或者删除公告信息。
(4)资源管理:管理员点击“资源管理”菜单能够对其下子菜单旅游资讯和资讯的分类进行增删改查。
(5)系统用户:管理员点击“系统用户”菜单可以对系统中存在的用户进行管理,包含了管理员用户和旅游用户。
(6)模块管理:在“模块管理”这一菜单下,我们会看到地区分类、景点等级、景点信息、景点订票,管理员可以对其进行增删改查操作。
2.3.2 非功能性分析
基于Python的爬虫设计与数据分析的非功能性需求比如基于Python的爬虫设计与数据分析的安全性怎么样,可靠性怎么样,性能怎么样,可拓展性怎么样等。具体可以表示在如下3-1表格中:
表3-1基于Python的爬虫设计与数据分析非功能需求表
安全性 | 主要指基于Python的爬虫设计与数据分析数据库的安装,数据库的使用和密码的设定必须合乎规范。 |
可靠性 | 可靠性是指基于Python的爬虫设计与数据分析能够安装用户的指示进行操作,经过测试,可靠性90%以上。 |
性能 | 性能是影响基于Python的爬虫设计与数据分析占据市场的必要条件,所以性能最好要佳才好。 |
可扩展性 | 比如数据库预留多个属性,比如接口的使用等确保了系统的非功能性需求。 |
易用性 | 用户只要跟着基于Python的爬虫设计与数据分析的页面展示内容进行操作,就可以了。 |
可维护性 | 基于Python的爬虫设计与数据分析开发的可维护性是非常重要的,经过测试,可维护性没有问题 |
2.4 系统用例分析
通过2.3功能的分析,得出了本基于Python的爬虫设计与数据分析的用例图:
旅游用户角色用例如图2-3所示。
图2-3 基于Python的爬虫设计与数据分析旅游用户角色用例图
web后台管理上的管理员是维护整个基于Python的爬虫设计与数据分析中所有数据信息的。管理员角色用例如图2-4所示。
图2-4 基于Python的爬虫设计与数据分析管理员角色用例图
本章主要通过对基于Python的爬虫设计与数据分析的可行性分析、流程分析、功能需求分析、系统用例分析,确定整个基于Python的爬虫设计与数据分析要实现的功能。同时也为基于Python的爬虫设计与数据分析的代码实现和测试提供了标准。
本章主要讨论的内容包括基于Python的爬虫设计与数据分析的功能模块设计、数据库系统设计。
3.1 系统架构设计
本基于Python的爬虫设计与数据分析从架构上分为三层:表现层(UI)、业务逻辑层(BLL)以及数据层(DL)。
图3-1基于Python的爬虫设计与数据分析系统架构设计图
表现层(UI):又称UI层,主要完成本基于Python的爬虫设计与数据分析的UI交互功能,一个良好的UI可以打打提高用户的用户体验,增强用户使用本基于Python的爬虫设计与数据分析时的舒适度。UI的界面设计也要适应不同版本的基于Python的爬虫设计与数据分析以及不同尺寸的分辨率,以做到良好的兼容性。UI交互功能要求合理,用户进行交互操作时必须要得到与之相符的交互结果,这就要求表现层要与业务逻辑层进行良好的对接。
业务逻辑层(BLL):主要完成本基于Python的爬虫设计与数据分析的数据处理功能。用户从表现层传输过来的数据经过业务逻辑层进行处理交付给数据层,系统从数据层读取的数据经过业务逻辑层进行处理交付给表现层。
数据层(DL):由于本基于Python的爬虫设计与数据分析的数据是放在服务端的mysql数据库中,因此本属于服务层的部分可以直接整合在业务逻辑层中,所以数据层中只有数据库,其主要完成本基于Python的爬虫设计与数据分析的数据存储和管理功能。
3.2 系统功能模块设计
在上一章节中主要对系统的功能性需求和非功能性需求进行分析,并且根据需求分析了本基于Python的爬虫设计与数据分析中的用例。那么接下来就要开始对本基于Python的爬虫设计与数据分析的架构、主要功能和数据库开始进行设计。基于Python的爬虫设计与数据分析根据前面章节的需求分析得出,其总体设计模块图如图3-2所示。
图3-2 基于Python的爬虫设计与数据分析功能模块图
3.2.2用户模块设计
后台管理者能够实现对前台注册的用户增删改查操作,用户模块结构图如下图:
图3-3用户用户模块结构图
3.2.3评论管理模块设计
基于Python的爬虫设计与数据分析是一个交流性质的公开平台,用户用户和管理人员用户可以对平台上信息进行评论,增加用户之间的互动性。但是同时也为了更好的规范评论的内容,给予管理员删除不合适的言论的功能,所以需要专门设计一个评论管理模块,具体的结构图如下:
图3-4评论模块结构图
基于Python的爬虫设计与数据分析是中需要存储不少景点信息,其模块功能结构,具体的结构图如下:
图3-5景点信息模块结构图
基于Python的爬虫设计与数据分析最重要的一个功能就是订票,其模块功能结构,具体的结构图如下:
图3-6订票信息模块结构图
数据库设计一般包括需求分析、概念模型设计、数据库表建立三大过程,其中需求分析前面章节已经阐述,概念模型设计有概念模型和逻辑结构设计两部分。
3.3.1 数据库概念结构设计
下面是整个基于Python的爬虫设计与数据分析中主要的数据库表总E-R实体关系图。
图3-7 基于Python的爬虫设计与数据分析总E-R关系图
表attraction_information (景点信息)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | attraction_information_id | int | 10 | 0 | N | Y | 景点信息ID | |
2 | attraction_name | varchar | 64 | 0 | Y | N | 景点名字 | |
3 | urban_area | varchar | 64 | 0 | Y | N | 所在城区 | |
4 | detailed_address | varchar | 64 | 0 | Y | N | 详情地址 | |
5 | attraction_description | varchar | 64 | 0 | Y | N | 景点描述 | |
6 | scenic_area_cover | varchar | 255 | 0 | Y | N | 景区封面 | |
7 | opening_hours | text | 65535 | 0 | Y | N | 开放时间 | |
8 | rating_of_scenic_spots | varchar | 64 | 0 | Y | N | 景区等级 | |
9 | ticket_price | varchar | 64 | 0 | Y | N | 门票价格 | |
10 | ticket_sales | varchar | 64 | 0 | Y | N | 门票销量 | |
11 | scenic_area_heat | varchar | 64 | 0 | Y | N | 景区热度 | |
12 | hits | int | 10 | 0 | N | N | 0 | 点击数 |
13 | praise_len | int | 10 | 0 | N | N | 0 | 点赞数 |
14 | recommend | int | 10 | 0 | N | N | 0 | 智能推荐 |
15 | create_time | datetime | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间 |
16 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间 |
表attraction_level (景点等级)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | attraction_level_id | int | 10 | 0 | N | Y | 景点等级ID | |
2 | attraction_level | varchar | 64 | 0 | Y | N | 景点等级 | |
3 | recommend | int | 10 | 0 | N | N | 0 | 智能推荐 |
4 | create_time | datetime | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间 |
5 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间 |
表auth (用户权限管理)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | auth_id | int | 10 | 0 | N | Y | 授权ID: | |
2 | user_group | varchar | 64 | 0 | Y | N | 用户组: | |
3 | mod_name | varchar | 64 | 0 | Y | N | 模块名: | |
4 | table_name | varchar | 64 | 0 | Y | N | 表名: | |
5 | page_title | varchar | 255 | 0 | Y | N | 页面标题: | |
6 | path | varchar | 255 | 0 | Y | N | 路由路径: | |
7 | position | varchar | 32 | 0 | Y | N | 位置: | |
8 | mode | varchar | 32 | 0 | N | N | _blank | 跳转方式: |
9 | add | tinyint | 3 | 0 | N | N | 1 | 是否可增加: |
10 | del | tinyint | 3 | 0 | N | N | 1 | 是否可删除: |
11 | set | tinyint | 3 | 0 | N | N | 1 | 是否可修改: |
12 | get | tinyint | 3 | 0 | N | N | 1 | 是否可查看: |
13 | field_add | text | 65535 | 0 | Y | N | 添加字段: | |
14 | field_set | text | 65535 | 0 | Y | N | 修改字段: | |
15 | field_get | text | 65535 | 0 | Y | N | 查询字段: | |
16 | table_nav_name | varchar | 500 | 0 | Y | N | 跨表导航名称: | |
17 | table_nav | varchar | 500 | 0 | Y | N | 跨表导航: | |
18 | option | text | 65535 | 0 | Y | N | 配置: | |
19 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
20 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间: |
表collect (收藏)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | collect_id | int | 10 | 0 | N | Y | 收藏ID: | |
2 | user_id | int | 10 | 0 | N | N | 0 | 收藏人ID: |
3 | source_table | varchar | 255 | 0 | Y | N | 来源表: | |
4 | source_field | varchar | 255 | 0 | Y | N | 来源字段: | |
5 | source_id | int | 10 | 0 | N | N | 0 | 来源ID: |
6 | title | varchar | 255 | 0 | Y | N | 标题: | |
7 | img | varchar | 255 | 0 | Y | N | 封面: | |
8 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
9 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间: |
表comment (评论)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | comment_id | int | 10 | 0 | N | Y | 评论ID: | |
2 | user_id | int | 10 | 0 | N | N | 0 | 评论人ID: |
3 | reply_to_id | int | 10 | 0 | N | N | 0 | 回复评论ID:空为0 |
4 | content | longtext | 2147483647 | 0 | Y | N | 内容: | |
5 | nickname | varchar | 255 | 0 | Y | N | 昵称: | |
6 | avatar | varchar | 255 | 0 | Y | N | 头像地址:[0,255] | |
7 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
8 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间: |
9 | source_table | varchar | 255 | 0 | Y | N | 来源表: | |
10 | source_field | varchar | 255 | 0 | Y | N | 来源字段: | |
11 | source_id | int | 10 | 0 | N | N | 0 | 来源ID: |
表hits (用户点击)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | hits_id | int | 10 | 0 | N | Y | 点赞ID: | |
2 | user_id | int | 10 | 0 | N | N | 0 | 点赞人: |
3 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
4 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间: |
5 | source_table | varchar | 255 | 0 | Y | N | 来源表: | |
6 | source_field | varchar | 255 | 0 | Y | N | 来源字段: | |
7 | source_id | int | 10 | 0 | N | N | 0 | 来源ID: |
表notice (公告)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | notice_id | mediumint | 8 | 0 | N | Y | 公告id: | |
2 | title | varchar | 125 | 0 | N | N | 标题: | |
3 | content | longtext | 2147483647 | 0 | Y | N | 正文: | |
4 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
5 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间: |
表praise (点赞)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | praise_id | int | 10 | 0 | N | Y | 点赞ID: | |
2 | user_id | int | 10 | 0 | N | N | 0 | 点赞人: |
3 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
4 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间: |
5 | source_table | varchar | 255 | 0 | Y | N | 来源表: | |
6 | source_field | varchar | 255 | 0 | Y | N | 来源字段: | |
7 | source_id | int | 10 | 0 | N | N | 0 | 来源ID: |
8 | status | bit | 1 | 0 | N | N | 1 | 点赞状态:1为点赞,0已取消 |
表regional_classification (地区分类)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | regional_classification_id | int | 10 | 0 | N | Y | 地区分类ID | |
2 | geographical_name | varchar | 64 | 0 | Y | N | 地域名称 | |
3 | recommend | int | 10 | 0 | N | N | 0 | 智能推荐 |
4 | create_time | datetime | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间 |
5 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间 |
表slides (轮播图)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | slides_id | int | 10 | 0 | N | Y | 轮播图ID: | |
2 | title | varchar | 64 | 0 | Y | N | 标题: | |
3 | content | varchar | 255 | 0 | Y | N | 内容: | |
4 | url | varchar | 255 | 0 | Y | N | 链接: | |
5 | img | varchar | 255 | 0 | Y | N | 轮播图: | |
6 | hits | int | 10 | 0 | N | N | 0 | 点击量: |
7 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
8 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间: |
表tourism_users (旅游用户)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | tourism_users_id | int | 10 | 0 | N | Y | 旅游用户ID | |
2 | full_name | varchar | 64 | 0 | Y | N | 姓名 | |
3 | gender | varchar | 64 | 0 | Y | N | 性别 | |
4 | examine_state | varchar | 16 | 0 | N | N | 已通过 | 审核状态 |
5 | recommend | int | 10 | 0 | N | N | 0 | 智能推荐 |
6 | user_id | int | 10 | 0 | N | N | 0 | 用户ID |
7 | create_time | datetime | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间 |
8 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间 |
表tourist_attraction_booking (景点订票)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | tourist_attraction_booking_id | int | 10 | 0 | N | Y | 景点订票ID | |
2 | attraction_name | varchar | 64 | 0 | Y | N | 景点名字 | |
3 | urban_area | varchar | 64 | 0 | Y | N | 所在城区 | |
4 | detailed_address | varchar | 64 | 0 | Y | N | 详情地址 | |
5 | rating_of_scenic_spots | varchar | 64 | 0 | Y | N | 景区等级 | |
6 | ticket_price | varchar | 64 | 0 | Y | N | 门票价格 | |
7 | booking_user | int | 10 | 0 | Y | N | 0 | 订票用户 |
8 | booking_period | date | 10 | 0 | Y | N | 订票日期 | |
9 | tickets | int | 10 | 0 | Y | N | 0 | 订票数 |
10 | total_price | varchar | 64 | 0 | Y | N | 合计价格 | |
11 | recommend | int | 10 | 0 | N | N | 0 | 智能推荐 |
12 | create_time | datetime | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间 |
13 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间 |
表upload (文件上传)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | upload_id | int | 10 | 0 | N | Y | 上传ID | |
2 | name | varchar | 64 | 0 | Y | N | 文件名 | |
3 | path | varchar | 255 | 0 | Y | N | 访问路径 | |
4 | file | varchar | 255 | 0 | Y | N | 文件路径 | |
5 | display | varchar | 255 | 0 | Y | N | 显示顺序 | |
6 | father_id | int | 10 | 0 | Y | N | 0 | 父级ID |
7 | dir | varchar | 255 | 0 | Y | N | 文件夹 | |
8 | type | varchar | 32 | 0 | Y | N | 文件类型 |
表user (用户账户:用于保存用户登录信息)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | user_id | mediumint | 8 | 0 | N | Y | 用户ID:[0,8388607]用户获取其他与用户相关的数据 | |
2 | state | smallint | 5 | 0 | N | N | 1 | 账户状态:[0,10](1可用|2异常|3已冻结|4已注销) |
3 | user_group | varchar | 32 | 0 | Y | N | 所在用户组:[0,32767]决定用户身份和权限 | |
4 | login_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 上次登录时间: |
5 | phone | varchar | 11 | 0 | Y | N | 手机号码:[0,11]用户的手机号码,用于找回密码时或登录时 | |
6 | phone_state | smallint | 5 | 0 | N | N | 0 | 手机认证:[0,1](0未认证|1审核中|2已认证) |
7 | username | varchar | 16 | 0 | N | N | 用户名:[0,16]用户登录时所用的账户名称 | |
8 | nickname | varchar | 16 | 0 | Y | N | 昵称:[0,16] | |
9 | password | varchar | 64 | 0 | N | N | 密码:[0,32]用户登录所需的密码,由6-16位数字或英文组成 | |
10 | | varchar | 64 | 0 | Y | N | 邮箱:[0,64]用户的邮箱,用于找回密码时或登录时 | |
11 | email_state | smallint | 5 | 0 | N | N | 0 | 邮箱认证:[0,1](0未认证|1审核中|2已认证) |
12 | avatar | varchar | 255 | 0 | Y | N | 头像地址:[0,255] | |
13 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
表user_group (用户组:用于用户前端身份和鉴权)
编号 | 名称 | 数据类型 | 长度 | 小数位 | 允许空值 | 主键 | 默认值 | 说明 |
1 | group_id | mediumint | 8 | 0 | N | Y | 用户组ID:[0,8388607] | |
2 | display | smallint | 5 | 0 | N | N | 100 | 显示顺序:[0,1000] |
3 | name | varchar | 16 | 0 | N | N | 名称:[0,16] | |
4 | description | varchar | 255 | 0 | Y | N | 描述:[0,255]描述该用户组的特点或权限范围 | |
5 | source_table | varchar | 255 | 0 | Y | N | 来源表: | |
6 | source_field | varchar | 255 | 0 | Y | N | 来源字段: | |
7 | source_id | int | 10 | 0 | N | N | 0 | 来源ID: |
8 | register | smallint | 5 | 0 | Y | N | 0 | 注册位置: |
9 | create_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 创建时间: |
10 | update_time | timestamp | 19 | 0 | N | N | CURRENT_TIMESTAMP | 更新时间: |
3.4本章小结
整个基于Python的爬虫设计与数据分析的需求分析主要对系统总体架构以及功能模块的设计,通过建立E-R模型和数据库逻辑系统设计完成了数据库系统设计。
4 基于Python的爬虫设计与数据分析详细设计与实现
基于Python的爬虫设计与数据分析的详细设计与实现主要是根据前面的基于Python的爬虫设计与数据分析的需求分析和基于Python的爬虫设计与数据分析的总体设计来设计页面并实现业务逻辑。主要从基于Python的爬虫设计与数据分析界面实现、业务逻辑实现这两部分进行介绍。
4.1用户功能模块
4.1.1 前台首页界面
当进入基于Python的爬虫设计与数据分析的时候,首先映入眼帘的是系统的导航栏,下面是轮播图以及系统内容,其主界面展示如下图4-1所示。
图4-1 前台首页界面图
4.1.2用户登录界面
基于Python的爬虫设计与数据分析中的前台上注册后的用户是可以通过自己的账户名和密码进行登录的,当用户输入完整的自己的账户名和密码信息并点击“登录”按钮后,将会首先验证输入的有没有空数据,再次验证输入的账户名+密码和数据库中当前保存的用户信息是否一致,只有在一致后将会登录成功并自动跳转到基于Python的爬虫设计与数据分析的首页中;否则将会提示相应错误信息,用户登录界面如下图4-2所示。
图4-2用户登录界面图
4.1.3用户注册界面
不是基于Python的爬虫设计与数据分析中正式用户的是可以在线进行注册的,如果你没有本基于Python的爬虫设计与数据分析的账号的话,添加“注册”,当填写上自己的账号+密码+确认密码+昵称+邮箱+手机号等后再点击“注册”按钮后将会先验证输入的有没有空数据,再次验证密码和确认密码是否是一样的,最后验证输入的账户名和数据库表中已经注册的账户名是否重复,只有都验证没问题后即可用户注册成功。其用用户注册界面展示如下图4-3所示。
图4-2用户注册界面图
4.1.4公告栏界面
当点击导航栏上的“公告栏”的时候,就会进入对应的界面查看公告栏,公告栏界面如下图4-4所示。
图4-4公告栏界面图
当访客点击基于Python的爬虫设计与数据分析中导航栏上的“旅游资讯”后将会进入到该“旅游资讯”列表的界面,然后选择想要看的旅游资讯,点击进入到详细界面,同时可以进行点赞、收藏、评论操作,旅游资讯界面如下图4-5 所示。
图4-5旅游资讯界面图
4.1.6景点信息界面
当用户点击“景点信息”这一菜单按钮,会显示管理员在后台发布的所有的景点信息,支持通过关键词对景点信息进行搜索,选择需要的景点信息点击可以进入到景点信息详细的介绍界面,在详细界面可以查看到景点的景点名字、景点描述、门票销量、所在城区、景区等级、景区热度、详情地址、门票价格等信息,同时可以进行订票、点赞、收藏、评论操作,景点信息界面如下图4.5所示。
图4-6景点信息界面图
4.1.7订票界面
当用户在景点信息详情界面想要进行订票,点击下方的“订票”按钮,就会跳转到订票信息填写界面,根据界面提示输入订票信息,点击“提交”按钮,订票就完成了,订票界面如下图4-7所示。
图4-7订票界面图
4.2管理员功能模块
基于Python的爬虫设计与数据分析的理员拥有最高的权限,可以对用户信息、系统信息以及基于Python的爬虫设计与数据分析相关信息进行管控。
管理员在后台可以通过账号和密码进行登录,管理员的账号和密码是在数据库中直接设定的。界面展示如下图4-8所示。
图4-8登录界面图
管理员点击“系统用户”这一菜单会显示管理员以及旅游用户这两个子菜单,管理员可以对这两个角色的信息进行增删改查操作。界面如下图4-9所示。
图4-9系统用户管理界面图
4.2.3公告栏管理界面
管理员点击“公告栏管理”菜单可以查看到系统中的所有公告栏信息,对已经存在的公告栏信息,管理员可以修改,也可以添加新的公告信息或者删除公告信息。界面如下图4-10所示。
图4-10公告栏管理界面图
资源管理主要管理员是对旅游资讯以及旅游资讯所属的分类进行管控,包含了用户对旅游资讯提交的评论信息,界面如下图4-11所示。
图4-11资源管理界面图
基于Python的爬虫设计与数据分析中的管理人员在“模块管理”这一菜单下是可以对基于Python的爬虫设计与数据分析内的地区分类、景点等级、景点信息、景点订票进行管控的,其管理界面如下图4-12所示。
爬虫数据界面如下图所示:
图4-13爬虫数据界面
5系统测试
系统开发到了最后一个阶段那就是系统测试,系统测试对软件的开发其实是非常有必要的。因为没什么系统一经开发出来就可能会尽善尽美,再厉害的系统开发工程师也会在系统开发的时候出现纰漏,系统测试能够较好的改正一些bug,为后期系统的维护性提供很好的支持。通过系统测试,开发人员也可以建立自己对系统的信心,为后期的系统版本的跟新提供支持。
系统测试包括:用户登录功能测试、景点信息展示功能测试、景点信息添加、景点信息搜索、密码修改功能测试,如表5-1、5-2、5-3、5-4、5-5所示:
表5-1 用户登录功能测试表
用例名称 | 用户登录系统 |
目的 | 测试用户通过正确的用户名和密码可否登录功能 |
前提 | 未登录的情况下 |
测试流程 | 1) 进入登录页面 2) 输入正确的用户名和密码 |
预期结果 | 用户名和密码正确的时候,跳转到登录成功界面,反之则显示错误信息,提示重新输入 |
实际结果 | 实际结果与预期结果一致 |
景点信息查看功能测试:
表5-2 景点信息查看功能测试表
用例名称 | 景点信息查看 |
目的 | 测试景点信息查看功能 |
前提 | 用户登录 |
测试流程 | 点击景点信息列表 |
预期结果 | 可以查看到所有景点信息 |
实际结果 | 实际结果与预期结果一致 |
管理员添加景点信息界面测试:
表5-3 管理员添加景点信息界面测试表
用例名称 | 景点信息发布测试用例 |
目的 | 测试景点信息发布功能 |
前提 | 用户正常登录情况下 |
测试流程 | 1)点击景点信息管理就,然后点击添加后并填写信息。 2)点击进行提交。 |
预期结果 | 提交以后,页面首页会显示新的景点信息 |
实际结果 | 实际结果与预期结果一致 |
景点信息搜索功能测试:
表5-4景点信息搜索功能测试表
用例名称 | 景点信息搜索测试 |
目的 | 测试景点信息搜索功能 |
前提 | 无 |
测试流程 | 1)在搜索框填入搜索关键字。 2)点击搜索按钮。 |
预期结果 | 页面显示包含有搜索关键字的景点信息 |
实际结果 | 实际结果与预期结果一致 |
密码修改功能测试:
表5-5 密码修改功能测试表
用例名称 | 密码修改测试用例 |
目的 | 测试管理员密码修改功能 |
前提 | 管理员用户正常登录情况下 |
测试流程 | 1)管理员密码修改并完成填写。 2)点击进行提交。 |
预期结果 | 使用新的密码可以登录 |
实际结果 | 实际结果与预期结果一致 |
通过编写基于Python的爬虫设计与数据分析的测试用例,已经检测完毕用户登录模块、景点信息查看模块、景点信息添加模块、景点信息搜索模块、密码修改功能测试,通过这5大模块为基于Python的爬虫设计与数据分析的后期推广运营提供了强力的技术支撑。
至此,基于Python的爬虫设计与数据分析已经结束,在开发前做了许多的准备,在本系统的设计和开发过程中阅览和学习了许多文献资料,从中我也收获了很多宝贵的方法和设计思路,对系统的开发也起到了很重要的作用,系统的开发技术选用的都是自己比较熟悉的,比如Web、django技术、MYSQL,这些技术都是在以前的学习中学到了,其中许多的设计思路和方法都是在以前不断地学习中摸索出来的经验,其实对于我们来说工作量还是比较大的,但是正是由于之前的积累与准备,才能顺利的完成这个项目,由此看来,积累经验跟做好准备是十分重要的事情。
当然在该系统的设计与实现的过程中也离不开老师以及同学们的帮助,正是因为他们的指导与帮助,我才能够成功的在预期内完成了这个系统。同时在这个过程当中我也收获了很多东西,此系统也有需要改进的地方,但是由于专业知识的浅薄,并不能做到十分完美,希望以后有机会可以让其真正的投入到使用之中。
[1]丁然.基于Python爬虫技术的高校网络舆情数据分析研究——以“安徽审计职业学院百度贴吧”为例[J].现代信息科技,2023,7(05):106-108+112.DOI:10.19850/j.cnki.2096-4706.2023.05.025.
[2]武玲梅,李秋萍,黄秀芳,张立强,董力量,罗芳琼.基于Django框架的电影推荐系统的设计与实现[J].电脑知识与技术,2023,19(04):56-61.DOI:10.14004/j.cnki.ckt.2023.0204.
[3]魏炎,孙畅.利用Python技术批量提取文档数据[J].审计月刊,2023(01):27-28.DOI:10.15882/j.cnki.sjyk.2023.01.022.
[4]张璐璐,吴丽杰,孙俊杰,王星月.基于网络数据自动提取的爬虫设计与实现[J].广州航海学院学报,2022,30(04):74-78.
[5]张晓芳,董坤景,赵丽娟.python技术在财务分析中的应用研究[J].邯郸职业技术学院学报,2022,35(04):38-41.
[6]曾文敬,徐长文,肖建华,范卫星,赵璇,曾先进,陈建龙.基于Django框架的江西地震目录数据可视化系统设计及实现[J].四川地震,2022(04):37-40+45.DOI:10.13716/j.cnki.1001-8115.2022.04.007.
[7]洪丽华,黄琼慧.基于Python爬虫技术的研究[J].价值工程,2022,41(34):154-156.
[8]李轩宇,赵颖,肖忠良,李轩.基于Python爬虫的旅游网站数据分析与可视化设计分析[J].电脑知识与技术,2022,18(33):58-60+70.DOI:10.14004/j.cnki.ckt.2022.2093.
[9]文雪巍,邢婷,李鹏,孙杰.基于网络爬虫疫情数据分析及可视化系统的设计与实现[J].黑龙江工程学院学报,2022,36(05):32-37.DOI:10.19352/j.cnki.issn1671-4679.2022.05.006.
[10]王国华. 基于python的豆瓣电影网络爬虫设计与分析[C]//天津市电子学会.第三十六届中国(天津)2022’IT、网络、信息技术、电子、仪器仪表创新学术会议论文集.第三十六届中国(天津)2022’IT,2022:212-215.DOI:10.26914/c.cnkihy.2022.015025.
[11]林彬,杨彬彬,孙芳.基于Django框架的高校就业信息可视化平台的设计与实现[J].辽宁师范大学学报(自然科学版),2022,45(02):201-208.
[12]吴飞,石兰,马梅兰,王江,何新宇,依明·苏来曼.基于Django框架的肉羊遗传评估系统的设计[J].中国畜牧杂志,2022,58(11):127-131.DOI:10.19556/j.0258-7033.20211111-05.
[13]张小秋.基于Scrapy框架的网络爬虫分析与抓取实现[J].电脑编程技巧与维护,2022(02):18-19+44.DOI:10.16184/j.cnki.comprg.2022.02.055.
[14]马吉聪. 基于Django框架的糖尿病预测系统的设计与实现[D].云南师范大学,2021.DOI:10.27459/d.cnki.gynfc.2021.001620.
[15]Li Hui chao,Shen Shun fa. Construction of College Students’ Physical Health Data Sharing System Based on Django Framework[J]. Journal of Sensors,2021,2021.
[16]邹思宇. 基于网络爬虫的计量数据分析系统开发[D].吉林大学,2021.DOI:10.27162/d.cnki.gjlin.2021.005258.
[17]Vamsi K. Manikanta,Lokesh P.,Reddy K. Neha,Swetha P.. Visualization of Real World Enterprise Data using Python Django Framework[J]. IOP Conference Series: Materials Science and Engineering,2021,1042(1).
致 谢
逝者如斯夫,不舍昼夜。转眼间,大用户用户活便已经接近尾声,人面对着离别与结束,总是充满着不舍与茫然,我亦如此,仍记得那年秋天,我迫不及待的提前一天到了学校,面对学校巍峨的大门,我心里充满了期待:这里,就是我新生活的起点吗?那天,阳光明媚,学校的欢迎仪式很热烈,我面对着一个个对着我微笑的同学,仿佛一缕缕阳光透过胸口照进了我心里,同时,在那天我认识可爱的室友,我们携手共同度过了这难忘的两年。如今,我望着这篇论文的致谢,不禁又要问自己:现在,我们就要说再见了吗?
感慨莫名,不知所言。遥想当初刚来学校的时候,心里总是想着工科学校会过于板正,会缺乏一些柔情,当时心里甚至有一点点排斥,但是随着我对学校的慢慢认识与了解,我才认识到了她的美丽,她的柔情,并且慢慢的喜欢上了这个校园,但是时间太快了,快到我还没有好好体会她的美丽便要离开了,但是她带给我的回忆,永远不会离开我,也许真正离开那天我的眼里会满含泪水,我不是因为难过,我只是想将她的样子映在我的泪水里,刻在我的心里。最后,感谢我的老师们,是你们教授了我们知识与做人的道理;感谢我的室友们,是你们陪伴了我如此之久;感谢每位关心与支持我的人。
少年,追风赶月莫停留,平荒尽处是春山。
免费领取项目源码,请关注点赞+私聊