简单Elasticsearch实战(一)介绍
简单Elasticsearch实战(二)python爬取招聘网站信息
简单Elasticsearch实战(三)python连接Elasticsearch
简单Elasticsearch实战(四)数据清洗后,从mysql导入Elasticsearch
简单Elasticsearch实战(五)利用kabana做简单数据分析
介绍
啰嗦
最近开始学习ETL,顺便做一下笔记,也正好最近想要了解一下大数据方面的工作,学的再多不如实际操作一下,于是便萌生了一个招聘职业分析的想法。本文都是一些简单的实战演练,算是一篇入门文章吧,仅供学习参考(其实是怕自己忘了写个笔记······)
Elasticsearch介绍
Elasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。Elasticsearch 在 Apache Lucene 的基础上开发而成,由 Elasticsearch N.V.(即现在的 Elastic)于 2010 年首次发布。Elasticsearch 以其简单的 REST 风格 API、分布式特性、速度和可扩展性而闻名,是 Elastic Stack 的核心组件;Elastic Stack 是适用于数据采集、充实、存储、分析和可视化的一组开源工具。人们通常将 Elastic Stack 称为 ELK Stack(代指 Elasticsearch、Logstash 和 Kibana),目前 Elastic Stack 包括一系列丰富的轻量型数据采集代理,这些代理统称为 Beats,可用来向 Elasticsearch 发送数据。
Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析,简而言之,他是一个搜索引擎,基于RESTful web接口,查询效率非常高,速度非常快,底层基于Lucene,使用java编写,而且也可以简单当做NoSQL数据库使用
Elasticsearch 的用途是什么?
Elasticsearch 在速度和可扩展性方面都表现出色,而且还能够索引多种类型的内容,这意味着其可用于多种用例:
- 应用程序搜索
- 网站搜索
- 企业搜索
- 日志处理和分析
- 基础设施指标和容器监测
- 应用程序性能监测
- 地理空间数据分析和可视化
- 安全分析
- 业务分析
流程
既然目的有了,便开始吧,主要分为以下几个部分
- 数据获取
- 数据清洗简单存入数据库
- 导入数据到Elasticsearch
- 使用kibana等工具简单分析
数据源获取就采用python爬虫爬一些招聘网站的信息,这里就用51job(因为简单好爬),之后我们简单处理后存入mysql备用,安装好es之后我们把数据导入到es中,然后利用画图工具echart或者直接用kibana展示结果,很简单一个流程。
本文Elasticsearch基于7.x版本
关于elasticsearch和kibana的安装本文就不过多赘述了,一方面百度资料已经很多且非常全,另一方面,官方这一点做的非常好,开箱即用,无论是安装还是使用都非常简单。