日志分析方法

日志分析方法
分析方法：
- 1.特征字符分析（Signature-based）：
- 2.访问频率分析（Frequency analysis）
难点：
风险评估模型：
参考：

分析方法：

1.特征字符分析（Signature-based）：

在日志中查找已知的漏洞特征，去发现黑客攻击行为，是最简单的方法。

2.访问频率分析（Frequency analysis）

在黑客攻击过程中，需要对系统进行各种特定的访问，这些访问与正常用户访问有很大差别，每种攻击行为都有不同的特征。

通过对大量用户访问数据的挖掘，可以发现这些异常访问行为。

1.漏洞扫描检测:

黑客使用漏洞扫描器对 Web 应用进行扫描，可以用匹配 User-Agent 特征的方式进行检测。如果自定义扫描器的 User-Agent，这个方法的效果可能会不好。

但可匹配扫描器扫描的行为，

访问目标离散
来源地址相对固定
访问结果大多数失败

根据这些特征对 Web 访问日志进行分析，即可提取出来可疑的扫描行为。

2.暴力破解检测:

暴力破解密码的特征是

相对固定的来源地址
对登录URL短时间内高频率发起请求

与漏洞扫描的区别主要是目标 URL 固定。

3.webshell 检测

如果黑客发现系统漏洞，并且利用漏洞获得上传权限，会向系统上传 webshell。

webshell 是一种后门程序，此程序由脚本语言编写，可以在 Web 服务器上运行，攻击者可以通过网页执行系统命令，读写系统文件。

从访问行为的角度看，webshell 通常

只有攻击者访问
来源地址相对固定
访问时间相对集中
无内嵌其他页面

通过这些特征即可提取出可疑文件，再通过人工确认的方式，检测出 webshell。

难点：

1.日志中POST数据是不记录的，所以攻击者如果找到的漏洞点为POST请求，那么刚刚上面的注入请求就不会在日志中体现
2.状态码虽然表示了响应状态，但是存在多种不可信情况，如服务器配置自定义状态码。
- 如在我经验中，客户服务器配置网站应用所有页面状态码皆为200，用页面内容来决定响应,或者说服务器配置了302跳转，用302到一个内容为“不存在页面”（你可以尝试用curl访问http://www.baidu.com/test.php看看响应体）
3.攻击者可能使用多个代理IP，假如我是一个恶意攻击者，为了避免日后攻击被溯源、IP被定位，会使用大量的代理IP从而增加分析的难度（淘宝上，一万代理IP才不到10块钱，就不说代理IP可以采集免费的了）
如果一个攻击者使用了大量不同的IP进行攻击，那么使用上面的方法可能就无法进行攻击行为溯源了
4.无恶意webshell访问记录，刚才我们采用的方法是通过“webshell”这个文件名从日志中找到恶意行为，如果分析过程中我们没有找到这么一个恶意webshell访问，又该从何入手寻找攻击者的攻击路径呢？
5.分析过程中我们还使用恶意行为关键字来对日志进行匹配，假设攻击者避开了我们的关键字进行攻击？比如使用了各种编码，16进制、Base64等等编码，再加上攻击者使用了代理IP使我们漏掉了分析中攻击者发起的比较重要的攻击请求
6.APT攻击，攻击者分不同时间段进行攻击，导致时间上无法对应出整个攻击行为
7.日志数据噪声（这词我也不知道用得对不对）上文提到过，攻击者可能会使用扫描器进行大量的扫描，此时日志中存在大量扫描行为，此类行为同样会被恶意行为关键字匹配出，但是此类请求我们无法得知是否成功扫描到漏洞，可能也无法得知这些请求是扫描器发出的，扫描器可使用代理IP、可进行分时策略、可伪造客户端特征、可伪造请求来源或伪造成爬虫。此时我们从匹配出的海量恶意请求中很难得出哪些请求攻击成功了

风险评估模型：

在这些 Web 日志中提取出动态页面的动态交互参数，
通过字符串截取或正则匹配的方式便能完成这样的需求。在获得了交互参数后，
统计这些参数中含有某种类型攻击的关键词的数量，以及
这些关键词占总提交参数的百分比，
- 在Web日志中

参考：

携程ELK日志分析平台深耕之路

B站日志系统的前世今生