目录
1、什么是JS、JS反爬是什么?JS逆向是什么?
JS: JS全称JavaScript 是互联网上最流行的脚本语言,这门语言可用于 HTML 和 web,更可广泛用于服务器、PC、笔记本电脑、平板电脑和智能手机等设备。JavaScript 是一种轻量级的编程语言。JavaScript 是可插入 HTML 页面的编程代码。JavaScript 插入 HTML 页面后,可由所有的现代浏览器执行。 JS反爬: JS反爬是指爬虫在获取网页数据时,遇到了通过JavaScript代码爬实现的反措施。JS反爬技术的实现方式包括动态渲染、异步加载、验证码、IP限制等多种方式。这些技术可以有效地防止爬虫的抓取,保护网站的数据安全。 JS逆向: JS逆向是指通过分析和破解JavaScript代码,获取反爬措施的规则和实现方式,从而绕过反爬措施,实现爬虫的抓取。JS逆向需要具备一定的JavaScript编程能力和代码分析能力,对于爬虫开发者来说是一项高级的技能。 需要注意的是,进行JS逆向可能会涉及到法律风险和道德问题,因此在进行爬虫开发时,应该遵守相关法规和道德规范,避免侵犯他人的合法权益。 <a name="FqXCK"></a>
2、JS逆向的大致流程
-
分析目标网站的反爬措施:使用浏览器开发者工具或网络抓包工具分析目标网站的JavaScript代码和网络请求数据,了解反爬措施的实现方式和规则。常见的反爬措施包括动态渲染、异步加载、验证码、IP限制等。
-
理解和分析JavaScript代码:使用代码编辑器或开发者工具等工具,分析网站的JavaScript代码,了解其运行原理、代码结构和实现方式。这可以帮助你找到反爬措施的规则和实现方式,从而更好地绕过它们。
-
绕过反爬措施:根据分析结果,采用相应的技术和方法绕过反爬措施。比如,对于动态渲染的网页,可以使用无头浏览器(如Selenium)模拟浏览器的操作,从而获取渲染后的网页数据;对于异步加载的网页,可以使用JavaScript库(如Puppeteer)模拟浏览器的异步请求,从而获取异步加载后的数据;对于验证码的网站,可以使用打码平台或自动识别技术(如OCR)来识别验证码。
-
调试和优化:进行调试和优化,确保爬虫程序能够稳定地运行,并且能够在反爬措施更新后及时进行适配。
需要注意的是,JS逆向需要具备一定的JavaScript编程能力和代码分析能力,不同的网站可能有不同的反爬措施和实现方式,因此需要根据具体情况采用不同的技术和方法进行绕过。同时,在进行JS逆向时,需要遵守相关法规和道德规范,避免侵犯他人的合法权益。 <a name="UJgyk"></a>
3、逆向的环境搭建
3.1、安装node.js
下载网站:Download | Node.js 参考网站:Node.js安装与环境配置_各自安好、的博客-CSDN博客 <a name="ww4wp"></a>
3.2、安装js代码调试工具(vscode)
下载网站: Download Visual Studio Code - Mac, Linux, Windows 参数网站:https://www.cnblogs.com/csji/p/13558221.html 运行js代码插件: 在VSCode中直接运行js代码 - 简书 <a name="uj7Ex"></a>
3.3、安装PyExecJs模块
PyExecJS用于实现在Python中运行JavaScript代码的功能,移植自Ruby的ExecJS库。 安装命令:pip install PyExecJs -i https://pypi.douban.com/simple <a name="VLXRj"></a>
4、JS常见加密算法
4.1、Base64算法
base64是一种用64个字符来表示任意二进制数据的方法。 base64使用 A--Z a--z 0--9 + / 这64个字符实现对数据的加密。 <a name="UpuIe"></a>
4.2、MD5算法
MD5是一种被广泛使用的线性散列算法,可以产出一个128位(16字节)的散列值(hash value),用于确保信息传输完整的一致性。且MD5加密之后产生的是一个固定长度(32位或16位)数据。 MD5参考网址: https://cdn.bootcdn.net/ajax/libs/blueimp-md5/1.0.1/js/md5.js md5破解网址:md5在线解密破解,md5解密加密 或者 md5在线加密解密 补充: 为了提高密码的安全性 一般会在密码后面加上一个随机数或者是时间戳 这个随机数或者是时间戳 我们一般称之为盐 <a name="kbODp"></a>
4.3、DES/AES算法
DES对称加密,是一种比较传统的加密方式,其加密运算、解密运算使用的是同样的密钥,信息的发送者。 和信息的接收者在进行信息的传输与处理时,必须共同持有该密钥(称为对称密码),是一种对称加密算法。一般来说加密用的是encrypt()函数,解密用的是decrypt()函数。 AES/DES加密解密网址: 在线加密/解密,对称加密/非对称加密 <a name="ZuF66"></a>
4.2.2 AES与DES的区别
-
加密后密文长度不同
-
DES加密后密文长度是8的整数倍
-
AES加密后密文的长度是16的整数倍
-
-
安全度不同
-
一般情况下DES足够安全
-
如果要求高可以使用AES
-
-
DES和AES切换只需要修改CryptoJS.DES =>CryptoJS.AES <a name="mFwmr"></a>
4.4、RSA算法
RSA加密算法是一种非对称加密算法。在公开密钥加密和电子商业中RSA被广泛使用。有两把对应密钥,公钥和私钥。用公钥加密只能用私钥解开,用私钥加密只能用公钥解密。 RSA加密解密网址:RSA加密、RSA解密 - 在线工具 - OKTools
4.5 JS算法注意点
在JS逆向中,并不是所有的都存在加密算法 有时候 不需要去分析出是什么加密算法直接扣出代码即可。 <a name="P6Sfm"></a>
5、chrome常见调试技巧
-
断点调试:在需要调试的JavaScript代码行上设置断点,当代码执行到该执行时,会暂停执行,可以查看当前变量和调用栈等信息。可以通过点击行号来设置断点。
-
控制台调试:在控制台面板中可以执行JavaScript代码,可以查看和修改数量的值,以及调用函数和方法等。可以使用console.log()、console.error()等方法来输出调试信息。 <a name="oTCbg"></a>
6、Base64编码详讲
Base64编码由来
为什么会有Base64编码呢?因为有些网络传送渠道并不支持所有的字节,例如传统的邮件只支持可见字符的传送,像ASCII码的控制字符就不能通过邮件传送。这样用途就受到了很大的限制,比如图片二进制流的每个字节不可能全部是可见字符,所以就传送不了。最好的方法就是在不改变传统协议的情况下,做一种扩展方案来支持二进制文件的传送。把不可打印的字符也能用可打印字符来表示,问题就解决了。Base64编码应运而生,Base64就是一种基于64个可打印字符来表示二进制数据的表示方法。 <a name="tvMMh"></a>
Base64编码原理分析参考
https://www.cnblogs.com/luguo3000/p/3940197.html <a name="iZ5Kp"></a>
Base64在python中的应用
import base64 """将字符串转换成base64编码""" string = "https://www.baidu.com" temp_b = string.encode("utf-8") # 将字符串转换为二进制 print(temp_b) content_b = base64.b64encode(temp_b) print(content_b) str_result = content_b.decode('utf-8') print(str_result) """将Base64编码还原为字符串""" str_result = "aHR0cHM6Ly93d3cuYmFpZHUuY29t" my_str = base64.b64decode(str_result).decode("utf-8") print(my_str) """处理base64编码的图片""" import base64 src = "" # 切割字符串,获取后面图片数据部分 image_data = src.split(',')[1] # 解码-->二进制数据 image = base64.b64decode(image_data) print(image) with open('验证码.jpg','wb') as f: f.write(image)
7、MD5详讲
一、MD5加密是什么?
MD5是一种常用的消息摘要算法,它可以将任意长度的消息压缩成一个128位的哈希值。MD5算法广泛应用于数字签名、数据完整性校验、密码学等领域。 MD5(Message-Digest Algorithm 5)是一种常用的哈希算法,它将任意长度的消息压缩成一个128位的消息摘要(即哈希值),并且具有不可逆性、唯一性、抗碰撞性等特点。 <a name="bEnci"></a>
二、MD5加密解密的原理?
MD5算法的原理是将输入的消息分成512位的数据块,每个数据块再分成16个32位的小块,然后通过一系列的位运算和非线性函数,对每个小块进行处理,最终得到一个128位的哈希值。由于MD5算法的设计,即使输入的消息只有微小的变化,也会导致输出的哈希值发生巨大的变化,因此可以用来验证数据的完整性和真实性。 <a name="vCvKT"></a>
三、MD5算法的用途
数据完整性验证:通过比较两个文件的MD5值,可以判断它们是否相同,从而验证文件的完整性。 密码加密:将用户的密码进行MD5加密后,可以保证用户密码的安全性,即使数据库被攻击,攻击者也无法直接获取用户的密码。 数字签名:数字签名是一种保证数据完整性和真实性的技术,MD5算法可以用来生成数字签名。 安全访问控制:MD5算法可以用来生成安全访问控制的密钥,从而保证访问控制的安全性。