Bootstrap

自己动手写网络爬虫-----(1)

照着书上把代码写完之后运行MyCrawler主程序,发现在存储的路径下面只有一个网页内容,就说明爬虫只爬取了一个网页,仔细检查了书上的代码,发现并没有错误,后来查了API之后才发现,在Parser的构造函数里有一个是可以带参数的,我就说嘛,没有传入URL的参数,它怎么知道解析哪个嘛。

![parser带参数截图]

带了参数之后,但发现还是只有一个网页,我就知道肯定是过滤器出问题了,于是把过滤器改了,不管怎么样都解析,就是把不符合过滤条件的else部分也返回true,这样果然是没问题了,可以爬取很多网页了。初级的爬虫就这样完成了。 后来我发现运行时,控制台总是提示警告,大概意思是说无法预料到获取的网页实际大小是多少,不好给出缓存空间,建议使用流式读取内容。。。。

我参照httpClient的APi使用GetResponseBodyAsStream代替了之前的GetResponseBody,可是又出问题了,写入内容时乱码了。 网上查了之后找到了问题所在,也找到了解决办法,原因在于用BufferedReader缓存输入流里面的数据时,InputStreamReader读取流的时候使用的是默认的字符集:

InputStreamReader(InputStream in) 创建一个使用默认字符集的 InputStreamReader。

InputStreamReader(InputStream in, Charset cs) 创建使用给定字符集的 InputStreamReader。

InputStreamReader(InputStream in, CharsetDecoder dec) 创建使用给定字符集解码器的 InputStreamReader。

InputStreamReader(InputStream in, String charsetName) 创建使用指定字符集的 InputStreamReader。  

因为不知道到底要用什么字符集来读取,只有先用ISO-9958-1来读取,然后用readline函数来转换成字符串,之后再用String的getByte(charset)来转换成字节序列,最后直接把这个写入到本地文件就可以了。![截图]


;