Bootstrap

SimpleDirectoryReader 读取中文件乱码

问题:

使用SimpleDirectoryReader读取文件夹里的文件时,出现乱码。

from llama_index.core  import SimpleDirectoryReader
documents = SimpleDirectoryReader(
    input_dir="./data/文件夹的地址",
    # encoding="GB2312"
).load_data()

解决办法:

添加encoding参数为GB2312。

documents = SimpleDirectoryReader(
    input_dir="./data/监管事项库与分类标准",
    encoding="GB2312"
).load_data()

;