Bootstrap

如何使用RSpace文档加载器将RSpace笔记本导入Langchain管道

老铁们,今天咱们来聊聊如何使用RSpace文档加载器,将你在RSpace电子实验室笔记本中的研究笔记和文档导入到Langchain管道中。其实这个流程并不复杂,只需要一个RSpace账号和API密钥即可。

首先,如果你还没有RSpace账号,可以到这里注册一个免费的账号,或者使用你的机构RSpace账号。拿到账号之后,记得从你的账号设置页面获取一个API令牌。

%pip install --upgrade --quiet rspace_client

为了安全起见,建议将你的RSpace API密钥存储为环境变量:

RSPACE_API_KEY=<YOUR_KEY>

同时,你还需要设置RSpace的URL,比如:

RSPACE_URL=https://community.researchspace.com

如果你使用上述的环境变量名称,它们会被自动检测到,这波操作可以说是相当丝滑。

from langchain_community.document_loaders.rspace import RSpaceLoader

API参考: RSpaceLoader

通过RSpaceLoader,你可以导入多种RSpace中的内容:

  • 单个结构化或基础文档,这将与Langchain文档一一映射。
  • 一个文件夹或笔记本,笔记本或文件夹中的所有文档都将被导入为Langchain文档。
  • 对于在RSpace图库中的PDF文件,也可以单独导入。实际上,Langchain的PDF加载器将在幕后使用,每个PDF页面创建一个Langchain文档。

示例代码

替换成你自己的研究笔记ID,确保使用全局ID(带两字符前缀),这样加载器才能知道如何调用RSpace API:

rspace_ids = ["NB1932027", "FL1921314", "SD1932029", "GL1932384"]
for rs_id in rspace_ids:
    loader = RSpaceLoader(global_id=rs_id)
    docs = loader.load()
    for doc in docs:
        # 名称和ID将添加到'source'元数据属性中
        print(doc.metadata)
        print(doc.page_content[:500])

如果你不想使用环境变量,也可以直接将API密钥和URL传递给RSpaceLoader:

loader = RSpaceLoader(
    global_id=rs_id, api_key="MY_API_KEY", url="https://my.researchspace.com"
)

相关内容:

今天的技术分享就到这里,希望对大家有帮助。开发过程中遇到问题也可以在评论区交流~

;