老铁们,今天咱们来聊聊如何使用RSpace文档加载器,将你在RSpace电子实验室笔记本中的研究笔记和文档导入到Langchain管道中。其实这个流程并不复杂,只需要一个RSpace账号和API密钥即可。
首先,如果你还没有RSpace账号,可以到这里注册一个免费的账号,或者使用你的机构RSpace账号。拿到账号之后,记得从你的账号设置页面获取一个API令牌。
%pip install --upgrade --quiet rspace_client
为了安全起见,建议将你的RSpace API密钥存储为环境变量:
RSPACE_API_KEY=<YOUR_KEY>
同时,你还需要设置RSpace的URL,比如:
RSPACE_URL=https://community.researchspace.com
如果你使用上述的环境变量名称,它们会被自动检测到,这波操作可以说是相当丝滑。
from langchain_community.document_loaders.rspace import RSpaceLoader
API参考: RSpaceLoader
通过RSpaceLoader,你可以导入多种RSpace中的内容:
- 单个结构化或基础文档,这将与Langchain文档一一映射。
- 一个文件夹或笔记本,笔记本或文件夹中的所有文档都将被导入为Langchain文档。
- 对于在RSpace图库中的PDF文件,也可以单独导入。实际上,Langchain的PDF加载器将在幕后使用,每个PDF页面创建一个Langchain文档。
示例代码
替换成你自己的研究笔记ID,确保使用全局ID(带两字符前缀),这样加载器才能知道如何调用RSpace API:
rspace_ids = ["NB1932027", "FL1921314", "SD1932029", "GL1932384"]
for rs_id in rspace_ids:
loader = RSpaceLoader(global_id=rs_id)
docs = loader.load()
for doc in docs:
# 名称和ID将添加到'source'元数据属性中
print(doc.metadata)
print(doc.page_content[:500])
如果你不想使用环境变量,也可以直接将API密钥和URL传递给RSpaceLoader:
loader = RSpaceLoader(
global_id=rs_id, api_key="MY_API_KEY", url="https://my.researchspace.com"
)
相关内容:
今天的技术分享就到这里,希望对大家有帮助。开发过程中遇到问题也可以在评论区交流~