Bootstrap

【langchain学习】使用CharacterTextSplitter对文本进行分割

CharacterTextSplitter按照字符来分割文本,并通过字符数量来测量块的长度

from icecream import ic
from langchain.text_splitter import CharacterTextSplitter
text = """
约纳斯·温格高·拉斯穆森(丹麦语:Jonas Vingegaard Rasmussen,1996年12月10日—)是一名丹麦自行车手,效力于珍宝-维斯玛车队,2022年和2023年环法自行车赛总冠军得主。
温格高于2016年签约丹麦车队ColoQuick成为职业车手,同时在鱼类加工厂兼职打工。后于2019年加入珍宝-维斯玛车队。在2021年环法自行车赛上,车队主将普里莫日·罗格里奇多次摔车,于第9赛段前弃赛,先前担任辅助的温格高临时补成主将,最终获得当届亚军。
在2022年环法自行车赛上,他在第11赛段格拉农山口的爬坡之战中一举击败当时黄衫保有者塔德伊·波加萨尔,以2分钟多的优势穿上黄衫,并一直保持到赛事结束,成为继比耶·里斯后第二位赢得环法总冠军的丹麦车手。丹麦出动2架F-16战斗机护送他回国,并在哥本哈根市政厅广场前为其举办了盛大的庆祝仪式。
"""
text_spitter = CharacterTextSplitter(separator="\n\n", chunk_size=300, chunk_overlap=0, length_function=len)
ic(text_spitter.split_text(text))

得到结果:

ic| text_spitter.split_text(text): ['约纳斯·温格高·拉斯穆森(丹麦语:Jonas Vingegaard '
                                    'Rasmussen,1996年12月10日—)是一名丹麦自行车手,效力于珍宝-维斯玛车队,2022年和2023年环法自行车赛总冠军得主。
                                   '
                                    '温格高于2016年签约丹麦车队ColoQuick成为职业车手,同时在鱼类加工厂兼职打工。后于2019年加入珍宝-维斯玛车队。在2021年环法自行车赛上,车队主将普里莫日·罗格里奇多次摔车,于第9赛段前弃赛,先前担任辅助的温格高临时补成主将,最终获得当届亚军。
                                   '
                                    '在2022年环法自行车赛上,他在第11赛段格拉农山口的爬坡之战中一举击败当时黄衫保有者塔德伊·波加萨尔,以2分钟多的优势穿上黄衫,并一直保持到赛事结束,成为继比耶·里斯后第二位赢得环法总冠军的丹麦车手。丹麦出动2架F-16战斗机护送他回国,并在哥本哈根市政厅广场前为其举办了盛大的庆祝仪式。']
;