Bootstrap

dmfldr实战

dmfldr实战

新建测试表

create table “BENCHMARK”.“TEST_FLDR”
(
“uid” INTEGER identity(1, 1) not null ,
“name” VARCHAR(24),
“begin_date” TIMESTAMP(0),
“amount” DECIMAL(6, 2),
primary key(“uid”)
)
storage(initial 1, next 1, minextents 1, fillfactor 0)
;

造数据(1w条)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

dmfldr参数介绍

例: ./dmfldr SYSDBA/SYSDBA CONTROL=‘/opt/data/fldr.ctl’

USERID 必须是命令行中的第一个参数
字符串类型参数必须以引号封闭

关键字 说明(默认值)

USERID 用户名/口令, 格式:{[/] | /}[@<connect_identifier>][] [<os_auth>]
<connect_identifier> : [<svc_name> | host[:port] | <unixsocket_file>]
: #{<exetend_option>=[,<extend_option>=]…}
–此行外层{}是为了封装参数之用,书写时需要保留
<os_auth> : AS {SYSDBA|SYSSSO|SYSAUDITOR|USERS|AUTO}
CONTROL 控制文件,字符串类型
LOG 日志文件,字符串类型 (fldr.log)
BADFILE 错误数据记录文件,字符串类型 (fldr.bad)
SKIP 初始忽略逻辑行数 (0)
LOAD 需要装载的行数 (ALL)
ROWS 提交频次 (50000), DIRECT为FALSE有效
DIRECT 是否使用快速方式装载 (TRUE)
SET_IDENTITY 是否插入自增列 (FALSE)
SORTED 数据是否已按照聚集索引排序 (FALSE)
INDEX_OPTION 索引选项 (1)
1 不刷新二级索引,数据按照索引先排序,装载完后再
将排序的数据插入索引
2 不刷新二级索引,数据装载完成后重建所有二级索引
3 刷新二级索引, 数据装载的同时将数据插入二级索引
ERRORS 允许的最大数据错误数 (100)
CHARACTER_CODE 字符编码,字符串类型 (GBK, UTF-8, SINGLE_BYTE, EUC-KR)
MODE 装载方式,字符串类型 IN表示载入,OUT表示载出,
OUTORA表示载出ORACLE (IN)
CLIENT_LOB 大字段目录是否在本地 (FALSE)
LOB_DIRECTORY 大字段数据文件存放目录
LOB_FILE_NAME 大字段数据文件名称,仅导出有效 (dmfldr.lob)
BUFFER_NODE_SIZE 读入文件缓冲区的大小 (10),有效值范围1~2048
LOG_SIZE 日志信息缓冲区的大小 (1),有效值范围1~100
READ_ROWS 工作线程一次最大处理的行数 (100000),最大支持2^26-10000
NULL_MODE 载入时NULL字符串是否处理为NULL
载出时空值是否处理为NULL字符串 (FALSE)
NULL_STR 载入时视为NULL值处理的字符串
SEND_NODE_NUMBER 运行时发送节点的个数 (20),有效值范围16~65535
TASK_THREAD_NUMBER 处理用户数据的线程数目,默认与处理器核数量相同,有效值范围1~128
BLDR_NUM 服务器BLDR数目 (64),有效值范围1~1024
BDTA_SIZE bdta的大小 (5000),有效值范围100~10000
COMPRESS_FLAG 是否压缩bdta (FALSE)
MPP_CLIENT MPP环境,是否本地分发 (TRUE)
SINGLE_FILE MPP/DPC环境,是否只生成单个数据文件(FALSE)
LAN_MODE MPP/DPC环境,是否以内网模式装载数据(FALSE)
UNREP_CHAR_MODE 非法字符处理选项(0),为0时表示跳过该数据行,为1时表示使用(*)替换错误字节
SILENT 是否静默方式装载数据(FALSE)
BLOB_TYPE BLOB类型字段数据值的实际类型,字符串类型 (HEX_CHAR)
HEX表示值为十六进制,HEX_CHAR表示值为十六进制字符类型
仅在direct=FALSE有效
OCI_DIRECTORY OCI动态库所在的目录
DATA 指定数据文件路径
ENABLE_CLASS_TYPE 允许用户导入CLASS类型数据 (FALSE)
FLUSH_FLAG 提交时是否立即刷盘 (FALSE)
IGNORE_BATCH_ERRORS 是否忽略错误数据继续导入 (FALSE)
SINGLE_HLDR_HP 是否使用单个HLDR装载HUGE水平分区表 (TRUE)
EP 指定需要发送数据的站点序号列表,仅向MPP/DPC环境导入数据时有效
PARALLEL 是否开启并行装载(FALSE)
SQL 使用自定义查询语句,仅导出模式有效
SQLFILE 自定义查询语句所在文件,仅导出模式有效
TABLE 导入/出表
ROW_SEPERATOR 行分隔符
FIELD_SEPERATOR 列分隔符
COMMIT_OPTION 提交选项(0), 0:每发送一批数据后提交, 1:发送完所有数据后提交
APPEND_OPTION 追加选项(0), 0: 追加方式, 1: 替代方式, 2: 插入方式
COLNAME_HEADING 是否在导出文件头中打印列名(FALSE)
IGNORE_AIMLESS_DATA 是否忽略无目标数据(FALSE)
LOB_AS_VARCHAR 是否将CLOB作为VARCHAR进行导入导出(FALSE)
LOB_AS_VARCHAR_SIZE 将CLOB作为VARCHAR进行导入导出时, lob数据最大大小(10)MB
LOG_LEVEL 记录错误数据信息级别(3), 0: 不记录 1: 只记录到log文件 2: 只记录到bad文件 3: 记录到log和bad文件 4: 错误仅输出到屏幕
FLDR_INI 配置文件路径,字符串类型
RECONN 自动重连次数(0)
RECONN_TIME 自动重连等待时间(5), 单位(s), 有效值范围(1~10000)
WIDTH 设置列数据宽度
SEDF 被替换的字符列表
SEDT 用于替换的字符列表
ESCAPE 转义符
DB2_MODE 兼容DB2模式
PRIORITY_ENCLOSE DB2模式下, enclose优先级最高
HELP 打印帮助信息

使用 dmfldr 导出数据

编辑控制文件

vi test.ctl
LOAD DATA
INFILE ‘/home/dmdba/data/test.txt’
INTO TABLE TEST_FLDR
FIELDS ‘|’
(
“uid”,
“name”,
“begin_date”,
“amount”
)

执行导出命令

工具在安装目录/bin/目录下。
cd /home/dmdba/dmdbms/bin

./dmfldr userid=BENCHMARK/123456789@localhost:5236 control=‘/home/dmdba/test.ctl’ mode=‘out’
在这里插入图片描述

确认数据

在这里插入图片描述

注意:如果重复执行导出语句,导出的数据会追加到输出文件而不是覆盖清空。这是因为关于 APPEND|REPLACE|INSERT 选项,当 dmfldr 处于导出数据模式时,dmfldr 会检查导出数据文件是否存在,若不存在则直接创建新文件;若存在,当设置为 APPEND 时,以追加的方式写入数据;设置为 REPLACE 时,先删除文件再重新创建新文件;设置为其他值时则报错。选项默认值为 APPEND;

测试APPEND|REPLACE

再次执行导出语句
在这里插入图片描述

指定REPLACE选项
在这里插入图片描述

这样再次执行导出命令,就会先删文件再新建文件导入数据
在这里插入图片描述

使用 dmfldr 导入数据

创建一个空表用于快速载入

复制上面图片的建表语句,表名改为TEST_FLDR_02
CREATE TABLE “BENCHMARK”.“TEST_FLDR_02”
(
“uid” INTEGER IDENTITY(1, 1) NOT NULL,
“name” VARCHAR(24),
“begin_date” TIMESTAMP(0),
“amount” DECIMAL(6,2),
CLUSTER PRIMARY KEY(“uid”)) STORAGE(ON “MAIN”, CLUSTERBTR) ;
在这里插入图片描述

编辑控制文件

读取刚导出的数据文件/home/dmdba/data/test.txt,选择REPLACE选项
LOAD DATA
INFILE ‘/home/dmdba/data/test.txt’
REPLACE
INTO TABLE TEST_FLDR_02
FIELDS ‘|’
(
“uid”,
“name”,
“begin_date”,
“amount”
)
注意:当 dmfldr 处于数据装载模式时,INSERT 表示插入方式,向空表插入新记录(如果不是空表则会报错无效的装载模式);APPEND 表示追加方式,为缺省方式,在表中追加新记录;REPLACE 表示替代方式,先清空表再插入新记录。

其中,字段信息可以通过管理工具查看属性获取
在这里插入图片描述

执行导入命令

./dmfldr userid=BENCHMARK/123456789@localhost:5236 control=‘/home/dmdba/test.ctl’
在这里插入图片描述

确认数据

在这里插入图片描述

dmfldr 使用限制

dmfldr 的使用存在以下一些限制:
• 不支持向临时表、外部表装载数据
• 不支持向系统表装载数据
• 不支持向带有位图索引的表装载数据
• 不支持向带有全文索引的表装载数据
• 不支持向 DCP 代理装载数据
• 不支持在 DPC 环境下,向带有全局索引的表装载数据
• 仅支持在 index_option=2 的情况下向带有函数索引的表装载数据
• dmfldr 装载时会对约束进行检查,对各种约束的处理机制如下表所示;由于 dmfldr 不处理约束的有效性,都视为有效,故需要用户自行处理约束有效性等相关内容

约束 数据不满足时 数据插入与否 约束是否有效
非空约束(NOT NULL) 报错 不插入 有效
聚集索引(CLUSTER PRIMARY KEY) 报错 不插入 有效
唯一约束(UNIQUE, PRIMARY KEY) 不报错 插入 有效
引用约束(FOREIGN KEY) 不报错 插入 有效
CHECK 约束(CHECK) 不报错 插入 有效

注:当数据不满足唯一约束时,唯一约束仍有效,但相关联的唯一索引将会失效。

READ_ROWS参数测试

导出数据

有测试数据1百万条
在这里插入图片描述

新建空表

create table “BENCHMARK”.“TEST_FLDR_TMP”
(
“uid” INTEGER identity(1, 1) not null ,
“name” VARCHAR(24),
“begin_date” TIMESTAMP(0),
“amount” DECIMAL(6, 2),
primary key(“uid”)
)
storage(initial 1, next 1, minextents 1, fillfactor 0)
;

编辑控制文件

OPTIONS
(
READ_ROWS=100000
ROWS = 50000
)
LOAD DATA
INFILE ‘/home/dmdba/data/test.txt’
REPLACE
INTO TABLE TEST_FLDR_TMP
FIELDS ‘|’
(
“uid”,
“name”,
“begin_date”,
“amount”
)
READ_ROWS=100000 (每次读取的最大行数,100000 )
ROWS=50000 ( 每次提交行数, 50000 )

执行导入

dmfldr userid=BENCHMARK/123456789@localhost:5236 control=‘/home/dmdba/data/test_in.ctl’
在这里插入图片描述

耗时7.75秒

清空测试导入表

在这里插入图片描述

修改控制文件内参数

OPTIONS
(
READ_ROWS=200000
ROWS = 50000
)
LOAD DATA
INFILE ‘/home/dmdba/data/test.txt’
REPLACE
INTO TABLE TEST_FLDR
FIELDS ‘|’
(
“uid”,
“name”,
“begin_date”,
“amount”
)
修改:
READ_ROWS=200000 (每次读取的最大行数,20万 )

执行导入

在这里插入图片描述

耗时5.30秒

结果

READ_ROWS参数值为100000时,耗时7.75秒;
READ_ROWS参数值为200000时,耗时5.30秒。

测试表明:在合理范围内,通过调整READ_ROWS参数,将一次性读取行数增多,可以提高装载速度。

更多详细资料可前往达梦社区:https://eco.dameng.com

;