ms_coordinator.json启动配置文件样例如下所示,参数解释请参见ms_coordinator.json启动配置文件参数解释。
{ "http_config": { "predict_ip": "127.0.0.1", "predict_port": "1025", "manage_ip": "127.0.0.1", "manage_port": "1026", "server_thread_num": 1, "client_thread_num": 1, "http_timeout_seconds": 10, "keep_alive_seconds": 180, "server_name": "MindIE-MS", "user_agent": "Coordinator/1.0" }, "request_limit": { "single_node_max_requests": 1000, "max_requests": 10000 }, "metrics_config": { "enable": false, "trigger_size": 100 }, "exception_config": { "max_retry": 5, "schedule_timeout": 60, "first_token_timeout": 60, "infer_timeout": 300, "tokenizer_timeout": 300 }, "log_info": { "log_level": "INFO", "to_file": false, "to_stdout": true, "run_log_path": "./log/run/log.txt", "operation_log_path": "./log/operation/log.txt", "max_log_str_size": 4096, "max_log_file_size": 20, "max_log_file_num": 10 }, "digs_scheduler_config": { "deploy_mode": "pd_separate", "scheduler_type": "digs_scheduler", "algorithm_type": "load_balance", "cache_size": "100", "slots_thresh": "0.05", "block_thresh": "0.05", "max_schedule_count": "10000", "reordering_type": "1", "max_res_num": "5000", "res_limit_rate": "1.1" }, "tls_config": { "controller_server_tls_enable": true, "controller_server_tls_items": { "ca_cert" : "./security/controller/security/certs/ca.pem", "tls_cert": "./security/controller/security/certs/cert.pem", "tls_key": "./security/controller/security/keys/cert.key.pem", "tls_passwd": "./security/controller/security/pass/key_pwd.txt", "kmcKsfMaster": "./security/controller/tools/pmt/master/ksfa", "kmcKsfStandby": "./security/controller/tools/pmt/standby/ksfb", "tls_crl": "" }, "request_server_tls_enable": true, "request_server_tls_items": { "ca_cert" : "./security/request/security/certs/ca.pem", "tls_cert": "./security/request/security/certs/cert.pem", "tls_key": "./security/request/security/keys/cert.key.pem", "tls_passwd": "./security/request/security/pass/key_pwd.txt", "kmcKsfMaster": "./security/request/tools/pmt/master/ksfa", "kmcKsfStandby": "./security/request/tools/pmt/standby/ksfb", "tls_crl": "" }, "mindie_client_tls_enable": true, "mindie_client_tls_items": { "ca_cert" : "./security/mindie/security/certs/ca.pem", "tls_cert": "./security/mindie/security/certs/cert.pem", "tls_key": "./security/mindie/security/keys/cert.key.pem", "tls_passwd": "./security/mindie/security/pass/key_pwd.txt", "kmcKsfMaster": "./security/mindie/tools/pmt/master/ksfa", "kmcKsfStandby": "./security/mindie/tools/pmt/standby/ksfb", "tls_crl": "" } } }
参数名称 |
支持特性 |
取值范围 |
配置说明 |
---|---|---|---|
http_config:通信配置 |
|||
predict_ip |
PD分离 Prefix Cache(单机) |
- |
必填;默认值为"127.0.0.1" 推理IP。 用户侧接口的侦听IP。 |
predict_port |
PD分离 Prefix Cache(单机) |
[1024,65535] |
必填;默认值为"1025"。 推理端口。 用户侧接口的侦听端口。 |
manage_ip |
PD分离 Prefix Cache(单机) |
- |
必填;默认值为"127.0.0.1"。 管理IP 集群内通信接口的侦听IP。 |
manage_port |
PD分离 Prefix Cache(单机) |
[1024,65535] |
必填;默认值为"1026"。 管理端口。 集群内通信接口的侦听端口。 |
server_thread_num |
PD分离 Prefix Cache(单机) |
[1,10000] |
必填;默认值为1。 HTTP Server线程池数量;建议不超出系统最大线程数的1/4。 |
client_thread_num |
PD分离 Prefix Cache(单机) |
[1,10000] |
必填;默认值为1。 HTTP Client线程池数量;建议不超出系统最大线程数的1/4。 |
http_timeout_seconds |
PD分离 Prefix Cache(单机) |
[0,600],单位秒。 |
必填;默认值为10秒。 HTTP通信超时时间。 |
keep_alive_seconds |
PD分离 |
[0,3600],单位秒。 |
必填;默认值为180秒。 与D实例长链接的保活时间。 |
server_name |
PD分离 Prefix Cache(单机) |
- |
必填;默认值为MindIE-MS。 服务器名称。 |
user_agent |
PD分离 Prefix Cache(单机) |
- |
必填;默认值为Coordinator/1.0。 软件版本号。 |
request_limit:请求限制 |
|||
single_node_max_requests |
PD分离 Prefix Cache(单机) |
[1,2000] |
必填;默认值为1000。 单个节点可处理的最大请求数量;该参数配置的值不能超过MindIE Server能支持的最大限制。 如设置环境变量MINDIE_MS_COORDINATOR_CONFIG_SINGLE_NODE_MAX_REQ,则优先读取环境变量的值。 |
max_requests |
PD分离 Prefix Cache(单机) |
[1,90000] |
必填;默认值为10000。 可处理的最大请求数量。
如设置环境变量MINDIE_MS_COORDINATOR_CONFIG_MAX_REQ,则优先读取环境变量的值。 |
metrics_config:性能统计 |
|||
enable |
PD分离 Prefix Cache(单机) |
|
必填;默认值为false。 是否开启性能统计。 该参数的功能为辅助定位问题,打开此功能有可能影响业务性能,建议用户在正常业务场景下关闭此功能。 |
trigger_size |
PD分离 Prefix Cache(单机) |
[1,10000] |
必填;当enable为true时有效。默认值为100。 触发性能统计的请求数。 |
exception_config:异常配置 |
|||
max_retry |
PD分离 Prefix Cache(单机) |
[0,10] |
必填;默认值为5。 通信异常最大重试次数。 |
schedule_timeout |
PD分离 Prefix Cache(单机) |
[0,3600],单位秒。 |
必填;默认值为60;0表示关闭调度的超时检查。 调度超时时间,请求在调度超时时间内没完成调度,将向用户返回错误。 |
first_token_timeout |
PD分离 Prefix Cache(单机) |
[0,3600],单位秒。 |
必填;默认值为60;0表示关闭首token的超时检查。 首token超时时间,请求在首token的超时时间内没完成首token推理,将向用户返回错误。 |
infer_timeout |
PD分离 Prefix Cache(单机) |
[0,3600],单位秒。 |
必填;默认值为300;0表示关闭推理的超时检查。 请求推理的超时时间,请求在推理的超时时间内没完成全部推理,将向用户返回错误。 |
tokenizer_timeout |
PD分离 |
[0,3600],单位秒。 |
必填;默认值为300;0表示关闭计算token的超时检查。 计算token的超时时间,请求在计算token的超时时间内没完成tokenizer任务,将向用户返回错误。 |
log_info:日志配置 |
|||
log_level |
PD分离 Prefix Cache(单机) |
|
必填;默认值为INFO。 设置日志级别。 如设置环境变量MINDIEMS_LOG_LEVEL,则优先读取环境变量的值。 说明:
业务性能受参数影响较大,参数配置为ERROR时性能最佳,配置为DEBUG时性能最差,两者性能相差十倍左右。 |
to_file |
PD分离 Prefix Cache(单机) |
|
必填;默认值为false。 是否输出到文件。 |
to_stdout |
PD分离 Prefix Cache(单机) |
|
必填;默认值为true。 是否输出到标准输出流。 |
run_log_path |
PD分离 Prefix Cache(单机) |
- |
必填,当to_file为true时生效。 运行日志路径,要求该文件所在的路径真实存在且可读,运行时会自动创建文件。 |
operation_log_path |
PD分离 Prefix Cache(单机) |
- |
必填,当to_file为true时生效。 审计日志路径,要求该文件所在的路径真实存在且可读,运行时会自动创建文件。 |
max_log_str_size |
PD分离 Prefix Cache(单机) |
[128,4096] |
必填;默认值为4096。 单条日志最大长度。 |
max_log_file_size |
PD分离 Prefix Cache(单机) |
[1,100],单位MB。 |
必填;默认值为20。 单个日志文件存储上限。 |
max_log_file_num |
PD分离 Prefix Cache(单机) |
[2,64] |
必填;默认值为10。 最大日志文件存储数量。 |
digs_scheduler_config:调度器配置 |
|||
deploy_mode |
PD分离 Prefix Cache(单机) |
必填;默认值为"pd_separate"。 部署模式。 |
|
scheduler_type |
PD分离 Prefix Cache(单机) |
必填;默认值为"digs_scheduler"。 调度器类型。
|
|
algorithm_type |
PD分离 Prefix Cache(单机) |
必填;默认值为"load_balance"。 调度算法。
|
|
cache_size |
Prefix Cache(单机) |
["1", "10000"] |
algorithm_type为"cache_affinity"时必填;默认值为"100"。 Cache缓存上限 。(仅支持Prefix Cache算法) |
slots_thresh |
Prefix Cache(单机) |
["0.0", "1.0"] |
algorithm_type为"cache_affinity"时必填;默认值为"0.05"。 可用slot占总slot的比例,slots资源预警线 。(仅支持Prefix Cache算法) |
block_thresh |
Prefix Cache(单机) |
["0.0", "1.0"] |
algorithm_type为"cache_affinity"时必填;默认值为"0.05"。 可用block占总block的比例,block 资源预警线。 (仅支持Prefix Cache算法) |
max_schedule_count |
PD分离 |
["1", "90000"] |
scheduler_type为"digs_scheduler"时必填;默认值为"10000"。 可以同时调度的最大请求数量,建议与max_requests保持一致。(仅支持PD分离负载均衡算法) |
reordering_type |
PD分离 |
|
scheduler_type为"digs_scheduler"时必填;默认值为"1"。 |
max_res_num |
PD分离 |
["1", "10000"] |
scheduler_type为"digs_scheduler"时必填;默认值为"5000"。 调度器可注册的最大节点。 |
res_limit_rate |
PD分离 |
["1.0","100.0"] |
scheduler_type为"digs_scheduler"时必填;默认值为"1.1"。 转换后的资源上限与转换前的比率。(仅支持PD分离负载均衡算法) |
tls_config:证书配置 |
|||
调度器(Coordinator)的管理端口通信证书配置 |
|||
controller_server_tls_enable |
PD分离 Prefix Cache(单机) |
与MindIE MS Controller的通信,是否开启tls校验。 建议用户打开,确保控制器(Controller)或用户与管理端口通信安全。如果关闭则存在较高的网络安全风险。 |
必填;默认值为true。 |
ca_cert |
PD分离 Prefix Cache(单机) |
ca根证书路径。 |
开启tls校验时必填。 |
tls_cert |
PD分离 Prefix Cache(单机) |
tls证书路径。 |
开启tls校验时必填。 |
tls_key |
PD分离 Prefix Cache(单机) |
经口令加密的tls私钥证书路径。 |
开启tls校验时必填。 |
tls_passwd |
PD分离 Prefix Cache(单机) |
加密tls私钥证书的口令,经KMC加密后,落盘的密文路径。 |
开启tls校验时必填。 |
kmcKsfMaster |
PD分离 Prefix Cache(单机) |
KMC加密的根密钥路径。 |
开启tls校验时必填。 |
kmcKsfStandby |
PD分离 Prefix Cache(单机) |
KMC加密的工作密钥路径。 |
开启tls校验时必填。 |
tls_crl |
PD分离 Prefix Cache(单机) |
吊销的证书列表路径。 |
开启tls校验时必填。 证书吊销列表crl文件路径,要求该文件真实存在且可读。如为空,则不进行吊销校验。 |
调度器(Coordinator)的数据端口与用户的通信证书配置 |
|||
request_server_tls_enable |
PD分离 Prefix Cache(单机) |
接受推理请求的输入,通信是否开启tls校验。 建议用户打开,确保与推理用户的通信安全。如果关闭则存在较高的网络安全风险。 |
必填;默认值为true。 |
ca_cert |
PD分离 Prefix Cache(单机) |
ca根证书路径。 |
开启tls校验时必填。 |
tls_cert |
PD分离 Prefix Cache(单机) |
tls证书路径。 |
开启tls校验时必填。 |
tls_key |
PD分离 Prefix Cache(单机) |
经口令加密的tls私钥证书路径。 |
开启tls校验时必填。 |
tls_passwd |
PD分离 Prefix Cache(单机) |
加密tls私钥证书的口令,经KMC加密后,写入的密文路径。 |
开启tls校验时必填。 |
kmcKsfMaster |
PD分离 Prefix Cache(单机) |
KMC加密的根密钥路径。 |
开启tls校验时必填。 |
kmcKsfStandby |
PD分离 Prefix Cache(单机) |
KMC加密的工作密钥路径。 |
开启tls校验时必填。 |
tls_crl |
PD分离 Prefix Cache(单机) |
吊销的证书列表路径。 |
开启tls校验时必填。 证书吊销列表crl文件路径,要求该文件真实存在且可读。如为空,则不进行吊销校验。 |
调度器(Coordinator)与MindIE Server数据端口的通信证书配置 |
|||
mindie_client_tls_enable |
PD分离 Prefix Cache(单机) |
与MindIE Server的通信,是否开启tls校验。 |
必填;默认值为true。 |
ca_cert |
PD分离 Prefix Cache(单机) |
ca根证书路径。 |
开启tls校验时必填。 |
tls_cert |
PD分离 Prefix Cache(单机) |
tls证书路径。 |
开启tls校验时必填。 |
tls_key |
PD分离 Prefix Cache(单机) |
经口令加密的tls私钥证书路径。 |
开启tls校验时必填。 |
tls_passwd |
PD分离 Prefix Cache(单机) |
加密tls私钥证书的口令,经KMC加密后,写入的密文路径。 |
开启tls校验时必填。 |
kmcKsfMaster |
PD分离 Prefix Cache(单机) |
KMC加密的根密钥路径。 |
开启tls校验时必填。 |
kmcKsfStandby |
PD分离 Prefix Cache(单机) |
KMC加密的工作密钥路径。 |
开启tls校验时必填。 |
tls_crl |
PD分离 Prefix Cache(单机) |
吊销的证书列表路径。 |
开启tls校验时必填。 证书吊销列表crl文件路径,要求该文件真实存在且可读。如为空,则不进行吊销校验。 |
当前调度器(Coordinator)支持的环境变量如下所示。
环境变量名称 |
含义 |
---|---|
MINDIE_MS_COORDINATOR_CONFIG_FILE_PATH |
ms_coordinator配置文件的读取路径。 |
MINDIE_MS_COORDINATOR_CONFIG_SINGLE_NODE_MAX_REQ |
单个节点可处理的最大请求数量。 |
MINDIE_MS_COORDINATOR_CONFIG_MAX_REQ |
可处理的最大请求数量。 |
MINDIEMS_LOG_LEVEL |
用户可动态设置MindIE MS客户端输出的日志等级。 默认值为空,环境变量的优先级高于表1中log_level参数。日志级别如下所示:
|
额外配置要求:
export HSECEASY_PATH=$MIES_INSTALL_PATH/lib
export MINDIEMS_LOG_LEVEL=INFO