集合通信操作参数无效(EI0003)
问题现象
执行日志报错:EI0003 "value [*** ] for parameter [*** ] is invalid",如下所示。
custom_group :None test_type :all dtype :float32 data :1024 iter :1 timeout :None profiling :false staged :false pid :1036690 [2024-04-24 06:30:56.081654: F ge_plugin.cc:338] [GePlugin] Initialize ge failed, ret : failed Error Messageis: EI0003: 2024-04-24-06:30:52.388.386 In [HcomInitByFile], value [0] for parameter [rankTablePath] is invalid. Reason: The collective communication operator has an invalid argument. Reason[0] Solution: Try again with a valid argument. TraceBack (most recent call last): PluginManager InvokeAll failed.[FUNC:Initialize] [FILE:ops_kernel_manager.cc][LINE :89] OpsManager initialize failed.[FUNC:InnerInitialize] [FILE:gelib.cc] [LINE:241] GELib::InnerInitialize failed.[FUNC :Initialize][FILE:gelib.cc][LINE:169] GEInitialize failed. [FUNC:GEInitialize] [FILE:ge_api. cc][LINE :307]
原因分析
该报错常见于输入数据校验阶段,通常可能有以下几种原因:
- 接口入参为指针,但传入指针为空。
- 接口传入的参数超过预期枚举值范围。
- 接口传入的字符串无效,或长度不符合预期。
- 接口传入的路径无效,或者路径文件不符合预期。
具体报错字段及报错原因可以参考日志提示信息“value[ ]”和 “parameter[ ]”进行确认。
解决方法
针对日志提示字段“value[ ]”和 “parameter[ ]”进行排查,排查原因见上述原因分析。
父主题: HCCL常见问题总结