TfIdfVectorizer

将输入文本序列向量化。

一个输入：

data： tensor，数据类型是int32，int64。

一个输出：

y：一个tensor，数据类型是float。

max_gram_length：int，最大n-gram长度。

max_skip_count：int，从data中构造n-gram时最多skip数。

min_gram_length：int，最小n-gram长度。

mode：string，加权模式。可选为"TF" (term frequency), "IDF" (inverse document frequency)和"TFIDF" (the combination of TF and IDF)。

ngram_counts：int列表，n-gram池化的开始索引，有助于确认两个连续n-gram边界。

ngram_indexes：int列表，第i个元素表示输出tensor中第i个n-gram的坐标。

pool_int64s：int列表，不能与pool_strings同时赋值，表示从训练集学到的n-grams。

pool_strings：string列表，与pool_int64s含义一样。

weights：float列表，存储每个n-gram的池化权重数值。

Opset v9/v10/v11/ v12/v13/v14/v15/v16/v17/v18

父主题： 支持ONNX算子清单