Classifying newswires: a multi-class classification example
本节会构建一个网络,将路透社新闻划分为 46 个互斥的主题。因为有多个类别,所以这是多分类(multiclass classification)问题的一个例子。因为每个数据点只能划分到一个类别,所以更具体地说,这是单标签、多分类(single-label, multiclass classification)问题的一个例子。如果每个数据点可以划分到多个类别(主题),那它就是一个多标签、多分类(multilabel, multiclass classification)问题。
(由于是在Jupyter Notebook上直接copy下来的,所以使用时请记得注意。)
## 1. 加载路透社数据集
from tensorflow.keras.datasets import reuters
(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)
len(train_data)
len(test_data)
train_data[10]
## 2. 将索引解码为新闻文本
word_index=reuters.get_word_index()
reverse_word_index=dict([(value,key) for (key,value) in word_index.items()])
decoded_newswire="".join([reverse_word_index.get(i-3,"?") for i in train_data[0]])
#注意,索引减去了3,因为0、1、