专业的编程技术博客社区

网站首页 > 博客文章 正文

单标签和多标签文本分类的词袋与序列与图与层次的关系

baijin 2024-10-01 07:22:30 博客文章 2 ℃ 0 评论

图形神经网络引发了基于图形的文本分类方法的复苏,定义了今天的技术状态。我们表明,使用词袋(BoW)的简单多层感知器(MLP)在归纳文本分类环境中优于先前的基于图的模型TextGCN和HeteGCN,在单标签分类中与HyperGAT相当。我们还对多标签分类进行了自己的实验,其中简单的MLP胜过最近的基于序列的gMLP和aMLP模型。此外,我们对一个基于序列的BERT和一个轻量级的DistilBERT模型进行了微调,这两个模型在大多数数据集的单标签和多标签设置上都优于所有模型。这些结果对现代文本分类器中使用的合成图的重要性提出了质疑。就参数而言,DistilBERT仍然是我们基于BoW的广义MLP的两倍,而基于图的模型如TextGCN需要设置一个$mathcal{O}(N^2)$图,其中$N$是词汇加语料库的大小。

《Bag-of-Words vs. Sequence vs. Graph vs. Hierarchy for Single- and Multi-Label Text Classification》

论文地址:http://arxiv.org/abs/2204.03954v1

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表