摘要:
在文本分类问题中,人工标注方式需要耗费大量人力和财力,且需要熟悉所研究领域的专业人员才能进行文本标注。为了提高文本类数据标注的效率,提出了一种半自动化论文类别标注方法。首先使用 Word2vec 与 TF-IDF 相结合的方式得到论文的向量表示;接着使用 K-means 算法进行文本聚类;然后通过 $L_1$-LR 二分类模型构建 $K$ 个分类模型;对每个二分类模型选取其权重绝对值较大系数对应的单词作为主题词,最后根据主题词确定每一类别的标签。实验表明,所提出的论文类别半自动标注方法大大提高了文本标注的工作效率。
中图分类号:
宫衍圣, 蔡科平, 王志强, 李鑫鑫, 靖稳峰. 基于机器学习的文本半自动类别标注方法[J]. 工程数学学报, 2021, 38(6): 750-762.
GONG Yansheng, CAI Keping, WANG Zhiqiang, LI Xinxin, JING Wenfeng. Semi-automatic Text Category Labelling Method Based on Machine Learning[J]. Chinese Journal of Engineering Mathematics, 2021, 38(6): 750-762.