情感分析的最大挑战之一是它高度依赖语言。现存情感分析模型的单词嵌入,情感词典,甚至带注释的数据都是特定于语言的,这无疑会造成不同语种间的信息孤立。
因此我们使用包含100多种语言,超过2TB的训练数据集上进行训练的多语言通用预训练模型,按照预测字符串的长度划分为长文本和短文本分别进行训练其中在短文本上达到0.93的整体F1-Score,在长文本上达到0.92的整体F1-Score。面向海内外市场多语言需求,清博可以提供包括英语,法语,德语,葡萄牙等多语言文本自动匹配的情感分析工具。
多语言文本分类对于了解全球热点事件、领域动态、经济趋势和技术发展方向等方面具有重要意义。清博按照文本长度划分为长文本和短文本两种模型,可以对多语言文本自动匹配进行分类,其中在短文本上达到0.91的整体F1-Score,在长文本上达到0.92的整体F1-Score。
提交验证