首页 / 研究成果 / 多语言处理

多语言情感分析

情感分析的最大挑战之一是它高度依赖语言。现存情感分析模型的单词嵌入,情感词典,甚至带注释的数据都是特定于语言的,这无疑会造成不同语种间的信息孤立。

因此我们使用包含100多种语言,超过2TB的训练数据集上进行训练的多语言通用预训练模型,按照预测字符串的长度划分为长文本和短文本分别进行训练其中在短文本上达到0.93的整体F1-Score,在长文本上达到0.92的整体F1-Score。面向海内外市场多语言需求,清博可以提供包括英语,法语,德语,葡萄牙等多语言文本自动匹配的情感分析工具。

多语言新闻分类

多语言文本分类对于了解全球热点事件、领域动态、经济趋势和技术发展方向等方面具有重要意义。清博按照文本长度划分为长文本和短文本两种模型,可以对多语言文本自动匹配进行分类,其中在短文本上达到0.91的整体F1-Score,在长文本上达到0.92的整体F1-Score。

DEMO

提交验证

  • 长文本分类
  • 短文本分类
  • 长文本情感分析
  • 短文本情感分析
  • 海外短文本情绪分布
  • 海外长文本情绪分布
Baidu
map