每秒都有大量数据在互联网上生成–帖子,评论,照片和视频。这些不同的数据类型意味着覆盖有很多地面,所以让我们专注于一个– text.

所有社交谈话都基于书面文字–推文,Facebook帖子,评论,在线评论等。作为社交媒体营销人员,一个Facebook小组/个人资料主持人,或尝试在社交媒体上推广您的业务需要您知道您的观众如何对您上传的内容作出反应。一种方法是阅读它全部,标记仇恨的评论,将它们划分为类似的主题组,计算统计数据…只要看到有数千个新的评论来增加你的计算,就会失去一大块。幸运的是,这个问题还有另一种解决方案– 机器学习。从本文中您将学习: 

  • 为什么需要专门的社交媒体分析工具?
  • 您可以从主题建模以及它的完成方式得到什么?
  • 如何在评论中自动寻找仇恨演讲?

为什么社交媒体文本是独一无二的?

在跳到分析之前,了解社交媒体文本如此独特的原因非常重要:

  1. 帖子和评论很短。它们主要包含一个简单的句子甚至单词或表达。这为我们提供了有限的信息,以便从一个帖子中获取。
  2. Emojis和笑脸–几乎完全用于社交媒体。他们提供有关作者的其他详细信息’情绪和背景。


  3. 俚语,使帖子类似于口语而不是书面。它会使陈述看起来更随意。

这些功能使社交媒体成为一个完整的信息来源,并在使用机器学习运行分析时进行特别注意。相比之下,大多数开源机器学习解决方案都基于长期正式的文本,如维基百科文章和其他网站帖子。因此,这些模型在社交媒体数据上表现不佳,因为它们不了解包括其他形式的表达式。此问题称为域移位,是一个典型的NLP问题。不同的数据还需要定制的数据准备方法,称为预处理。该步骤包括从无价值的令牌的清洁文本,如URL或提到,并转换为机器可读格式(更多关于我们如何在Soterender中做的事情)。这就是为什么 对于使用尤其为数据源创建的工具来获得最佳结果至关重要

社交媒体的主题建模

文本分析的机器学习(自然语言处理)是一个庞大的字段,具有许多不同的模型类型,可以深入了解您的数据。一个可以回答问题的领域之一“给定的文本件的主题是什么?”是 主题建模。这些模型有助于了解人们一般正在谈论的内容。它不需要任何具有预定义主题的特殊准备的数据集。它可以找到主题,这些主题是在没有监督和帮助的情况下隐藏在数据中的模式– which makes it an 无监督的机器学习 方法。这意味着 为每个问题构建模型很容易.

有许多不同的算法可用于此任务,但最常见和最广泛使用的是LDA(潜在Dirichlet分配)。它基于文字中的文字频率和主题分发。简单地说,此方法在给定数据集中计算单词,并根据其共同发生将它们组分组。然后计算每个文档中主题的百分比分布。结果,此方法假设每个文本都是一个主题的混合,它与长期文档有效,其中每个段落与不同的物质有关。

图1。 LDA算法(信用: 哥伦比亚大学)

这就是社交媒体文本需要不同的程序的原因。其中一个新算法是GSDMM(Gibbs用于Dirichlet混合模型的采样算法)。是什么让这个如此不同?:

  1. 它很快, 
  2. 专为短文本而设计, 
  3. 用教师(算法)的类比轻松解释,想要将学生(文本)划分为类似兴趣的组(主题)。

图2。 组分配算法

学生被告知要写下他们在2分钟内喜欢的一些电影标题。大多数学生能够使用此时间帧列出3-5部电影(它对应于社交媒体文本的有限单词)。然后将它们随机分配给组。最后一步是为每个学生挑选一个不同的表格,记住两个规则:

  • 用更多的学生选择一个小组–最喜欢的群体 
  • 或者是最相似电影标题的小组–使群体更具凝聚力。

最后一步重复多次。最有利于更大的群体的第一条规则至关重要,以确保群体不会过度分散。由于每个学生的电影标题数量有限(文字),每个组(主题)必将在其列表中具有不同电影的成员,而是来自同一类型。  

由于GSDMM算法,您可以获得每个文本的分配给一个主题,以及每个主题最重要的单词列表。

图3.文档分配主题和获取主题单词

棘手的部分是决定主题的数量(每个无人监督的方法的问题),但是当您最终执行此操作时,您可以从数据中获得许多洞察力:

  1. 在数据中分发主题

    图4。 数据分发数据

     

  2. 词云–允许我们理解主题并命名它。这是一个快速且简单的解决方案,可以取代阅读整个文本,并让您在套装中闲聊繁琐的工作。

    图5。 您可以在上面的图片中看到单词云的示例。从左到右看,第一个包含单词:政府,疾病,科迪德–我们可以假设主题是政治。也有不太突出的词语,如咳嗽,病态和健康,所以这是关于政府对健康问题行动的主题。

  3. 时间序列分析主题–正如我们在下面的情节中看到的那样,一些主题可以更好地获得更多的关注,就像7号和他们中的一些人一样逐渐消失。试图掌握最受欢迎的想法或者在未来的概念是一件好事要回顾并了解过去的主题如何变化。

图6。 随着时间的推移分配主题。

用例

在我们最近的ColleGium Civitas项目之一中,我们分析了5万名社交媒体帖子和评论,并对他们进行了主题分析。它允许我们的客户回答问题: 

1)在社交媒体2个月的时间范围内讨论了什么?

在DataSet中,我们能够区分10个不同的主题,围绕Covid-19旋转。讨论涵盖统计和covid-19病因,日常生活,政府对大流行的反应,旅行,贸易市场和用品的局限性,日常生活,医疗保健,在大流行,教会和政治期间,Covid-19的共同知识和阴谋理论,政治和经济,垃圾邮件和广告。 

2)讨论如何受到大流行情况的影响?

在大流行爆发期间,最大的主题是Covid-19的起源和统计数据。人们谈到了情况如何变化和交换有关疾病传播方式的信息。阅读更多访问 Collegium Civitas.’s site (只有一个波兰版本)。 

讨厌讲话识别

可以用机器学习回答的另一个问题是“人们在他们的评论或帖子中表达了什么样的情绪?“ 或者 ”我的内容是产生仇恨评论吗?“。波兰语中这些任务只有几个解决方案。这就是为什么我们建立基于社交媒体文本的模型的情绪和仇恨语音识别 Soterender.。我们的解决方案分为两步。

第一步是将文本和EMOJI转换为数字向量表示(嵌入)以便在神经网络中使用。这一步骤的主要目标是实现具有人类语言的某种语言模型(LM),以便代表类似词语的向量彼此靠近 (例如:女王和国王或段落和段落)意味着这些词具有相似的含义(语义相似性). 该属性显示在下图上。

图7.字相似性背后的直觉

培训这个模式类似于教孩子如何通过与他们交谈来说。孩子们通过倾听他们的父母谈话可以掌握言语的含义,并且他们听到的越多,他们就越了解。 

根据这个类比,我们必须使用一系列大量的社交媒体文本来训练我们的模型来了解其语言。这就是为什么我们使用一套100百万的帖子和评论来培训我们的模型,因此它可以正确地将载体分配给单词以及表情符号。使用Embeddings Model传染的令牌为神经网络提供输入。 

第二步是为特定任务设计神经网络–讨厌语音识别。最重要的是数据集–该模型需要仇恨言语和非仇恨文本的例子来学习如何分开。为了获得最佳效果,您需要尝试不同的架构和模型的普遍参数。

由于仇恨语音识别模型,我们得到了另一个数据集的分组。现在我们可以看到 我们的观众如何反应,有多少仇恨评论或帖子’s creating。更重要的是,通过将其与每个评论的出版时间相结合,我们可以看到 如果生成最讨厌的评论时有特定的时间段 喜欢在下面的直方图中显示。

图8.随着时间的推移讨厌语音分布

将此分布与最近的帖子或事件相结合,可以给您 洞察挑起人们的内容类型。此外,仇恨语音贡献的变化可能与主题分布的变化有关。组合来自分析的所有信息可以提供数据集的深入图像。

图9。 每周文本算作仇恨言论

随着上面的直方图,显示大多数仇恨都连接到主题3,6和7。 了解让人生气的是什么让未来避免敏感主题的机会。 

情绪分析也是如此。我们可以为积极,负面或中立评论产生类似的可视化,并在时间或主题中查看其分发。如果您想根据我们对有8周的数据进行分析阅读整个报告版本,您可以找到它 这里 (只有波兰版)。

结论

我们有仇恨言语和情感识别的模型,这在Soterender的社交媒体文本中不断改进和更新。更重要的是,我们在为单个情况下建立主题建模模型进行经验。正如您所看到的那样,来自这种类型的分析存在很大的好处: 

  • 了解您的受众
  • 深入了解评论的主题
  • 发现趋势主题
  • 在我们的内容中寻找仇恨或消极情绪

只有几个!

如果你’reve更多关于如何了解如何为您的品牌使用我们的机器学习模型’社交媒体概况,随时与我们联系 销售团队 了解更多信息。 -

作者

Dominika Sagan.

Data Scientist

在Sotreder,她参与了NLP建模的所有阶段 - 从数据分析,创建基线模型,以其开发和质量改进。 K-DRAMAS和业余鸟类学家的粉丝。