转载

大数据教你玩转娱乐圈

摘要:阿里云·数加的数据应用——公众趋势分析已悄然上线,其在网站上把自己描述为“基于全网公开发布数据、传播路径和受众群体画像,利用语义分析、情感算法和机器学习,分析公众对品牌形象、热点事件和公共政策的认知趋势。” 不仅如此,公众趋势分析原来还是阿里小ai的一只“眼睛”,帮助小ai成功预测了《我是歌手》决赛的粉丝投票排行。今天大厨带你一起用他闯一闯娱乐圈。

必备产品: http://click.aliyun.com/m/5647/

单价:UI大众版 69元/年 8月2日 10:00准时开售!

阿里云公众趋势分析的应用场景则包括政府机关、传媒机构、金融行业、地产行业、教育行业、医疗行业、旅游行业、企业品牌等。

大数据教你玩转娱乐圈

一、注册与购买

此前它以每个月1元(UI体验版)的体验价格(现在升级为UI大众版69元/元)向公众开放,大厨就以这个价格任性地尝试了一把——首先打开阿里云·数加的官方链接,然后点击该网页左边的“立即购买”,就能进行注册、缴费与使用了。

大数据教你玩转娱乐圈

二、使用流程——以近期吴亦凡事件为例

注册并开通“公众趋势分析”服务之后,便能进行配置检测专题、关键词和参数并分析采集内容变化趋势了。

大数据教你玩转娱乐圈

(一) 设置监控的专题和关键词

首次进入“公众趋势分析”管理控制台,需要为分析对象配置监控专题和关键词, 可以用监控专题的一个或多个关键词组合进行描述。

数加官网“快速开始”称:

“系统后台将采集包含这些关键词组合的文章内容,进行汇总分析。后续一些统计功能将主要针对监控专题进行操作,所以尽量为每个分析对象创建一个单独的监控专题。”

八卦的大厨为这次热热闹闹的吴亦凡事件专门开辟了一个专题并设置了关键词组合—首先点击后台管理的关键字,继而点击添加专题,然后进行关键词配置。

大数据教你玩转娱乐圈

大厨一口气添加了吴亦凡、小G娜、卓伟、加拿大炮王等一系列热点词汇,选择了包括新闻、论坛、微博、微信在内的所有给定源站,生成的专题如下:

大数据教你玩转娱乐圈

据官方说明,关键词配置的要点如下:

“配置关键词时主要考虑以下两方面因素。(注意:系统后台每10分钟才会更新全局的关键词采集策略,因此新的关键词提交配置之后,需要10分钟左右生效。)

○采集范围:需要在哪些类型的站点上采集内容。源站类型可以包括:新闻、论坛、贴吧、微博、微信、政府网站和视频类网站。

○组合技巧:关键词如何组合,是否添加同义、近义、通假或网上用语的变体,这可能需要花一些时间逐步调整。另外,请不要设置过于宽泛的关键词组合,例如“网络”、“安全”等单个词,这会采集过多不相关的文章,导致您的采集数量配额快速耗尽。如下图所示,一次可批量添加多个关键词组合,每一行表示一个关键词组合。根据您订购的版本不同,关键词组合的数量(即行数)有不同的上限。一个关键词组合可以由单个或者多个词组成,词与词之间用空格分隔,表示“与”的关系:必须同时包含一行中所有词的信息才会被采集。”

(二) 查看采集内容

这下就能开始关注舆情动态了,点击左侧导航栏的“新舆情”或者“全部舆情就”可以查看关键词采集到的文章列表。列表中标题字体加粗的表示未读文章,点击某一条文章将在右侧显示文章的详细信息。

大数据教你玩转娱乐圈

大厨随机点开其中一篇文本,如下图,情感已经被自动设定为“负面”,而标签、情感(正面、中性、负面)、风险等级、备注等信息都可以进行自定义,同时,大厨将这篇信息设置为有效。

大数据教你玩转娱乐圈

值得注意的是,标记训练是机器学习的过程,据官方说明:

标记训练“可手动勾选文章标题,批量标记为‘有效’、‘无效’或‘已读’。‘有效’表示这些文章是值得重点关注的,‘无效’表示这些文章属于干扰信息。手动标记的过程,实际上是在训练后台的智能分类模型,一般经过100篇左右的标记训练之后,系统的分类模型将越来越准确,结合‘过滤规则’可以实现智能过滤,后续采集到不相关的内容(如广告、干扰信息、垃圾信息),即可自动归入‘回收站’。”

同时,该应用还提供了文章的搜索功能,点击文章上面的搜索按钮,便可以从多维度筛选文章。

大数据教你玩转娱乐圈

(三) 查看结果分析报表

最后点击左侧导航栏的“首页”,便可以查看相关分析报表,可以查看“今天”、“7天”、“30天”的分析结果。

大数据教你玩转娱乐圈

三、结果展示

大厨检测了从6月21日到6月24日关于此事件的结果。

源站类型和热词云分析如下图所示,结果显示:微博成为此次事件的主要舆论场,符合大家的潜在认知。

然而,关于采集到的舆情数量,大厨心有疑问。在微博搜索“吴亦凡”的发文数量远远超过“公众趋势分析”在微博四天内共收集到的2万多条。这说明该应用的数据筛选有着自己的一套标准,且该标准获取的样本量明显偏小,“大数据”的收集能力还需后续观察。

大数据教你玩转娱乐圈

大数据教你玩转娱乐圈

结果显示:

对于这次吴亦凡负面事件的公众情感分析,6.21-6.24日的均值为1,公众的正面情绪稍微占据上风,说明大量粉丝甚至是脑残粉持续进行舆论攻势。

6.23日公众的正面情绪有较高的上升,这与吴亦凡名誉侵权案立案具有一致性。

以6.24日为例,全天的对此事件的看法相对中性,但在清晨四点到10点达到情感高峰,说明双方的立场对峙以支持者占据上风(反对者可能都在睡梦中)。

一言以蔽之,大厨对该应用之于发文的自动情感判断相当服气,虽然有一些文章存在偏颇之处,但大部分都能准确定性。

大数据教你玩转娱乐圈

(最近七天情感分析均值)

大数据教你玩转娱乐圈

(6.22-6.24日的情感趋势图)

大数据教你玩转娱乐圈

(6.24日情感趋势图)

分析结果显示6.21-6.24日?——热门事件TOP10为:

大数据教你玩转娱乐圈

关键词TOP10为:

大数据教你玩转娱乐圈

舆情数量和趋势为:

大数据教你玩转娱乐圈

通过上述图表可知,吴亦凡此番事件的后续发酵和走向与一些热点事件和炒作有关——吴亦凡名誉侵权案位居热门事件前二,6.22日下午的立案带动舆情数量走向高峰。这说明了吴亦凡方的公关做法在实质的走向中起到了影响和带领粉丝进行舆情反攻的作用。

四、功能点评

优点:

1.情感分析较为出色,能够较为准确地表现舆情走向。

2.自动化操作和检测,界面简洁,使用简单。

缺点:

1.目前应用平台不太成熟,存在一些bug。

a) 删除设定的专题后,专题内的关键词并不会在舆情的界面消失,还是会继续在云端加载数据,且无法删除。

b) 首页的分析结果并非根据某一单一专题得出,而是所有关键词的汇总分析结果,且无法设定,这一点十分不合理。例如你有两个不同需要检测的专题“京东618”和“吴亦凡”,首页的情感分析、词云统计很有可能是所有检测文本的集合结果,目前无法实现对不同专题的差异化结果显示。因此,该平台目前对具有单一的检测主题的受众较为适用。

2.抓取的数据量不够完整,且舆情数量很容易达到上限。(大厨仅仅检测了4天吴亦凡事件,控制台的上方便有如下提示。)

大数据教你玩转娱乐圈

3.若干更为实用的工具还未向公众开放。如下图,开放接口下的传播路径分析等功能还未开放,因此数据的使用和分析具有局限性。

大数据教你玩转娱乐圈

PS:大厨发现,前几日的1元体验版现今已悄然下架,取而代之的是69元/年的大众版,据负责人透露:1元钱的体验版为上个月的活动价,对数据量进行了控制,每天仅能抓取1万条信息,功能较弱;而今的69元/年的大众版,每天可以抓取30万条信息,大大提升了该平台的分析容量,算是真正商业化了。这确也部分解答了大厨的体验困惑。当然,大厨只是体验了初级版,各位boys或者girls,值得拥有大众版!

公众趋势分析地址: http://click.aliyun.com/m/5647/

原文  http://www.techweb.com.cn/news/2016-08-10/2372575.shtml
正文到此结束
Loading...