[中文分词技术在社会化媒体分析效果研究] 社会化媒体

来源:竞岗演讲稿时间:2019-10-12 07:58:32 点击：

中文分词技术在社会化媒体分析效果研究

中文分词技术在社会化媒体分析效果研究 1 社会化媒体社会化媒体包括平台创建和交换用户生成内容，通常社会化媒体也被称为消费者产生的媒体（CGM）。社会化媒体和传统的媒体有所不同，比如报纸、书本、电视等任何一种媒体印刷成本较高，而社会化媒体在印刷出版方面的成本却很低，但社会化媒体并不是完全不同于传统媒体，它与传统的媒体存在密切的联系。

社会化媒体的形式很多，包括博客、社交网站、虚拟社区等。社会化媒体有七个方面是大家一直关注的：身份、交谈、分享、存在、友谊、名誉及成员。不同的社会化媒体有不同的关注点，像维基百科等合作项目经常关注的是共享及信誉，而在虚拟社区中身份、存在、信誉等备受关注。总之，社会化媒体在人们的生活中发挥着举足轻重的重要。因此，对社会化媒体的分析更具有研究价值。

社会化媒体的定义学者Andreas Kaplan和Michael Haenlein认为社会化媒体是一组建立在Web2.0技术基础上，允许创建和交换用户自创内容的互联网应用[1]，它包含交互式的应用和平台创建，分享和交换用户生成内容，是允许人们撰写、分享、评价、讨论、相互沟通的网站和技术。所谓社交媒体应该是广大网民自发分享、提取、创造新闻资讯，然后传播的过程。社交媒体的产生依赖的是Web2.0的发展，现阶段主要包括社交网站、微博、微信、博客、论坛、播客等。类似的，Toni Ahlqvist等人认为社会化媒体概念包含三个关键元素，即：Web2.0技术、用户自创内容（UserGenerated Content，UGC）以及所产生的人际关系网 [2]。

社会化媒体发展目前，社会化媒体的发展越来越迅速。

社会化媒体已经在整个互联网中占据主流地位，根据Alexa 网站名称统计数据，当前世界访问量排名前十大网站中，有五个是社会化媒体网站，像Facebook、Twitter、YouTube等社会化媒体网站更可谓风靡全球，家喻户晓[3]。截至2014 年5月，Facebook有近13亿的活跃用户，其中包括超过10亿移动活跃用户。目前已经有专门关注娱乐、运动、金融和政治的社会化媒体。

2 中文分词技术中文分词的概念中文分词就是将一段或一句中文字序列分成相对独立的词序列的过程[4]。通过分词，可以使句子以单个词语的形式出现，从而使整个句子的语义简单化。

常用的中文分词算法目前，常用的中文分词算法有基于字符串匹配的分词算法、基于词的频度统计的分词算法、基于知识理解的分词算法，其中，基于字符串匹配的分词算法主要包括最大正向匹配法和最大逆向匹配法。在对社会化媒体进行分析时，笔者所采用的主要是基于字符串匹配的分词算法，所用本文主要对基本字符串匹配的分词算法进行详细的介绍。基于字符串匹配的分词算法是按照一定的策略将待切分的汉字字符串与一个“充分大”的机器词典中的词进行匹配 [5]，也就是按照一定的策略在词典中进行对比查找。目前，基于字符串的分词算法主要有正向最大匹配算法及逆向最大匹配算法。

1）最大正向匹配法（Forward Maixmum Matching Method），通常简称FMM，其思想是假定分词词典中的最长词条有s个汉字字符，则用待切分文档的当前字串中的前i个字作为匹配字段，在词典中进行查找。整个算法的思路如图1所示。

2）逆向最大匹配法（Reverse Maximum Matching Method），通常简称为RMM法，其基本原理与FMM法相同，不同的是分词切分的方向与FMM法相反，一个是从左至右的切分，另一个是从右至左的切分，并且它们使用的分词辞典排序方式也有所不同。其算法如图2所示。

3 中文分词技术在社会化媒体分析中的应用数据采集本文所用的数据来自项目组成员设计出来的社会化媒体分析系统，采集的是南京大学论坛数据。在该数据采集平台中，数据采集分为网址采集和内容采集两部分。

1）网址采集。先进行网址采集，根据采集到的网址，再采集相应的帖子内容。网址采集最多可分为四级采集，以南京大学论坛为例，南京大学论坛使用二级采集就可以采集到论坛帖子的网址，所有采集都是按照正则表达式来采集。

在论坛中有精华帖、分页贴，精华帖需要单独处理，分页贴主要是针对帖子有多页的问题，如上一页、下一页。

2）内容采集。采集到论坛的网址后，根据帖子的网址就可以采集帖子内容。采集到论坛的网址后，根据帖子的网址就可以采集帖子论坛，一般关注的数据主要有标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区等。该数据采集平台如图3所示，采集的数据如图4所示。

1）最大正向匹配法处理实例。从采集的数据中，抽取了部分数据进行分词实验，例如：待切分语句“我们急需提高英语口语及听力水平”，如果在词典中匹配，只要匹配成功就切分出来，那么这一句话切分的结果可能为“我们/急需/提高/英语口语/及/听力/水平”。如果事先知道词典的最长词长，那么将减少很多步骤，从而提高分词速度。此处假设词典中最长词长为7，整个匹配过程如表1所示。

2）最大逆向匹配法处理实例。在对社会化媒体分析平台采用的数据进行分词处理的过程中，除了采用最大正向匹配算法外，还采用最大逆向匹配算法进行处理。例如：待切分句子“求兼职新概念英语老师”，如果在词典中匹配，只要匹配成功就切分出来，那么这一句话切分的结果可能为 “求/兼职/新/概念/英语/老师”。在进行匹配时，采用的是逆序词典，假设词典中最常词长为7，整个匹配过程如表2 所示。

在分词的过程中，本文主要采用最大正向匹配和最大逆向匹配相结合，但是仍然存在一些问题，如在对歧义词和未登录词进行处理时存在一定的瑕疵。在以后的研究中，笔者会进一步着重处理歧义词和未登录词。

4 结论参考文献 [1]Kaplan A M， Haenlein M. Users of the world， unite！ The challenges and opportunities of Social Media[J].Business Horizons，2010（3）：59-68. [2]World Wide Web[EB/OL].http：
//www.springer.com/computer/database+management+%26 +information+retrieval/journal/11280. [3]王明会，丁焰，白良.社会化媒体发展现状及其趋势分析[J].信息通信技术，2011（5）：10.

上一篇：浅谈如何开展小学班主任工作_浅谈小学班主任工作
下一篇：以学定教下的小学信息技术教学内容整合实施微探|信息技术和小学科学的整合

扩展阅读文章

推荐阅读文章