目录

社交网络分析初步学习1.md

社交网络分析初步学习1.md

社交网络分析初步学习1

理论(用户分类)和应用两个方向

【关键词】社交网络,拓扑结构,网络群体,信息传播

1 什么是社交网络(在线)

1.1 定义

社交网络在维基百科的定义是:”由许多 节点 构成的一种 社会结构 “,节点通常是指 个人或组织 ,而社交网络代表着 各种社会关系

1.2 分类

  1. 即时消息 类应用,即一种提供在线实时通信的平台,如MSN、QQ、飞信、微信等;
  2. 在线社交 类应用,即一种提供在线社交关系的平台,如Facebook、Google、人人网等;
  3. 微博类 应用,即一种提供双向发布短信息的平台,如Twitter、新浪微博、腾讯微博等;
  4. 共享空间等其他类应用 ,即其他可以相互沟通但结合不紧密的Web2.0 应用,如论坛、博客、视频分享、社会书签、在线购物等。

1.3 影响

基于互联网的社交网络已经成为了人类社会中社会关系维系和信息传播的重要渠道和载体,对国家安全和社会发展产生着深远的影响.虚拟的社交网络和真实社会的交融互动对社会的直接影响巨大,所形成的谣言、暴力、欺诈、色情等不良舆论会直接影响国家安全与社会发展。

2 社交网络分析研究的核心问题

2.1 三个组成要素

在线社交网络是一种在信息网络上由社会 个体集合个体 (也称为 节点 )之间的连接关系构成的 社会性结构 ,包含 关系结构(载体) 、**网络群体(主体) 网络信息及其传播(客体)**3 个要素。

  1. 社交网络中的“关系结构”为网络群体互动行为提供了底层平台,是社交网络的 载体 。社交网络的关系结构是社会个体成员之间通过 社会关系 结成的网络系统;
  2. “网络群体” 直接 推动网络信息传播,并反过来影响关系结构,是社交网络的 主体 。网络社会群体行为是指网络个体就 某个事件某个虚拟空间 聚合或集中,相互影响、作用、依赖, 有目的性 地以类似方式进行的行为;
  3. “网络信息及其传播“是社交网络的 出发点和归宿 ,也是群体行为的诱因和效果,同样影响关系结构的变化,是社交网络的 客体 。基于社交网络的信息传播是指社交网络中的 个体与个体 之间、 个体与群体 之间、 群体与群体 之间的信息传递。

2.2 三个研究对象

  1. 社交网络本身的 结构特性
  2. 社交网络中的 群体及其行为
  3. 社交网络中的 信息及其传播

2.3 三类研究问题(结构、群体、信息)

(1)在线社交网络的 结构 特性与演化机理。

  1. 社交网络的 表达方式
  2. 什么样的 表示方法 既能反映社交网络的本质,又能支持计算和分析?
  3. 什么样的 计算方法 能够准确刻画社交网络结构的演化?

(2)在线社交网络 群体 行为形成与互动规律。

  1. 在社交网络中 如何刻画 群体的存在及其形成方式?
  2. 群体间的交互影响 如何进行表示与度量
  3. 群体间的交互过程对群体的演变所产生的影响应该 如何计算

(3)在线社交网络 信息 传播规律与演化机理。

  1. 信息的内涵如何以 可计算 的形式来 表达
  2. 信息在社交网络上的传播过程与态势的 计算方法 是什么?
  3. 如何用 计算的方法来刻画 信息内涵与信息传播之间的相互影响?

3 国际学术界高度关注社交网络研究(已有)

在线社交网络分析涉及 计算机科学社会学管理学心理学 等多个学科领域。

3.1 社交网络的结构特性研究

(1)社交网络的结构分析与建模( 基础

  1. 社交网络结构分析 是通过 统计 方法来分析网络中 节点 度 的分布规律、关系紧密程度、相识关系的紧密程度 ,某一个用户对于网络中所有其他用户对之间传递消息的重要程度等诸多统计特性。
  2. 社交网络建模 是针对社交网络的特性,采用结构建模的方法来研究产生这些特性的机制,以此来深刻认识社交网络的内在规律和本质特征。( 图论方法 )

(2)虚拟社区发现( 必备功能 )

  1. 社会学 领域,社区是一群人在 网络上 从事 公众讨论 ,经过一段时间,彼此拥有 足够的情感 之后,所形成的人际关系的网络。社交网络中存在 关系不均匀 的现象,有些个体之间关系密切,有些关系生疏,从而在常规的社区之上围绕某一个焦点又形成了联系更为密切的社区形式,这可以看作社交网络中的虚拟社区结构。
  2. 虚拟社区结构是在线社交网络的一种典型的 拓扑结构 特征。

(3)社交网络演化分析

动态演化性

3.2 社交网络中群体互动研究

(1)社交网络上的 用户行为 分析

社交网络上群体行为分析的已有研究主要集中在群体社交网络 选择模型 研究,以及 个体行为特征分析 等2 个方面。在群体社交网络选择模型研究方面,2007 年,美国密歇根大学的埃里森(Ellison)等人将社交网络的群体行为关系分为桥接型、黏接型和维持型三种类型,并基于 回归分析 发现 桥接型 关系对个体选择社交网络有着更重要

的影响。

(2)群体情感建模与行为互动

情感分析是针对 主观性 信息(“支持”、“反对”、“中立”)进行 分析、处理和归纳 的过程,主观性信息表达了人们的各种情感色彩和情感倾向。社交网络中每个人情感状态不同,影响力也会不同。

3.3 社交网络中的信息传播研究

特指:以 社交网络为媒介 进行的信息传播过程。

信息传播是人们通过 符号信号 来进行信息的传递、接收与反馈的活动,是人们彼此交换意见、思想、情感,以达

到相互了解和影响的过程。

(1)社交网络的 信息及其能量

已有研究主要集中在信息的符号表示与意义,以及信息传播能量及演化方面。

(2)社交网络信息传播 模型

已有研究主要集中在传染病模型、网络拓扑图模型以及基于统计推理的信息传播模型等。

(3)社交网络信息传播 影响 (热点)

其目的是发现社交网络中最有信息传播影响力的 节点集合 ,从而经过 信息 在社会网络中的传播,最终能够 最大化 信息的传播范围。在实际生活的许多重要场景中,社交网络信息传播影响分析均有着广泛的应用,例如,市场营销、广告发布、舆情预警、水质监测、疫情监控、网络竞选、突发事件通知等。

研究方法:有概率论方法、经济学方法和传播学方法。

概率论方法:基于 概率图模型 对研究信息传播的敏感度和影响力的方法,可以对概率图 参数结构 的重要性进行 量化 分析。

4 我国在社交网络分析方面的研究进展

4.1 主要研究单位

国防科技大学、上海交通大学、合肥工业大学、北京邮电大学、中科院计算所、北京大学、清华大学、北京科技大学、浙江大学、哈尔滨工业大学、中科院信工所等单位都开展了系统性的研究。

4.2 主要成果

  1. 结构分析 方面,2009 年,中科院计算所的程学旗等人分析了社区结构的特性, 改进了网络层次化重叠社区的发现方法 ,能够同时揭示网络的层次化和重叠社区结构。
  2. 群体特性 方面,2009 年,合肥工业大学杨善林等人利用 元胞自动机仿真从众行为 ,发现当群体出现完全从众行为时,从众行为的结果对初始状态相当敏感,不同的初始状态就可能有不同的演化结果。
  3. 信息传播 方面,2004 年,北京理工大学邢修三提出了以表述信息演化规律的 信息熵 演化方程为核心的 非平衡统计信息理论 ,从 定量 的角度对信息演化机理进行了有益的探索。
  4. 方滨兴等人也在系统梳理国内外相关理论和技术的基础上,编著了**《在线社交网络分析》**一书,从上述3 个角度入手为相关研究者提供理论性、系统性、工具性的研究指导。

5 社交网络研究尚有诸多问题亟待突破

国际上人们对于大型社交网络的本质特征和网络信息传播的基本规律的研究仍处在相对初级的阶段,尚未提出完整的社交网络分析的基础理论和方法,仍然值得我们进一步进行研究和突破。

5.1 社交网络的一些挑战

  1. 在线社交网络的结构具有 节点海量性、结构复杂性和多维演化性 等特点,拓扑结构随着时间不断演变,对社交网络结构演化规律还需要进一步 有效的表达和计算 加以解决。
  2. 在线社交网络的信息传播具有信息的 多源并发性其相互影响形成了路径多变和内容演化的特点 。网络群体方面,已有研究对其产生、发展、消亡规律的内部交互作用机理知之不深;传统的群体建模及其互动方法无法准确刻画大规模在线社交网络中的强互动演变、公众情绪漂移等特征, 不能真实分析出舆情的倾向性 。在个体行为特征分析方面,传统的研究主要局限于用户个性化模型及其对社交网络的选择分析上,未涉及个体向群体演化过程中的个体行为表征等问题。
  3. 在线社交网络的群体互动具有 强互动演变、公众情绪漂移 等特征点,公众立场不断变化,兴趣点不断演化。已有的信息传播模型 多基于传染病模型、网络拓扑图以及统计推理 等方法,在描述社交网络传播模式以及计算效率和精度方面仍存在不足。研究视角上,尚缺乏从信息传播的 时间、空间特征以及信息传播的双向性 3 个维度,对信息传播的内在机制进行深度分析。传统理论和方法局限在“还原论”的角度解决问题,不能准确描述在线社交网络中信息的 多源并发性 所带来的相互影响等特性,因此需要研究新理论与新方法,以便在信息传播的相互作用中形成对舆情的驾驭能力。

5.2 社区发现面临的一些挑战

  1. **社区的重叠性。**传统的社区发现研究一般基于“每一个节点都唯一归属于某个社区”的假设,而在现实社会网络中,**人们往往同时属于不同的社区,**而这种同时属于多个社区的人又是信息传递、社会交往中的关键。因此,针对重叠社区发现的研宄应得到研宄者的重视和关注。
  2. 社区的局部性。 传统的社区发现算法很多都基于全局的信息,例如GN算法中的"边介数”、基于随机游走的算法中任意两点间的相似度、基于模块度的算法中的模块度等,都必须在考虑整个网络结构的前提下才能得出。随着信息化程度的不断提高,社会网络规模越来越庞大, 获得网络的全局信息变得十分困 难,而且这些社区发现算法在海量社会网络数据下显得非常低效。另一方面,社会网络通常是 稀疏 的,绝大多数个体与外界的直接联系都是有限的,而很多研究和应用都只关心某些节点所在的局部结构。甚于这些考虑,局部社区的概念被提出,相关问题需要进一步深入研究。
  3. 网络的多模式性与多维性。 传统的网络分析中的节点对象通常是单一类型的,如:节点只代表了人、用户或者网页其中的一种,而多模式网络中的节点类型则是多样化的。比如社交网络中的某个用户 分享的项目种类是多样化的 ,包括图片、视频、日志等,与其将这些交互的不同类型实体建模为节点的不同属性,不如建模为 多模式网络 更为方便。网络的多维性是指网络中的节点(用户)之间的边(连接)具有多种类型,而由这些节点及不同类型的边所组成的不同“维度”的网络(图)就称之为多维度网络。其中,每一个维度的网络表示了节点间不同类型的联系(互动),而边上往往又附带有权值信息, 其代表了节点间互动的程度与连接的强度 。因此,传统的对于单一模式、单个维度网络的单一分析在这里己经不再适用,如何在多模式、多维度网络当中解决不同模式及维度下的信息融合、共享以及进行社区发现等相关问题也亟待解决。
  4. 网络节点角色的差异性。 传统的图挖掘、网络分析方法,并没有将网络中每个节点角色进行过多的区分,认为节点的地位是等同的。实际上,在各种复杂网络中尤其是社会网络中,都存在着 帕累托效应(二八规则) ,即节点的角色存在着差异。只有大约百分之二十甚至更低比例的节点,在网络中发挥了领袖节点的作用,它们更具有 权威性、中枢性、核心型 等特征。同时也具有更多的经验和影响力,对社区的形成起着决定性的作用,对网络拓扑结构的演化、网络中的信息流通和传播有重大影响。在应用和分析中,首先应 确定此类关键节点的存在性 。而社会网络往往具有更为庞大的规模,如何快速有效地挖掘此类成员成为一个挑战性的问题。
  5. **网络的动态性。 传统的社区研宄一般是针对静态的网络展 研宄的,这种研究视角不能很好地反映诸如信息扩散、同步等动态过程。研究网络的动态性的目的在于揭示网络拓扑结构对发生在其上的动态过程的影响,以及这些动态过程是否能够反映其“承载网络”的拓扑结构特征。研究社区结构和网络动态性的关键在于 社区演化问题,**其主要关注网络自身结构和在其上频繁发生的交互过程相互作用的结果,如社区形成、社区生长、社区缩减、社区合并、社区分裂、社区消亡等。

6 对社交网络研究问题的思考

结构、群体是为传播研究而服务的。

社交网络分析的3 个要素“结构”、“群体”和“传播”是相互作用的关系。 社交网络结构建模和群体互动规律分析的目标都是支持信息传播形态研究,因此是否能够将结构建模与群体互动者两个独立的要素 结合 起来,研究结构与互动相结合的动态建模方式?已有的信息传播过程分析中,核爆炸式、烟花式、星球式、水母式等信息爆发式传播形态都能客观表示,如何能够让 拓扑结构建模 对这些信息传播的模型有所贡献?如何从结构建模的角度支持这些外显形态的存在? 群体事件、群体极化、群体演化等社交网络中的群体形态是否也能被模型化 ?信息传播的影响力是否能够形成一个 可计算 的量纲?如何将 碎片化、时变的、演化 的话题分析技术和信息传播、溯源技术结合起来,形成信息传播的可计算模型。

作为一种新型媒介, 在线社交网络的根本在于信息流动和传播 ,而信息的传播根植于社会群体的 互动 ,但 又受限于社交结构与社区的规模

信息传播过程可以被视作社交网络中一个 时间函数 的求解变量, 其中的群体正是函数因子,而社交网络的拓扑结构是控制其发展的边界条件 。21 世纪,是人类高度依赖数据、深度融入信息社会的世纪。在信息社会中,在线社交网络构建了庞大的功能平台。人们在社交网络上表达观点、交友互动,每天都产生数亿计的信息。

在线社交正在改变着人们的行为模式和社会形态,而在线社交网络数据也正在成为最成熟的大数据,通过研究和分析这一技术,人们有望对在线社交网络大数据背后的用户行为、社会现象的理解达到空前的深度。

7 社交网络分析的应用

7.1 社交推荐

社交推荐顾名思义是 利用社交网络或者结合社交行为的推荐 ,具体表现为推荐 QQ 好友,微博根据好友关系推荐内容等。在线推荐系统最早被亚马逊用来推荐商品,如今,推荐系统在互联网已无处不在,目前大热的概念“流量分发是互联网第一入口”,支撑这个概念有两点核心,其一是内容,另外就是推荐,今日头条在短短几年间的迅速崛起便是最好的证明。

根据推荐系统推荐原理,社交推荐可定义为一种“协同过滤”推荐,即**不依赖于用户的个人行为,而是结合用户的好友关系进行推荐。**对于互联网上的每一个用户,通过其社交账户能很快定义这个用户众多特点,再加之社交网络用户数之多,使得利用社交关系的推荐近些年备受关注。

7.2 舆情分析

舆情分析在互联网出现之前就被广泛应用在 政府公共管理,商业竞争情报搜集 等领域。在社交媒体出现之前,舆情分析主要是线下的报纸,还有线上门户网站的新闻稿件,这些信息的特点是相对专业准确,而且易于分析和管理;但随着社交媒体出现,舆情事件第一策源地已经不是人民日报新华社这样的大媒体,而是某一个名不见经传的微博用户,一个个人微信公众号。他们的特点是信息非常新鲜,缺点是真实度较低且传播十分迅速,难以控制。所以在社交网络下的舆情分析是一门新的学问。

“刺死辱母者”微博转发趋势

举几个例子,去年的和颐酒店,今年的北京地铁骂人事件这类急性舆情事件最早就是在微博上爆出,而且在短时间内迅速传播。还有去年的关于快手的“中国农村残酷底层物语”,今年的“北京房价”等这类民生话题,也是在微信公众号逐渐发酵。

当然,在新形势下的舆情应对,也已经有新的工具,大家百度“舆情分析平台”或者“舆情分析软件”可以找出一大堆。比较有名的有蚁坊、红麦、清博、知微、新榜等等。一些传统的舆情分析机构开始转型做“大数据”的舆情分析,也有近年来完全基于社交媒体的舆情平台,比如基于微信的新榜和基于微博的知微 。除此之外,BAT 等大型平台有自己舆情分析工具,可以私人订制,也有开放的指数(百度指数、微信指数)。

7.3 隐私保护

隐私问题在互联网时代已经是老生常谈的问题了。在社交网络中,作为用户,我们可能会留下大量痕迹,这些痕迹有隐性的,也有显性的,好不夸张地,社交服务提供商可以根据你的少量痕迹,挖掘到大量你的个人信息,有些信息是你不愿意别人知道的。

这其中存在一个矛盾,即社交服务提供商处于商业目的想尽可能获取你的个人信息,但是你又担心自己的个人信息被泄露。所以在隐私保护领域,一方面要设计足够安全的机制,技术层面的,法律层面的,在保护个人隐私的前提下最大化商业利益和用户的体验。

举一个大家比较熟悉的例子,即许多网站注册账户的时候使用微信、支付宝账户验证,即免去了大家填写个人信息的烦恼,又保护了大家的隐私。同理,蚂蚁金服提供的芝麻信用功能也有隐私保护的功能。

目前学界对隐私保护的研究主要还是从技术层面设计完善的隐私保护机制。

7.4 用户画像

用户画像,这是个营销术语,即通过研究用户的资料和行为,将其划分为不同的类型,进而采取不同的营销策略。传统的用户画像最常用的手段就是调查问卷,订阅过杂志和报纸的读者都知道,会有各种各样的有奖问卷,一方面用来获得对于产品的反馈,另一方面就是对你进行画像,这些画像资料甚至广泛在黑市流通,这就是你为什么有时候会接到莫名其妙的电话的原因(又扯到了隐私保护问题)。

在社交网络,用户画像方式变得更多了,除了传统的线下问卷变成在线问卷。我们通过用户的行为,一方面通过统计学方法获得一些用户特征(经典的例子是沃尔玛的“啤酒和尿布”,另一方面通过机器学习进行建模和验证获得意外的收获(参见上面提到的腾讯社交广告文章)。

接触过微信公众号后台的读者都知道,公众号后台对微信公众号文章的读者还有公众号粉丝的画像已经做得非常充足了,好像微博会员也有粉丝画像的功能。这些便捷的功能对于媒体运营者和广告投放者都有非常重要的作用。

7.5 谣言检测

谣言检测算是舆情分析的一部分,之所以单独提出来是因为这部分非常重要,而且谣言的确定对于舆情管理非常重要。早起微博因为充斥着大量谣言,使得新浪微博不得不推出“微博辟谣”官方账号,到如今微博以及有许多自发和官方的辟谣账号,微信公众号也是如此。

传统辟谣方法无非是进行试试检验,用证据说话,随着现在机器学习技术的迅速发展,我们也可以通过信息传播的轨迹,信息内容等维度自动判断消息是否属于谣言,而且判断地越迅速,对于舆情管理的意义就越大。同理,这种技术也被应用在社交网络有害信息识别。

在国外,有关 Facebook 假新闻的新闻被炒得火热,有兴趣的读者可以关注一下。

7.6 可视化

可视化是随着大数据一起成为热门话题的。因为人类对于图像信息的理解速度要大于文字信息数百倍,所以讲一些数据可视化有助于人们更生动地理解某一结论或现象。当然不是所有数据都适合可视化,在社交网络中,我们最常见的有信息传播轨迹还有词云图等。有关这方面的内容可以参考微博账号“社交网络与数据挖掘”。

除了专门可视化的机构,网上也有许多开源的可视化库,百度的 Echarts 就很有名。 对于社交网络信息传播以及好友关系等的可视化,使得我们能直观看到一些事实,这对于舆情报告制作以及新闻报道都有很好的辅助作用。

8 学习资料

8.1 图书

  • 《社会计算》Lei Tang, Huan Liu
  • 《社交网站的数据挖掘与分析》Matthew A. Russell
  • 《在线社交网络分析》 方滨兴等
  • 《社交媒体挖掘》Huan Liu等
  • 《大话社交网络》郎为民

8.2 网站

  • 大数据导航(此网站包含很多资源)

  • 斯坦福数据集网站(Jure 男神)

  • 加州大学欧文分校数据集网站

  • 国内社交网络数据集共享网站

  • 清华大学搭建的学术数据库

  • 亚马逊商品流行趋势分析平台

  • 明尼苏达双城分校社会计算实验室

  • 新华网信息传播影响力评估

  • 新榜,微信公众号数据检测平台

  • 清博新媒体大数据平台

  • 百度Echarts数据可视化库

  • 阿里云 DataV 数据可视化库

8.3 工具

  • Python 及其相关库 (scipy,numpy,pandas,scikit,scrapy,twitter )更多请见
  • 图分析分析工具 Graphchi,SNAP,Pajek,Echarts
  • 可视化工具 Gephi,Graphviz
  • 数据挖掘工具 WEKA,AlphaMiner
  • 图数据库 Neo4j

8.4 会议

笔者仅列出与社交网络相关的部分国际会议,排名不分先后,加粗的会议为专门讨论社交网络话题的会议。

KDD, WWW, ICDM, CIKM, AAAI, SDM, IEEE BigData, ASONAM , WSDM, ICWSM , ACL, IJCAI, NIPS, ICML, ECML-PKDD, VLDB, SIGIR, PAKDD, RecSys, ACM HT, SBP , ICWE, PyData

笔者在这里推荐两个国内的社交网络分析会议,一个是全国社会媒体处理大会(SMP),由中国中文信息学会主办,会议论文 EI 检索。第二个是国际网络空间数据科学会(IEEE ICDSC),会议由中科院,北大,中国网络空间安全协会等机构筹办。

8.5 课程

笔者在上一部分提到的国际会议,例如 WWW、KDD 等,每年都有关于社交网络分析方向的 tutorial,其视频和 PTT 都是在网上可获取的,通过 tutorial 能对相关领域有一个宏观了解并且能了解领域前沿动态。

除此之外,在 Coursera 上面密西根大学安娜堡分校开设的一系列 Python 学习课程也值得一看。在网易公开课上面也有中文的 Python 数据挖掘课程可供学习。

万能的淘宝也提供大量廉价的视频和电子学习资料。

最后,利用好科学上网工具和搜索引擎(不是百度)才是王道。

8.6 参考资料

[1] 方滨兴, 许进, 李建华. 在线社交网络分析[M]. 电子工业出版社, 2014.

[2] Reza Zafarani, Mohammad Ali Abbasi, Huan Liu. 社会媒体挖掘[M]. 人民邮电出版社, 2015.

[3] Carlos Castillo, Wei Chen, Laks V.S. Lakshmanan, Information and Influence Spread in Social Networks,KDD 2012 Tutorial

[4]中国知网(中科院院刊)社交网络分析核心科学问题、研究现状及未来展望

基金项目:国家重点基础研究发展计划(“973”)项目(2013CB329601),国家自然科学基金项目(61372191)