借助3G的带宽提升和便携式上网设备的智能化,微博不但使得在任意时间和地点向任何人传播任何事成为可能,而且实现了以现实中的人际传播特征为基础的综合传播方式,在网络人际关系的构建中发挥着举足轻重的作用。微博的用户黏性远高于其他互联网应用,这和微博的活跃与手机终端随身携带和发布信息的便捷性有很大关系,其为网络社会中人际关系的建构提供了更多的机会。......
2023-11-17
网络爬虫是一种按照一定的规则,自动抓取万维网信息的程序或者脚本,主要思路是由关键字指定统一资源定位符(URL),把所有相关的网页全抓下来,形成字符串文本,然后利用相关软件包结合正则表达式进行解析,提取文本信息,最后把文本信息存储下来(周德懋等,2009)。
下面以微博数据为例,介绍爬取社交媒体数据的基本步骤。微博是指一种基于用户关系信息分享、传播以及获取的通过关注机制分享简短实时信息的广播式的社交媒体、网络平台。用户可以通过PC、手机等多种移动终端接入,以文字、图片、视频等多媒体形式,实现信息的即时分享、传播互动。微博用户端向服务器发送一个带Cookie认证的请求,服务器对网络请求进行响应,返回我们需要的数据,请求原理如图2.4所示。在第一次请求中需要向服务器提交相应的账号密码等账户信息。
图2.4 HTTP连接原理
Cookies是指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据(李强等,2011)。当客户端第一次请求服务器时,服务器会返回一个请求头中带有Set-Cookie字段的响应给客户端,用来标记是哪一个用户,浏览器会把Cookies保存起来。当浏览器下一次再请求该网站时,浏览器会把此Cookies放到请求头一起提交给服务器,Cookies携带了会话ID信息,服务器检查该Cookies即可找到对应的会话是什么,然后再判断会话,以此来辨认用户状态。在成功登录某个网站时,服务器会告诉客户端设置哪些Cookies信息,在后续访问页面时客户端会把Cookies发送给服务器,服务器再找到对应的会话加以判断。如果会话中的某些设置登录状态的变量是有效的,那就证明用户处于登录状态,此时返回登录之后才可以查看网页内容,浏览器再进行解析便可以看到了。反之,如果传给服务器的Cookies是无效的,或者会话已经过期了,将不能继续访问页面,此时可能会收到错误的响应或者跳转到登录页面重新登录。
爬虫的主要流程是获取相应的统一资源定位符(URL),利用发起页面请求,抓取页面信息后,指定采集规则并采集每一页需要的数据要素。一般地,都是通过爬取页面分析来制定抓取规则,规则见表2.1。
表2.1 微博抓取规则示例
每页微博数据请求到页面并完成解析后,按照抓取的逻辑与规则插入到数据库中,若Cookies数量较少时,可拟定爬虫访问频率,降低数据服务区访问压力。若需要快速抓取,可以考虑多开线程,提升数据采集效率。此外,还可以构建Cookie池,进行Cookie的定时更新与维护。
有关应急大数据的空间分析与多因素关联挖掘的文章
借助3G的带宽提升和便携式上网设备的智能化,微博不但使得在任意时间和地点向任何人传播任何事成为可能,而且实现了以现实中的人际传播特征为基础的综合传播方式,在网络人际关系的构建中发挥着举足轻重的作用。微博的用户黏性远高于其他互联网应用,这和微博的活跃与手机终端随身携带和发布信息的便捷性有很大关系,其为网络社会中人际关系的建构提供了更多的机会。......
2023-11-17
微博用户画像的功能结构图如图9-4所示。图9-4微博用户画像功能图数据爬取模块主要功能是定期使用爬虫得到最新的新浪微博用户数据并且更新数据库。对于诸如“性别”“是否加V”“是否允许所有人发给我私信”等可枚举的字段,使用柱状图和饼图进行统计结果的展示;对于诸如“粉丝数”“关注数”“微博数”“收藏数”等结果不可枚举的字段,使用散列图描述样本的分布。最后,给出多个指标的联合分析,帮助更好地分析用户分布。......
2023-06-28
充分发挥微博在网络人际交往中的优势,构建和谐的网络人际关系,是未来微博健康发展的关键。微博中的人际关系是现实关系的非严格映射,微博中的言行会受到现实中道德和法律的影响。用户的自律、监管的全面、失范的问责是基于微博平台重建网络人际关系信任度的关键。融入了真情实感的微博内容辅以恰当的线下交流,在用户之间高黏性的关注和充分的互动基础上,将使网络人际关系变得更加和谐与稳定。......
2023-11-17
微博提供的一种全新的网络人际交往方式,是对现存网络人际交往方式的一种重要补充。微博用户的频繁登录和长时间在线,使通过微博建立的个人联系得到空前的强化,网络人际关系的耦合度大大加强。这一方面显示出知识、智慧、修养等更为深层次的内涵在微博的网络交往中起到重要的作用,另一方面也体现出微博中的人际关系特征表现为向现实人际交往的回归。......
2023-11-17
比如,针对“逻辑思维”的创始人而言,其在对自己所建立微信公众号进行运营期间,都会始终坚持每天为粉丝推送语音,没有间断过。此外,除了注重上述营利因素外,为了进一步提升微信公众号运营质量,还要注意做好运营维护管理,借助生态运营去增强公众号粉丝的黏性。......
2023-11-22
提到微信,就不免会想到微博,微信和微博是新媒体时代的宠儿,也是代表新媒体运营的典型双生子。但微博和微信在运营上存在比较大的区别。同时,微信对内容管理非常严格,并有明确的禁止内容说明和举报惩罚机制,微博则相对宽松。而微信运营的核心在于强关系深互动,即如何与用户之间进行互动,并形成长期且稳定的社交关系。......
2023-11-17
这种活动门槛最高,参与人数最少,但是对粉丝的精准传播最好。第一是用户数据,即反馈微博粉丝关注数的数据,比如每月新增多少粉丝,粉丝性别、地域、年龄等属性。第三是活动数据,即反馈微博粉丝参与活动的数据,比如活动单条微博的阅读量、曝光量等。最后强化互动,将微博粉丝化,运用数据导向的方法有效管理和运营粉丝。......
2023-11-17
虽然微信和微博的运营有着较大的区别,涉及的运营方法也不一样,但是微信和微博之间不是二者选其一的关系,更多的时候应该采用组合的方式,相互补充才能达成更好的营销或者传播目标。应根据内容的性质和传播的属性来合理使用或者组合使用微信和微博。微信和微博的运营组合,是社交关系与兴趣关系的组合。微信和微博在现有阶段都具备极强的发展空间,两者的组合方法还具备更多的发展可能性。......
2023-11-17
相关推荐