传播大数据系统解决方案
一、背景
随着信息传播技术的突飞猛进和社交媒体的普及化发展,人类已经进入一个万众皆媒的“泛媒体时代”。网民在各大社交媒体平台上,正在以前所未有的速度生成内容和传播分享内容,逐渐形成了规模空前庞大的数据量,为社会政治、经济和文化带来了巨大深远的影响,原有单一、线性的传播形态彻底被颠覆,传播的影响力从广度到深度都得到了前所未有的提升。在这样一个新时代,人类所掌握的各类传播信息不仅规模急剧膨胀、类型丰富多样,并且呈加速度发展。大规模各种类型的数据使其意义发生革命性变化,从而使人类进入所谓的“传播大数据时代”。在这样一种多源异构的大数据环境下,舆情监测、数字营销与互联网用户行为关系分析、智能机器新闻写作、危机传播与智能决策等问题开始得到越来越多的关注。
二、技术方案
恒华传播大数据平台依托云计算、大数据和人工智能等前沿信息技术,从国内外各大主流社交媒体平台获取的海量数据,利用信息技术手段进行整合和优化,借助机器学习和深度学习等数据分析算法,引入新闻传播、社会网络、商业智能等理论,是一套面向大数据和移动互联环境下,集信息整合、分析、处理、人工智能交互、可视化展示和数据共享于一体的传播大数据云平台,为解决主流媒体内容感知、社会舆情治理、数字营销、智慧城市、互联网用户行为分析、智能机器新闻写作等应用层面问题提供坚实基础,实现多样化的智能云平台服务。恒华传播大数据平台的底层支撑平台,是基于Hadoop+PCF的分布式PaaS云架构,通过其灵活的资源管理和强大服务管理功能,为传播大数据云平台提供底层的基础服务,主要用于存储多源异构的各类社交媒体平台数据;运行处理各类数据分析应用;处理的各类近百亿条的结构化数据的实时在线可视化分析。
图1传播大数据PaaS云平台基础架构图
底层支撑平台采用流行的分布式存储计算、云计算及服务管理等技术,将服务器、存储、网络设备等基础资源进行有效整合,完全模块化的分布式系统,各个模块之间是相互独立的,通过消息总线进行相互连接和通信,这种结构不仅使系统各模块之间的耦合度降低,而且使系统功能容易扩充。并且支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。可以简化现代应用程序的开发、交付和运行过程,在面对多种公有云和私有云选择、符合业界标准的高效开发框架以及应用基础设施服务时,可以显著提高开发者在云环境中部署和运行应用程序的能力。
三、恒华传播大数据平台应用方案
依据云计算、大数据和人工智能等前沿信息技术,恒华传播大数据平台将异构的海量数据(国内外各大主流社交媒体平台数据和传统媒体数据库)运用信息技术手段进行整合和优化,并提供数据可视化和共享等云服务,最终实现海量数据的处理分析,解决对主流媒体内容感知、社会舆情治理、智慧城市、互联网用户行为分析、智能机器新闻写作等应用层面问题,实现多样化的智能云平台服务。
图2传播大数据云平台应用方案图
1.多源异构下的数据整合云
大数据时代,信息技术和数据分析算法已可以支持以普查方式覆盖处理海量的网络数据,不再如传统新闻舆情信息需要抽样以代表母体的处理方式。然而,虽然不再担心抽样偏差,却产生新的忧虑,即是需要考虑数据源本身的偏差。由于整体数据可能含有噪音,如不排除,则容易高估算法的精确度。同时,大部分的数据是孤岛状态,在整合处理时,无法准确地忽略和重合数据,也易导致数据结果偏差。多源异构数据整合层,基于Hadoop+PCF为基础的分布式云架构,提供多种数据类型与协议支持,将多种来源且数据结构大不相同的数据来源进行抽取、转换及装载,实现数据的整合、消重,提供高质量的数据,在此基础上进行关联、建模,为上层业务应用提供可用的数据,并提供可视化数据分析结果。
图3数据源与大数据技术架构
恒华传播大数据平台中融合了多种数据来源,包括:国内外主流社交媒体(微信、微博、Facebook、Twitter、知乎等平台的用户信息及用户产生的内容User-generated-content);境外传统媒体数据库。这些进入到平台中的数据包括三种类型:结构化数据、半结构化数据和非结构化数据,它们经过信息技术处理,融合转化后统一地储存在云平台中。
图4数据源及数据形态
随着互联网的不断发展,各类信息不断膨胀,还有各式各样的数据类型会不断涌现,而恒华传播大数据平台扮演着数据集成者的角色,对于各类数据的处理和管理也将不断地改进优化,因此需要将多源的数据信息整合合并,冗余信息的处理、互补信息的增加等,再对多源异构类数据进行融合处理,设定统一的接口规则、传输准则(XML、WEB等),产生结构化数据供上层数据分析应用使用。恒华传播大数据平台具备以下特征:
1)PB级数据存储管理:为了满足海量数据的存储和分析。
2)多种数据类型与协议支持:社交媒体数据形式多样,包含文档、图片、视频、链接、矢量等,因此需要能够支持结构化、半结构化、非结构化多种数据类型,提供NFS/CIFS/JDBC/ODBC等多种接口,以便业务对多种数据进行访问和操作。
3)高质量的数据整合:数据质量是数据分析挖掘等有效应用的基本条件,面对社交媒体交互复杂而繁多,需要将这些多源异构的数据进行抽取、转换及装载,实现数据的整合、消重,提供高质量的数据,在此基础上进行关联、建模,为实战业务提供可用的数据。
4)高效的数据分析能力:能够处理百亿条记录的检索、上千张表的碰撞、几百个小时的视频分析、大量的移动互联网和社交媒体数据处理等应用。
5)可管理和开放性:可管理、可扩展、开放化、标准化的大数据技术体系架构。
6)安全可靠,自主可控:社交媒体中很多数据都涉及到用户的隐私信息,需具备非常高的可靠性,避免数据泄露。
2.传播大数据分析处理云
根据当前网络舆情和新闻传播研究发展现况,网络舆情监测和分析的工作难度大,面对当今复杂的舆论场景,依靠传统方式无法解答现有的研究问题及现实需求。为此,本项目提出一种互联网思维的新闻传播研究体系,依托于大数据基础支撑平台和数据整合云,运用机器学习相关算法,来解决对主流媒体内容感知、社会舆情治理、互联网用户行为分析、智能机器新闻写作、智能决策等应用层面问题,实现多样化的智能云平台服务。
图5传播大数据分析处理平台流程图
四、结语
恒华传播大数据平台为您提供完善的境内外传播大数据采集与分析方案,真诚期待合作!