首页 > 技术研究
多模态数据融合技术
多模态数据融合技术

互联网大数据的多样性、异构性导致数据中实体众多、各网站的分类体系众多,如何识别实体、如何将分类体系进行映射和融合,是互联网大数据研究的基础性工作。中心着重研究的数据融合关键技术包括:

>实体识别(Entity resolution)包括用户识别、网站识别等各类互联网对象识别。比如不同URL可能指称同一个网站,再比如同一个用户可能使用不同的IP、账号。实体识别技术的研究目标一是降低两两匹配的计算复杂性,二是进一步提高实体匹配的准确性。

>分类体系融合(Taxonomy fusion)拟提出一种新颖的树结构及其相应的树操作,来刻画分类体系及其融合方法。该数据结构的基本思想是基于关系的频繁性计算该关系存在概率,利用树的形态调整操作实现分类体系融合。

互联网账号关联技术
互联网账号关联技术


中心将以互联网数据为基础,结合互联网如微博、淘宝、QQ等公开帐号信息,采用频繁模式发现、聚类分析、基于行为建模的跨站用户识别等技术,开展互联网帐号关联挖掘与分析研究。在大数据交易产业链当中,通过电信账号关联数据,可以将一些看似无关的数据拥有者的数据有效关联起来,从而促成交易、发挥大数据的价值。

时空数据可视化技术
时空数据可视化技术

时空数据是指带有地理位置与时间标签的数据。传感器与移动终端的迅速普及,使得时空数据成为大数据时代典型的数据类型。时空数据可视化与地理制图学相结合,重点对时间与空间维度以及与之相关的信息对象属性建立可视化表征,对与时间和空间密切相关的模式及规律进行展示。大数据环境下时空数据的高维性、实时性等特点,也是时空数据可视化的重点。基于互联网大数据资源,并与运营商基站数据相结合,相关的科研领域主要可分为:用户轨迹数据可视化技术研究和基站数据可视化等。

大数据可视化分析技术
大数据可视化分析技术


在构建互联网大数据中数据规模的增加,海量节点和边的数目也不断增多,例如规模达到百万以上时,可视化界面中会出现节点和边大量聚集、重叠和覆盖问题,使得分析者难以辨识可视化效果。因此图简化的可视化方法是拟解决的关键问题。

分布式消息中间件
分布式消息中间件

分布式消息中间件是保障大数据处理平台高效处理和平稳运行的关键技术之一。分布式消息中间件以异步传递消息的方式,在大数据平台的各层级应用之间起到了系统解耦、性能提升和风险降低的作用,使系统或模块更具独立性,内部处理效率提高,模块间的依赖性变低,单个模块出现故障时不影响其他模块,降低系统性风险。消息堆积能力,有效降低高峰期对应用的压力,避免系统崩溃。