成果基本情况
成果名称 社交网络大数据挖掘与分析技术研究
关键词 社交网络;频繁子图挖掘;三角形聚类;语义实例匹配
第一完成单位 南开大学
成果参与单位 天津南大通用数据技术股份有限公司
成果应用行业 信息传输、计算机服务和软件业|
所属高新技术领域 电子信息技术|
所属战略性新兴产业 新一代信息技术|
成果属性 原始创新|
成果成熟度 实验室阶段
访问量 13559
联系人名称 张海威
成果简介 项目研究社交网络大规模图数据挖掘相关领域的关键技术,包括大规模图数据的频繁子图挖掘技术、面向社交网络大数据的社区发现技术以及面向社交网络语义挖掘的实例匹配技术。在频繁子图挖掘方面,本项目取得的技术突破是提出了满足向下闭合性质的k-node频繁子图挖掘算法kFSM,该算法首先挖掘出一棵极大频繁树,之后在其上挖掘频繁子树并尝试添加频繁边,最终得到频繁子图。算法以可压缩的树形结构来记录子图实例,将复杂的子图同构测试转化为一步邻居计数操作,避免了大量的递归枚举过程,极大缩短挖掘时间。在社区发现算法方法,项目研究并实现了一种基于三角形的加权聚类算法,并提出其分布式扩展及优化方法。首先介绍根据三角形的特性定义了社区发现度量标准,然后将算法分为数据预处理、初始化划分、划分优化三部分,并对这三部分算法进行了优化,实现了社区发现。同时,采用hadoop处理框架,提出对算法的分布式扩展和优化。在语义实例匹配方面,项目提出了一种基于局部敏感哈希的实例匹配方案。首先分析社交网络语义数据模型的结构及特征,采用谓语覆盖率和谓语辨别率作为重要谓语的选择标准;在候选集提取模块,将实例数据转化为空间向量,提出了空间向量转化为最小哈希签名矩阵的算法,同时针对大规模数据集给出了一种基于Map-Reduce的面向Jaccard距离的分布式局部敏感哈希实现技术。
地址:天津市和平区成都道116号     邮编:300051    电子邮箱:program@tj.gov.cn
天津市科学技术局    版权所有