您当前的位置:首页 > 解决方案 > 大数据方案

晶奇 Hadoop 软件包产品 (version 2008116)说明

时间:2016-10-06 16:16:25    作者: jqsoft   浏览:

(初始发布时间2008年12月,更新时间2016年10月)

晶奇Hadoop软件包(简称JQH)是国际一流水平的一站式大数据平台,大数据分析准确率,计算时间,安全性均经过Apache评估和测试。拥有美国专利保护的面向图分析,流数据,实时数据等九项大数据分析技术。其主要大数据分析算法2014年被美国工程院列为全球排名前20的前瞻性算法[1]。 对于硬盘数据是一般Hadoop平台性能的10倍,对于内存数据是一般Hadoop平台性能的100倍。其主要核心技术,在数据安全技术,网络安全技术,应用安全技术的基础上,实现内存硬盘计算、高效检索、高效实时查询,高效知识发现。

成功案例包括2008年澳大利亚最大石油勘探开发公司BHP Billionton,2013年澳大利亚昆士兰州最大公立医院皇家布里斯本医院手术室实时分析系统, 2016年中国宁波第一人民医院。2008年至今,在中国大陆落地的大中小案例在50个以上。

产品的性能特点主要包括以下几个方面:
(1) 软件安全性
从物理层和恶意用户意图层两个层面对客户数据应用网络进行加密。充分实现数据安全,应用安全,网络安全。

(2) 算法时效性
能够保证最快延迟0.02秒内完成同步,同时同步后的数据能够立即进行实时分析,实时分析速度在硬件性能合理的情况下最快0.03秒内完成计算。

(3) 与数据采集硬件兼容性
-支持通用无线传感网络通信协议接口如COM3, ZigBee等,实现实时采集,实时计算。
-支持通用视频,音频接口如RLS等。实现实时采集,实时计算。
-支持通用爬虫软件。实现对网络日志的实时采集,实时计算。

(4) 扩展性
支持通过虚拟化、云或集群等方式扩展处理能力;
支持灵活的访问控制和权限管理,如对数据库、表、行、列等的管理权限。
支持多租户管理,支持资源弹性共享和隔离性。

(5) 提升算法可视化
- 支持地理信息系统。
- 支持GPS相关可视化。
- 支持海量优化可视化。

(6) 支持语言及API开发包括
基于平台进行应用开发所采用的开发语言为主流开发语言。支持WebService、JDBC、REST等常用的接口。支持SQL2003及以上, Python, Matlab, C,C++, C sharp, Virtual C, 兼容Oracle, 支持 Oracle PL/SQL存储过程, 兼容DB2, 支持 DB2 SQLPL, Delphi, Java, Spark, R 语言, SPSS, Hanan HP, PHP。

(7) 支持操作包括
任何Join, Insert, Update, delete, merge into,分布式事务, OLAP。

(8) 优化指标
支持基于资源优化,支持基于算法优化,支持基于规则优化,支持基于成本优化。

(9) 软件现实性
实现SQL与Oracle之间互访,实现SQL与DB2之间互访,SQL与MySQL之间互访。

(10) 硬件优化
实现内存或SSD硬件加速。
实现利用内容或SSD的物理特性,进行存储层结构设计优化。

(11) 可视化实现
实现OLAP Cube模型,支持建立物化Cube,根据事先定义的字段秒级聚合分析。
实现按任意字段秒级别灵活聚合分析,不需要预先创建物化Cube。

(12) 常规API实现
支持API提供第三方使用。

(13) 支持数据字典

(14) 查询
实现关键词搜索。
实现自然语言查询。
实现垂直语义查询。
对PB级海量数据,利用Skyline技术实现精准查询,最快在0.02秒以内实现。
实现对任意字段组合查询综合搜索

(15) 扩展性
从KB级到PB级数据均有很好的扩展性。对PB以上级数据,算法复杂性保持在线性递增。支持增量算法,梗概算法,在保持一定准确性的基础上,可将算法复杂性降为线性以下。即支持从小到大,也支持从大到小。支持对大量小文件的自动合并,支持对小文件的高效计算。

(16) 数据挖掘组件算法支持
包括九项美国专利支持的算法:-支持向量递归算法,模糊关联分析算法,面向流数据的动态博弈论算法,支持图分析的深度学习算法,支持面向大型网络图的PCA算法,支持网络日志数据的推荐算法,支持金融大数据的异常检测算法,支持销售数据分析的数学规划算法,支持普通宏微观经济的矩阵算法,一般均衡算法,会计核算算法,支持通用统计算法。
通用分类聚类算法包括
- 支持向量机
- 分布式apiori/fp-growth算法
- 分布式k-means/层次聚类算法
- 分布式svm算法
- 分布式神经网络算法
- 回归算法
- 分布式随机森林算法
- 分布式协同过滤算法
- 时间序列算法
- 分布式决策树
- 分布式朴素贝叶斯算法
- 分布式梯度提升树

软件的功能特点主要包括以下几个方面:
(1)开放性 
平台开放性。
对接接口开放性。

(2)兼容性
兼容主流的Linux操作系统。
兼容通用服务器。

(3)性能
统计分析。平均每个CPU core至少每秒1000万记录的扫描速度,至少每秒100万记录的聚合速度。
高并发查询能力。按关键字检索单表记录延时小于200ms,单个节点并发度超过1000;按关键字检索多表关联记录延时小于1s, 单个节点并发度超过1000;多表关联检索并汇总统计延时小于1s, 单个节点并发度超过100。
流处理能力。万兆网络下,单节点不低于200MB/s的处理吞吐能力,简单业务处理延时毫秒级。

(4)高可用性
平台可靠性。
故障处理。
异地备份。支持分布式数据库表异地远程复制,支持双向复制,实现异地灾备。

(5)安全性管理
完整多租户策略支持。
Hive权限控制。
HBase权限控制。支持完整的数据权限管控,支持单元格级别的访问权限控制。
数据挖掘权限控制
流权限控制

(6)运维管理易用性
运维监控。
自定义告警。

(7)平台在线扩容开发易用性
大数据平台软件支持便捷的图形化开发调试辅助工具。
方便的进行数据探索与数据挖掘建模。
支持分布式数据仓库,NoSQL数据库,综合搜索,数据分析和挖掘以及流处理能力。 

1. Jing He, Xiaohui Liu, Guangyan Huang, Michael Blumenstein, Clement Leung, Current and Future Use of Big Data In Commonwealth Countries, Vol. 44, Number 4, Winter 2014, Pages: 38-45, The Bridge- National Academy of Engineering of the National Academies, U. S. A. 


上一篇:Welcome to JingQi Hadoop®!

下一篇:返回列表