大数据处理与分析挖掘平台
一、概述
随着大数据技术的发展,用户标签化管理、大数据用户画像描述、个性化精准信息推送、交互式客户关系管理、智能决策和商业分析等应用场景已经成为现实。大数据技术的发展为各行各业带来机遇,也带来挑战。传统的数据库系统无法满足多源易构数据存储的需要,同时缺乏一个完整的大数据平台支撑数据和分析工作。
大数据处理与分析挖掘平台是以Hadoop、Spark、NoSQL等产品基础,结合大数据产业环境、岗位模型、企业人才的需求,以Docker容器技术虚拟化技术作为底层基础环境的一个开放、稳定和高度可扩展的框架,通过可视化平台实现大数据平台的管理和各大数据组件的监控,并提供丰富的实验镜像支持,为实现在线实验、模型训练、等教学、科研实践应用,提供优质的课扩展性、可靠性、可维护性、高性能的平台支撑。
二、功能介绍
大数据资源的管理 整合了各类存储系统的优势,构建成适合教学和科研使用的教育数据湖系统,支持快速定制底层环境封装,并便于与上层教学环境轻松调用,可二次编辑。
大数据平台的监控 系统操作简单,部署方便,界面友好,仅仅需要点击鼠标就能实现大数据的复杂配置,具备可视化仪表盘,灵活监控各个组件的状态情况。
大数据采集与存储 通过图形化界面实现多源异构数据采集和存储,根据数据特征的差异,自动选取不同的存储介质对数据进行存储,适应教育用户的教学和科研需求。
大数据处理与挖掘 支持图形化界面拖拽的方式实现数据预处理的操作。支持分布式任务处理,提供完整数据挖掘算法库,并提供了挖掘任务的查看、管理功能。
大数据分析与展现 系统支持对结构化、半结构、非结构化数据的可视化查询,用户可以自定义查询逻辑规则,系统在后台自动提交查询任务。
大数据教学与实验 实现为学生提供了线上线下混合教学环境, 学生可以在该平台上完成课程学习、强化演练、实现操作、应用实战等多个环境的教学任务。