- 首页 > 编程 > 数据库 > 列表
- 一、前奏Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术。包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。有些朋友可能听说过Hadoop,但是却不太清楚他到底 2019-11-06
- 大数据和人工智能够帮助企业以新的方式改善客户体验。人工智能和大数据之间的关系是双向的。可以肯定的是:人工智能的成功很大程度上取决于高质量的数据,同时,管理大数据并从中获取价值越来越多地依靠(诸如机器学 2019-11-06
- 最近一两年,在和朋友聊起大数据时,许多人都对一点深有体会:哪怕作为一个不算严谨的流行词汇,大数据的概念已飘至街头巷尾,但它对传统产业的改变,依旧被局外人低估,因为当这些 旧产业 拿起 新 2019-11-06
- 概念箱线图通过数据的四分位数来展示数据的分布情况。例如:数据的中心位置,数据间的离散程度,是否有异常值等。把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)分别为数据的 2019-11-06
- 那咱们还是回到老话题上来,hadoop的组件讲解,总不能天天即兴发挥,今天讲分布式文件系统HDFS。从RAID说起大数据技术主要要解决的问题的是大规模数据的计算处理问题,那么首先要解决的就是大规模数据的存储问题。大 2019-11-06
- 前言Data.table 是 R 中一个非常通用和高性能的包,使用简单、方便而且速度快,在 R 语言社区非常受欢迎,每个月的下载量超过 40 万,有近 650 个 CRAN 和 Bioconductor 软件包使用它。如果你是 R 的使用者,可能已经 2019-11-06
- 0 前言这篇文章不会讲解索引的基础知识,主要是关于MySQL数据库的B+树索引的相关原理,里面的一些知识都参考了MySQL技术内幕这本书,也算对于这些知识的总结。对于B树和B+树相关的知识,可以参考我的这篇博客:面试 2019-10-11
- 前言原来总听别人说 Redis 读写性能优越适合做缓存,而 MySQL 则不行,那么你有真正了解过他们的读写差距吗?小匠同样也有这个疑问,到底他们的性能差多少?于是就有了这篇文章。测试环境配置Ubuntu Intel(R) Core( 2019-10-11
- PostgreSQL 12 已经发布,该版本在各方面都得到了加强,包括显著地提升查询性能,特别是对大数据集,总的空间利用率方面。这个版本为应用程序开发人员提供了更多的功能,比如对 SQL/JSON 路径表达式的支持,优化公共 2019-10-11
- 在对NameNode节点进行格式化时,调用了FSImage的saveFSImage()方法和FSEditLog.createEditLogFile()存储当前的元数据。Namenode主要维护两个文件,一个是fsimage,一个是editlog。fsimage :保存了最新的元数据检查点 2019-09-24
- 如今,很多供应商通过提供自动化数据准备和算法选择的层次,可以使数据智能业务用户采用人工智能技术,从而消除了机器学习的神秘感。 机器学习 这个术语赋予了神奇的光环。普通人通常不会采用机器学习, 2019-09-24
- MapReduce执行流程图概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节 2019-09-24
- 本文将简单总结下一些处理海量数据问题的常见方法。当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定 2019-08-20
- 数字技术是行业、机构发展的战略制高点。达沃斯发布报告显示,全球企业在数字化转型中投入超万亿美元,仅1%达到或超过预期。医疗行业的数字化程度更是远远落后于其他行业,埃森哲(Accenture)认为其尚不足交通等行业的 2019-08-20
- 如今,数据仍在以爆发的态势不断增长,并且充当着企业数字化转型的核心驱动力,成为商业模式创新的重要基础。然而,据统计,目前只有20%的数据得到了挖掘和利用,还有剩余80%的绝大多数数据由于不能被访问、不能被信 2019-08-20
- 在2017年,韩国推出了一部票房极高的电影《被操纵的城市》,这部犯罪片描写的就是反派人物如何通过操纵整个城市的大数据,来对普通人进行栽赃陷害。这部电影在当时的全球市场票房都表现优异。但提起韩国的大数据,人 2019-08-20
- 前言如今,许多用于分析大型数据集的开源系统都是用 Java 或者是基于 JVM 的编程语言实现的。最着名的例子是 Apache Hadoop,还有较新的框架,如 Apache Spark、Apache Drill、Apache Flink。基于 JVM 的数据分析引擎 2019-08-20
- 1. 前言在大数据时代,Hadoop 有着得天独厚的优势。然而,每个企业的技术储备和需求特点不同,他们希望从海量的客户数据中挖掘真正的商业价值,像 Google 、Facebook 、Twitter 等这样的企业更是 Hadoop 的最早获益者 2019-08-01
- 引言:Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件。本文主要分析了 Spark 2019-08-01
- Python是一门非常适合处理数据和自动化完成重复性工作的编程语言,我们在用数据训练机器学习模型之前,通常都需要对数据进行预处理,而Python就非常适合完成这项工作,比如需要重新调整几十万张图像的尺寸,用Python 2019-08-01