A. 大数据 B. 硬件错误是常态 C. 流式数据访问 D. 简单一致性
A. 命名空间镜像 B. 修改日志 C. 数据块block D. 分片文件
A. cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间 B. cache只有一个默认的缓存级别MEMORY_ONLY C. persist可调用cache,而cache可以根据情况设置缓存级别 D. executor执行的时候,默认60%做cache,40%做task操作,persist最根本的函数,最底层的函数
A. hadoopfs-copyFromLocal~/a.data/test-data/ B. hadoopfs-put~/a.data/test-data/ C. hdfsfs-copyFromLocal~/a.data/test-data/ D. hdfsdfs-copyFromLocal~/a.data/test-data/
A. 能够对海量数据进行批处理 B. 能够对海量数据进行流式计算 C. 能够对海量数据进行交互式查询 D. 能够对海量数据进行存储
A. RDD是可读、写的 B. RDD是基于内存的高度首先的数据共享模型 C. RDD是基于磁盘的高度首先的数据共享模型 D. RDD之间的依赖关系分为宽依赖与窄依赖
A. MapReduce B. Coprocessor C. BloomFilter D. Filter
A. socketSteam B. kafkaSteam C. flumeSteam D. twitterSteam
A. ds上的操作都作用于其中的每个RDD上 B. ds.count结果返回一个RDD C. ds.reduceByKey结果返回一个DStream类型实例 D. ds中的每个RDD是一个批处理时间间隔内SparkStreaming获取的实时数据.
A. GraphX是一种基于内存的分布式的图计算框架与图计算库 B. GraphX中引入了弹性分布式属性图 C. GraphX实现了表视图与图视图的统一 D. GraphXᨀ供了丰富的PregelAPI用以实现经典的图计算算法