GraphX 的特点是离线计算、批量处理,基于同步的 BSP 模型(Bulk Synchronous Parallel Computing Model,整体同步并行计算模型),这样的优势在于可以提升数据处理的吞吐量和规模,但是会造成速度上稍逊一筹。目前大规模图处理框架还有基于 MPI模型的异步图计算模型 GraphLab 和同样基于 BSP 模型的 Graph 等。
相关文章
- 参考 Apache Spark 的源码自定义实现 Logging 日志打印工具
- PySpark安装及WordCount实现(基于Ubuntu)-安装Java: PySpark需要Java运行环境。你可以使用以下命令安装OpenJDK: sudo apt update sudo apt install default-jre default-jdk 安装Scala: PySpark还需要Scala,可以使用以下命令安装: sudo apt install scala 安装Python: 如果你的系统没有Python,可以安装Python 3: sudo apt install python3 安装Apache Spark: 下载并解压Apache Spark。你可以在Apache Spark官网下载最新版本的Spark。 wget https://downloads.apache.org/spark/spark-x.y.z/spark-x.y.z-bin-hadoopx.y.tgz tar -xzvf spark-x.y.z-bin-hadoopx.y.tgz 将 spark-x.y.z-bin-hadoopx.y替换为你下载的实际版本。 设置环境变量: 在 .bashrc或 .zshrc文件中设置Spark和PySpark的环境变量: export SPARK_HOME=/path/to/spark-x.y.z-bin-hadoopx.y export PATH=$PATH:$SPARK_HOME/bin export PYSPARK_PYTHON=python3 记得使用实际的Spark路径。 安装PySpark: 使用pip安装PySpark: pip install pyspark 实现WordCount:
- Apache Spark 2.2中基于成本的优化器(CBO)(转载)
- Apache Spark 的基本概念和在大数据分析中的应用
- Spark入门(1-2)Spark的特点、生态系统和技术架构
- Apache Spark Streaming的简介
- 探索图数据处理的魅力:使用Spark GraphX解析图数据和应用图算法
- 带有Apache Spark的Lambda架构
- Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark实战高手之路】
- 分享一个.NET平台开源免费跨平台的大数据分析框架.NET for Apache Spark