Pythonでは、PySparkはsparkのような同様の種類の処理を提供するために使用されるSparkモジュールです。 RDDは、ResilientDistributedDatasetsの略です。 RDDはApacheSparkの基本的なデータ構造と呼ぶことができます。 構文: 1 spark_app.sparkContext.parallelize((データ)。 データを表形式で表示できます。 使用されるデータ構造はDataFrameです。表形式は、データを行と列に格納することを意味します。 構文: PySparkでは、createDataFrame()メソッドを使用してsparkアプリからDataFrameを作成できます。 構文: 1 Spark_app.createDataFrame((input_data、columns)。 input_dataがこのデータからデータフレームを作成するためのディクショナリまたはリストである可能性があり、input_dataがディクショナリのリストである場合、列は必要ありません。 ネストされたリストの場合は、列名を指定する必要があります。 それでは、PySparkRDDまたはDataFrameで特定のデータを確認する方法について説明しましょう。 PySpark RDDの作成: この例では、studentsという名前のRDDを作成し、collect()アクションを使用して表示します。 #pysparkモジュールをインポートする pysparkをインポートする セッションを作成するための#importSparkSession pyspark.sqlからインポートSparkSession #pyspark.rddからRDDをインポートします pyspark.rddからインポートRDD […]
The post 指定されたデータがPySparkRDDまたはDataFrameであることを確認してください appeared first on Gamingsym Japan.