Як розбити Spark DataFrame на Python?

Розбиття пам’яті: ви можете розділити або повторно розділити DataFrame шляхом виклику перетворень repartition() або coalesce().. Розбиття на диск: під час запису PySpark DataFrame назад на диск ви можете вибрати спосіб розділення даних на основі стовпців за допомогою partitionBy() pyspark. 7 травня 2024 р.

Використання методу partitionBy(). Метод partitionBy() у PySpark використовується для поділу DataFrame на менші, більш керовані розділи на основі значень в одному або кількох стовпцях. Метод приймає одне або кілька імен стовпців як аргументи та повертає новий DataFrame, розділений на основі значень у цих стовпцях.

Можна розділити значення стовпців фрейму даних Pandas за допомогою методу split().. Метод split() розбиває рядок на список рядків на основі вказаного роздільника. Роздільником може бути один символ, рядок або регулярний вираз.

Розділіть фрейм даних Spark за допомогою методу randomSplit(). Цей метод розбиває фрейм даних на випадкові дані з фрейму даних і має ваги та початкові значення як аргументи. Приклад: у цьому прикладі ми розділили фрейм даних на два фрейми даних. Фрейми даних розділені на основі параметра ваги функції randomSplit().

ДОДАТИ РОЗДІЛ

  1. ідентифікатор_таблиці. Визначає ім’я таблиці, яке за бажанням може бути доповнене ім’ям бази даних. Синтаксис: [ назва_бази даних. ] назва_таблиці.
  2. partition_spec. Розділ, який потрібно додати. Синтаксис: PARTITION ( назва стовпця_розділу = значення стовпця_розділу [ , … ] )

Метод div() ділить кожне значення в DataFrame на вказане значення. Зазначене значення має бути об’єктом, який можна розділити зі значеннями DataFrame.

Оцініть статтю