Programlama bigdata

1

Pyspark df'den PostgresSQL'e 50 milyondan fazla yazı yazmak, en verimli yaklaşım

Milyonlarca kayıt eklemenin en etkili yolu, Spark veri çerçevesinden Postgres Tablolarına 50 milyon demek. Ben geçmişte de MSSQL kıvılcımdan çok başarılı olan toplu kopya ve toplu boyut seçeneğini kullanarak yaptım . Postgres için burada bulunabilecek benzer bir şey var mı? Ben denedim kodu ve süreci çalıştırmak için gereken zaman ekleme: …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

4

Lucky 26 oyunu çözmek için R kullanma

Oğluma kodlamanın bir oyunun neden olduğu bir sorunu çözmek için nasıl kullanılabileceğini ve R'nin büyük verileri nasıl ele aldığını görmeye çalışıyorum. Söz konusu oyuna "Şanslı 26" denir. Bu oyunda numaralar (yinelenmeyen 1-12) bir Davut yıldızı (12 tepe, 6 kavşak) üzerinde 12 noktaya yerleştirilir ve 4 sayının 6 çizgisinin tümü 26'ya …

15 r bigdata permutation

1

Apache Spark: yeniden bölümlendirme, sıralama ve önbelleğe almanın birleştirme üzerindeki etkisi

Kendine bir masaya katılırken Spark'ın davranışını araştırıyorum. Veritabanları kullanıyorum. Kukla senaryom: Harici bir tabloyu veri çerçevesi A olarak okuyun (temel alınan dosyalar delta biçimindedir) Veri çerçevesi B'yi yalnızca belirli sütunlar seçili olarak veri çerçevesi A olarak tanımlayın Sütun1 ve sütun2'deki A ve B veri çerçevelerine katılın (Evet, pek mantıklı değil, …

10 apache-spark pyspark bigdata azure-databricks delta-lake

«bigdata» etiketlenmiş sorular