NumPy dizisine fazladan sütun ekleme


292

Diyelim ki bir NumPy dizim var a:

a = np.array([
    [1, 2, 3],
    [2, 3, 4]
    ])

Ve ben bir dizi almak için sıfırlar sütun eklemek istiyorum b:

b = np.array([
    [1, 2, 3, 0],
    [2, 3, 4, 0]
    ])

NumPy'de bunu nasıl kolayca yapabilirim?

Yanıtlar:


181

Bence daha basit bir çözüm ve daha hızlı önyükleme yapmak aşağıdakileri yapmaktır:

import numpy as np
N = 10
a = np.random.rand(N,N)
b = np.zeros((N,N+1))
b[:,:-1] = a

Ve zamanlamalar:

In [23]: N = 10

In [24]: a = np.random.rand(N,N)

In [25]: %timeit b = np.hstack((a,np.zeros((a.shape[0],1))))
10000 loops, best of 3: 19.6 us per loop

In [27]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 5.62 us per loop

16
(985,1) np araay'ı (985,2) np dizisine (985,3) np dizisi yapmak için eklemek istiyorum, ama çalışmıyor. "Giriş dizisi şekil (985) şekil (985,1) içine yayınlayamadı" hatası alıyorum. Kodumda yanlış olan ne? Kod: np.hstack (veri, Verileri1)
Aykırı

5
@ Daha önce bu sorunun yorumlarında sormak yerine yeni bir soru göndermelisiniz.
JoshAdel

4
@JoshAdel: Kodunuzu ipython üzerinde denedim ve bence bir sözdizimi hatası var. Sen değiştirmeyi deneyin isteyebilirsiniz a = np.random.rand((N,N))içina = np.random.rand(N,N)
hlin117

Sanırım OP istedi ne için bir overkill olduğunu. Op'un cevabı uygun!
lft93ryt

Bu sadece ekleme, ekleme veya istifleme konusunda bir hiledir. ve cevap olarak kabul edilmemelidir. Mühendisler aşağıdaki cevapları kullanmayı düşünmelidir.
cinqS

326

np.r_[ ... ]ve np.c_[ ... ] kullanışlı alternatif olan vstackve hstackköşeli parantezler [] yerine yuvarlak () ile,.
Birkaç örnek:

: import numpy as np
: N = 3
: A = np.eye(N)

: np.c_[ A, np.ones(N) ]              # add a column
array([[ 1.,  0.,  0.,  1.],
       [ 0.,  1.,  0.,  1.],
       [ 0.,  0.,  1.,  1.]])

: np.c_[ np.ones(N), A, np.ones(N) ]  # or two
array([[ 1.,  1.,  0.,  0.,  1.],
       [ 1.,  0.,  1.,  0.,  1.],
       [ 1.,  0.,  0.,  1.,  1.]])

: np.r_[ A, [A[1]] ]              # add a row
array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  1.,  0.]])
: # not np.r_[ A, A[1] ]

: np.r_[ A[0], 1, 2, 3, A[1] ]    # mix vecs and scalars
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], [1, 2, 3], A[1] ]  # lists
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], (1, 2, 3), A[1] ]  # tuples
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], 1:4, A[1] ]        # same, 1:4 == arange(1,4) == 1,2,3
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

(Yuvarlak () yerine köşeli parantezlerin [] nedeni Python'un örneğin kare içinde 1: 4 genişlemesi - aşırı yükleme harikasıdır.)


7
sadece bu konuda bilgi arıyordu ve kesinlikle bu kabul edilenden daha iyi bir cevaptır, çünkü başlangıçta ve sonunda ekstra bir sütun eklemeyi kapsar, sadece diğer cevaplar gibi değil
Ay0

2
@ Ay0 Tam olarak, yapay nöronal ağıma tüm katmanlarda bir kerede toplu olarak bir önyargı birimi eklemenin bir yolunu arıyordum ve bu mükemmel cevap.
15'te gaborous

Ya bir seferde n sütun eklemek isterseniz ?
Riley

1
@Riley, lütfen bir örnek verebilir misiniz? Python 3'te "tekrarlanabilir ambalajın açılması", örn np.c_[ * iterable ]. ifade listelerine bakınız .
denis

@denis, tam da aradığım şey buydu!
Riley

148

Kullanım numpy.append:

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])

>>> z = np.zeros((2,1), dtype=int64)
>>> z
array([[0],
       [0]])

>>> np.append(a, z, axis=1)
array([[1, 2, 3, 0],
       [2, 3, 4, 0]])

3
Daha karmaşık sütunlar eklerken bu güzel.
Thomas Ahle

6
Bu, @JoshAdel tarafından verilen cevaptan daha basittir, ancak büyük veri kümeleriyle uğraşırken daha yavaştır. Okunabilirliğin önemine bağlı olarak ikisi arasında seçim yapardım.
dvj

3
appendaslında sadece çağırırconcatenate
rll

53

Hstack kullanmanın bir yolu :

b = np.hstack((a, np.zeros((a.shape[0], 1), dtype=a.dtype)))

2
Bence bu en zarif çözüm.
silvado

2
+1 - işte böyle yaparım - cevap olarak göndermem için beni dövüyorsun :).
Blair

3
dtypeParametreyi kaldırın, gerekli değildir ve hatta izin verilmez. Çözümünüz yeterince zarif olsa da, bir diziye sık sık "eklemeniz" gerekiyorsa bunu kullanmamaya dikkat edin. Tüm diziyi aynı anda oluşturamaz ve daha sonra dolduramazsanız, dizilerin bir listesini ve hstackhepsini bir kerede oluşturun.
eumiro

1
@ eumiro Nasıl yanlış yerde dtype almak başardı emin değilim, ama np.zeros her şeyin yüzer hale gelmesini önlemek için bir dtype ihtiyacı (a int int iken)
Peter Smit

42

Aşağıdaki en zarif buluyorum:

b = np.insert(a, 3, values=0, axis=1) # Insert values before column 3

Avantajı insert, dizinin diğer yerlerine sütun (veya satır) eklemenize izin vermesidir. Ayrıca, tek bir değer eklemek yerine kolayca bir vektörün tamamını ekleyebilirsiniz, örneğin son sütunu çoğaltın:

b = np.insert(a, insert_index, values=a[:,2], axis=1)

Hangi yol açar:

array([[1, 2, 3, 3],
       [2, 3, 4, 4]])

Zamanlama insertiçin JoshAdel'in çözümünden daha yavaş olabilir:

In [1]: N = 10

In [2]: a = np.random.rand(N,N)

In [3]: %timeit b = np.hstack((a, np.zeros((a.shape[0], 1))))
100000 loops, best of 3: 7.5 µs per loop

In [4]: %timeit b = np.zeros((a.shape[0], a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 2.17 µs per loop

In [5]: %timeit b = np.insert(a, 3, values=0, axis=1)
100000 loops, best of 3: 10.2 µs per loop

1
Bu oldukça düzenli. insert(a, -1, ...)Sütunu eklemek için yapamam çok kötü . Sanırım onun yerine başlayacağım.
Thomas Ahle

2
@ThomasAhle düğmesini kullanarak bu eksendeki boyutu alarak bir satır veya sütun ekleyebilirsiniz a.shape[axis]. I. e. bir satır eklemek için yaparsınız np.insert(a, a.shape[0], 999, axis=0)ve bir sütun için yaparsınız np.insert(a, a.shape[1], 999, axis=1).
blubberdiblub

35

Ben de bu soruya ilgi duydum ve

numpy.c_[a, a]
numpy.stack([a, a]).T
numpy.vstack([a, a]).T
numpy.ascontiguousarray(numpy.stack([a, a]).T)               
numpy.ascontiguousarray(numpy.vstack([a, a]).T)
numpy.column_stack([a, a])
numpy.concatenate([a[:,None], a[:,None]], axis=1)
numpy.concatenate([a[None], a[None]], axis=0).T

ki bunların hepsi herhangi bir girdi vektörü için aynı şeyi yapar a. Büyüme zamanlamaları a:

resim açıklamasını buraya girin

Tüm bitişik olmayan varyantların (özellikle stack/ vstack) sonunda tüm bitişik varyantlardan daha hızlı olduğuna dikkat edin. column_stack(netliği ve hızı için) bitişikliğe ihtiyacınız varsa iyi bir seçenek gibi görünüyor.


Grafiği yeniden oluşturmak için kod:

import numpy
import perfplot

perfplot.save(
    "out.png",
    setup=lambda n: numpy.random.rand(n),
    kernels=[
        lambda a: numpy.c_[a, a],
        lambda a: numpy.ascontiguousarray(numpy.stack([a, a]).T),
        lambda a: numpy.ascontiguousarray(numpy.vstack([a, a]).T),
        lambda a: numpy.column_stack([a, a]),
        lambda a: numpy.concatenate([a[:, None], a[:, None]], axis=1),
        lambda a: numpy.ascontiguousarray(
            numpy.concatenate([a[None], a[None]], axis=0).T
        ),
        lambda a: numpy.stack([a, a]).T,
        lambda a: numpy.vstack([a, a]).T,
        lambda a: numpy.concatenate([a[None], a[None]], axis=0).T,
    ],
    labels=[
        "c_",
        "ascont(stack)",
        "ascont(vstack)",
        "column_stack",
        "concat",
        "ascont(concat)",
        "stack (non-cont)",
        "vstack (non-cont)",
        "concat (non-cont)",
    ],
    n_range=[2 ** k for k in range(20)],
    xlabel="len(a)",
    logx=True,
    logy=True,
)

1
Güzel grafik! Sadece başlık altında, bilmek istersin diye düşündüm stack, hstack, vstack, column_stack, dstacküstüne inşa tüm yardımcı işlevler şunlardır np.concatenate. İle takip ederek , yığının tanımı O bulunan np.stack([a,a])aradığını np.concatenate([a[None], a[None]], axis=0). Her zaman en azından yardımcı işlevleri kadar hızlı olabileceğini np.concatenate([a[None], a[None]], axis=0).Tgöstermek için perflota eklemek güzel olabilir np.concatenate.
unutbu

@unutbu Bunu ekledi.
Nico Schlömer

Güzel kütüphane, hiç duymadım! Yığın ve concat yer değiştirdi (hem ascont hem de cont olmayan varyantlarda) dışında aynı arazileri aldım. Ayrıca concat-column ve column_stack da değiştirildi.
Antony Hatchkins

1
Vay be, bu parselleri seviyorum!
jhegedus

Bir diziye bir sütun ekleme özyinelemeli bir işlem için, örneğin b = [b, a], komutun bir kısmı çalışmaz (eşit olmayan boyutlarla ilgili bir hata ortaya çıkar). Eşit olmayan boyuttaki dizilerle çalışıyor gibi görünen tek ikisi (yani, bir matris ve diğeri 1d vektör olduğunda) c_vecolumn_stack
Mart'ta Confounded


12

np.concatenate ayrıca çalışır

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])
>>> z = np.zeros((2,1))
>>> z
array([[ 0.],
       [ 0.]])
>>> np.concatenate((a, z), axis=1)
array([[ 1.,  2.,  3.,  0.],
       [ 2.,  3.,  4.,  0.]])

np.concatenatenp.hstack2x1, 2x2 ve 2x3 matrislerden 3 kat daha hızlı görünüyor . np.concatenatedeneylerimde matrisleri manuel olarak boş bir matrise kopyalamaktan çok daha hızlıydı. Bu, Nico Schlömer'in aşağıdaki cevabı ile tutarlı.
Lenar Hoyt

11

Varsayarak Mbir (100,3) ndarray ve yndarray (100) a, appendaşağıdaki gibi kullanılabilir:

M=numpy.append(M,y[:,None],1)

Hile kullanmak

y[:, None]

Bu, y(100, 1) 2D diziye dönüştürülür.

M.shape

şimdi verir

(100, 4)

Bunu bildiğin bir kahramansın ?! Son 1 saat saçımı çektiğim tam da bu! Ty!
John Doe

8

Performansa odaklandığından JoshAdel'in cevabını seviyorum. Küçük bir performans iyileştirmesi, yalnızca üzerine yazılmak üzere sıfırlarla başlatma ek yükünü önlemektir. N büyük olduğunda, sıfırlar yerine boş kullanıldığında ve sıfırlar sütunu ayrı bir adım olarak yazıldığında, bu ölçülebilir bir farka sahiptir:

In [1]: import numpy as np

In [2]: N = 10000

In [3]: a = np.ones((N,N))

In [4]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
1 loops, best of 3: 492 ms per loop

In [5]: %timeit b = np.empty((a.shape[0],a.shape[1]+1)); b[:,:-1] = a; b[:,-1] = np.zeros((a.shape[0],))
1 loops, best of 3: 407 ms per loop

Sen daha okunabilir olabilir sıfırlarla son sütunu (veya herhangi başka bir değer), doldurmak için yayın kullanabilirsiniz: b[:,-1] = 0. Ayrıca, çok büyük dizilerle, performans farkı np.insert()ihmal edilebilir hale gelir, bu da np.insert()özlü olması nedeniyle daha arzu edilebilir hale gelebilir .
blubberdiblub

7

np.insert ayrıca amaca hizmet eder.

matA = np.array([[1,2,3], 
                 [2,3,4]])
idx = 3
new_col = np.array([0, 0])
np.insert(matA, idx, new_col, axis=1)

array([[1, 2, 3, 0],
       [2, 3, 4, 0]])

Buraya new_col, belirli bir dizinden önce, buraya idxbir eksen boyunca değerler ekler . Başka bir deyişle, yeni eklenen değerler idxsütunu işgal eder ve başlangıçta orada olanları idxgeriye ve sonra hareket ettirir .


1
insertİşlev adının verildiği varsayılabileceği için yerinde olmadığını unutmayın (cevaba bağlı olan belgelere bakın).
jneuendorf

5

Numpy dizisine fazladan bir sütun ekleyin:

Numpy'nin np.appendyöntemi üç parametre alır, ilk ikisi 2D numpy dizileridir ve üçüncü yöntem hangi eksenin ekleneceğini bildiren bir eksen parametresidir:

import numpy as np  
x = np.array([[1,2,3], [4,5,6]]) 
print("Original x:") 
print(x) 

y = np.array([[1], [1]]) 
print("Original y:") 
print(y) 

print("x appended to y on axis of 1:") 
print(np.append(x, y, axis=1)) 

Baskılar:

Original x:
[[1 2 3]
 [4 5 6]]
Original y:
[[1]
 [1]]
x appended to y on axis of 1:
[[1 2 3 1]
 [4 5 6 1]]

X'i y'ye eklemek yerine buraya y'den x'e eklediğinizi unutmayın - bu nedenle y'nin sütun vektörü, sonuçtaki x'in sütunlarının sağındadır.
Brian Popeck

4

Partiye biraz geç, ama henüz kimse bu cevabı yayınlamadı, bu yüzden tamlık uğruna: bunu liste kavrayışlarıyla, düz bir Python dizisinde yapabilirsiniz:

source = a.tolist()
result = [row + [0] for row in source]
b = np.array(result)

4

Benim için bir sonraki yol oldukça sezgisel ve basit görünüyor.

zeros = np.zeros((2,1)) #2 is a number of rows in your array.   
b = np.hstack((a, zeros))

3

Benim durumumda, NumPy dizisine bir sütun eklemek zorunda kaldım

X = array([ 6.1101, 5.5277, ... ])
X.shape => (97,)
X = np.concatenate((np.ones((m,1), dtype=np.int), X.reshape(m,1)), axis=1)

X.şekilinden sonra => (97, 2)

array([[ 1. , 6.1101],
       [ 1. , 5.5277],
...

1

Bunun için özel olarak bir fonksiyon var. Buna numpy.pad denir

a = np.array([[1,2,3], [2,3,4]])
b = np.pad(a, ((0, 0), (0, 1)), mode='constant', constant_values=0)
print b
>>> array([[1, 2, 3, 0],
           [2, 3, 4, 0]])

İşte öğretide söylediklerini:

Pads an array.

Parameters
----------
array : array_like of rank N
    Input array
pad_width : {sequence, array_like, int}
    Number of values padded to the edges of each axis.
    ((before_1, after_1), ... (before_N, after_N)) unique pad widths
    for each axis.
    ((before, after),) yields same before and after pad for each axis.
    (pad,) or int is a shortcut for before = after = pad width for all
    axes.
mode : str or function
    One of the following string values or a user supplied function.

    'constant'
        Pads with a constant value.
    'edge'
        Pads with the edge values of array.
    'linear_ramp'
        Pads with the linear ramp between end_value and the
        array edge value.
    'maximum'
        Pads with the maximum value of all or part of the
        vector along each axis.
    'mean'
        Pads with the mean value of all or part of the
        vector along each axis.
    'median'
        Pads with the median value of all or part of the
        vector along each axis.
    'minimum'
        Pads with the minimum value of all or part of the
        vector along each axis.
    'reflect'
        Pads with the reflection of the vector mirrored on
        the first and last values of the vector along each
        axis.
    'symmetric'
        Pads with the reflection of the vector mirrored
        along the edge of the array.
    'wrap'
        Pads with the wrap of the vector along the axis.
        The first values are used to pad the end and the
        end values are used to pad the beginning.
    <function>
        Padding function, see Notes.
stat_length : sequence or int, optional
    Used in 'maximum', 'mean', 'median', and 'minimum'.  Number of
    values at edge of each axis used to calculate the statistic value.

    ((before_1, after_1), ... (before_N, after_N)) unique statistic
    lengths for each axis.

    ((before, after),) yields same before and after statistic lengths
    for each axis.

    (stat_length,) or int is a shortcut for before = after = statistic
    length for all axes.

    Default is ``None``, to use the entire axis.
constant_values : sequence or int, optional
    Used in 'constant'.  The values to set the padded values for each
    axis.

    ((before_1, after_1), ... (before_N, after_N)) unique pad constants
    for each axis.

    ((before, after),) yields same before and after constants for each
    axis.

    (constant,) or int is a shortcut for before = after = constant for
    all axes.

    Default is 0.
end_values : sequence or int, optional
    Used in 'linear_ramp'.  The values used for the ending value of the
    linear_ramp and that will form the edge of the padded array.

    ((before_1, after_1), ... (before_N, after_N)) unique end values
    for each axis.

    ((before, after),) yields same before and after end values for each
    axis.

    (constant,) or int is a shortcut for before = after = end value for
    all axes.

    Default is 0.
reflect_type : {'even', 'odd'}, optional
    Used in 'reflect', and 'symmetric'.  The 'even' style is the
    default with an unaltered reflection around the edge value.  For
    the 'odd' style, the extented part of the array is created by
    subtracting the reflected values from two times the edge value.

Returns
-------
pad : ndarray
    Padded array of rank equal to `array` with shape increased
    according to `pad_width`.

Notes
-----
.. versionadded:: 1.7.0

For an array with rank greater than 1, some of the padding of later
axes is calculated from padding of previous axes.  This is easiest to
think about with a rank 2 array where the corners of the padded array
are calculated by using padded values from the first axis.

The padding function, if used, should return a rank 1 array equal in
length to the vector argument with padded values replaced. It has the
following signature::

    padding_func(vector, iaxis_pad_width, iaxis, kwargs)

where

    vector : ndarray
        A rank 1 array already padded with zeros.  Padded values are
        vector[:pad_tuple[0]] and vector[-pad_tuple[1]:].
    iaxis_pad_width : tuple
        A 2-tuple of ints, iaxis_pad_width[0] represents the number of
        values padded at the beginning of vector where
        iaxis_pad_width[1] represents the number of values padded at
        the end of vector.
    iaxis : int
        The axis currently being calculated.
    kwargs : dict
        Any keyword arguments the function requires.

Examples
--------
>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2,3), 'constant', constant_values=(4, 6))
array([4, 4, 1, 2, 3, 4, 5, 6, 6, 6])

>>> np.pad(a, (2, 3), 'edge')
array([1, 1, 1, 2, 3, 4, 5, 5, 5, 5])

>>> np.pad(a, (2, 3), 'linear_ramp', end_values=(5, -4))
array([ 5,  3,  1,  2,  3,  4,  5,  2, -1, -4])

>>> np.pad(a, (2,), 'maximum')
array([5, 5, 1, 2, 3, 4, 5, 5, 5])

>>> np.pad(a, (2,), 'mean')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> np.pad(a, (2,), 'median')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> a = [[1, 2], [3, 4]]
>>> np.pad(a, ((3, 2), (2, 3)), 'minimum')
array([[1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [3, 3, 3, 4, 3, 3, 3],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1]])

>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2, 3), 'reflect')
array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2])

>>> np.pad(a, (2, 3), 'reflect', reflect_type='odd')
array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8])

>>> np.pad(a, (2, 3), 'symmetric')
array([2, 1, 1, 2, 3, 4, 5, 5, 4, 3])

>>> np.pad(a, (2, 3), 'symmetric', reflect_type='odd')
array([0, 1, 1, 2, 3, 4, 5, 5, 6, 7])

>>> np.pad(a, (2, 3), 'wrap')
array([4, 5, 1, 2, 3, 4, 5, 1, 2, 3])

>>> def pad_with(vector, pad_width, iaxis, kwargs):
...     pad_value = kwargs.get('padder', 10)
...     vector[:pad_width[0]] = pad_value
...     vector[-pad_width[1]:] = pad_value
...     return vector
>>> a = np.arange(6)
>>> a = a.reshape((2, 3))
>>> np.pad(a, 2, pad_with)
array([[10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10,  0,  1,  2, 10, 10],
       [10, 10,  3,  4,  5, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10]])
>>> np.pad(a, 2, pad_with, padder=100)
array([[100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100,   0,   1,   2, 100, 100],
       [100, 100,   3,   4,   5, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100]])
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.