GPS koordinatları (enlem ve boylam) doğrusal bir modelde özellik olarak kullanılabilir mi?


10

Birçok özellik arasında GPS koordinatları (enlem ve boylam) içeren veri kümeleri var. Bu veri kümelerini aşağıdaki gibi sorunları araştırmak için kullanmak istiyorum: (1) başlangıç ​​ve bitiş noktaları arasında sürmek için ETA hesaplamak; ve (2) belirli bir nokta için suç miktarının tahmin edilmesi.

Doğrusal bir regresyon modeli kullanmak istiyorum. Ancak, bu GPS koordinatlarını doğrudan doğrusal bir modelde kullanabilir miyim?

Enlem ve boylam , bir kişinin yaşı gibi sıralı bir özelliğe sahip değildir . Örneğin, iki noktanın (40.805996, -96.681473) ve (41.226682, -95.986587) herhangi bir anlamlı sıraya sahip görünmüyor. Onlar sadece uzayda olan noktalardır. Onları kategorik ABD posta kodları ile değiştirmeyi ve sonra bir sıcak kodlama yapmayı düşünüyordum , ancak bu birçok değişkenle sonuçlanacaktır .


1
Bunları doğrudan kullanmak zorunda mısınız? S. openshaw'ın AZP algoritması gibi imar araçlarını duydunuz mu? Alan nispeten tutarlıysa, bir haritadaki bölgeleri ayrı bölgeleri / bölgeleri manuel olarak sınırlandırabilirsiniz.
Mephy

@Mephy: Bu, lat / long'u bölgelere dönüştüreceğim anlamına gelir, değil mi? Ama sonra posta kodlarında olduğu gibi yüzlerce veya binlerce kategorik bölgeye sahip olurdum. Hepsini sıcak kodlamak zorundayım.
stackoverflowuser2010

Tabii ki bölgeleri nasıl kestiğinize bağlı. "Ekvator çizgisinin güneyinde / Ekvator çizgisinin kuzeyinde" seçeneğini belirlerseniz, bu yalnızca iki tanedir. Birçok imar algoritması, bölge sayısı veya minimum bölge büyüklüğü gibi miktarları tanımlamak için bazı hiper parametrelere sahiptir.
Mephy

Aynı meseleye sahibim, bir halkın konumunu tahmin etmek istiyorum. Eğitim verilerindeki tüm coğrafi konum özelliklerini coğrafi olarak belirledim. Bundan sonra, kategorik konum özelliğini dönüştürmek için LabelDecoder kullanılır. Sonunda, sonuç korkunç. Uzamsal tahminle başa çıkmak için iyi bir fikir var mı?
berisfu

Yanıtlar:


5

Bunları doğrudan kullanamazsınız, çünkü birisinin "ne kadar doğu veya kuzey" olduğunu tahmin etmek istemiyorsanız, gerçek bir doğrusal ilişki olması olası değildir. Yorumlarda belirtildiği gibi, bunları bölgelere dönüştürmeniz gerekir. Bunu gerçekten basit tutmak istiyorsanız, düşük sayıda potansiyel kümeye sahip bir kNN kümeleme algoritması kullanabilir ve ardından her örneğe küme kimliğiyle yeni bir özellik atayabilir ve ardından bunu bir sıcak kodlayabilirsiniz.

Ayrıca, bir haritanın tamamındaki değerleri tahmin etmek için insanların koordinatları nasıl enterpolasyon ettiklerini de okumak isteyebilirsiniz. İlk örnek sıcaklık istasyonları ile, ancak bunun suç için "sıcak bölgeler" olduğunu hayal edebilirsiniz.

( DOCS )


2

Kalbinizin istediği her şeyi yapabilirsiniz, ancak modeliniz sıcaklığı veya zaman farkını tahmin etmedikçe, sadece koordinatlara bağlı başka bir hedef değişken bulamam.

Muhtemelen yapmak istediğiniz şey, harici bir veri kaynağı kullanmak ve verilerinizi modelinizin performansına yardımcı olacak Ülke / Posta kodu / iklim / diğer coğrafi özelliklerle zenginleştirmektir.


0

GPS koordinatları doğrudan bir geohash'e dönüştürülebilir . Geohash, Dünya'yı basamak sayısına göre farklı boyuttaki "kovalara" ayırır (kısa Geohash kodları daha büyük alanlar ve daha küçük alanlar için daha uzun kodlar oluşturur).

Bir geohash, modelde özellik olarak kullanılabilen tek bir sayıdır.

Geohash sadece tüm dünya için geçerlidir, posta kodları geçerli değildir.


Bir geohasher çıktısı tek bir sayı değil, bir dizedir, değil mi? Ve geohash bir dize ise, o zaman bir-sıcak kodlanmış zip kodunda olduğu gibi, çok sayıda değişkenle sonuçlanacak olan bir-sıcak kodlamak zorunda kalırdım.
stackoverflowuser2010

Bir geohash, taban 32'de kodlanmış tek bir sayıdır. 1-hot encode için bir neden yoktur. Hassasiyet seviyesini seçin ve ilgili basamak sayısını kullanın.
Brian Spiering

Sadece geohashların dize temsillerini gördüm. Bununla birlikte, geohashlar uzun bir int olarak gösterilse bile, bunlar arasında doğrusal bir modelde kullanım için herhangi bir doğrusal ilişki var mı? Tam olarak asıl sorumun konusu bu.
stackoverflowuser2010

Geohashes arasındaki ilişki biraz karmaşıktır - en.wikipedia.org/wiki/Geohash#Design
Brian Spiering

1
Doğrusal ve bir sıcak kodlamanın ötesinde özellik mühendisliğinin birçok yolu vardır. Örneğin, çekirdek hilesi veya Helmert dönüşümü.
Brian Spiering
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.