Bir isimden ne kadar bilgi çıkarabilirsiniz?


11

Bir isim: ilk olarak, muhtemelen bir orta ve soyadı.

Herkese açık veri kümelerini kullanarak bir addan ne kadar bilgi çıkarabileceğinizi merak ediyorum. ABD nüfus sayımı verilerini kullanarak düşük bir olasılık (girişe bağlı olarak) arasında herhangi bir yerde aşağıdakileri elde edebileceğinizi biliyorum: 1) Cinsiyet. 2) Yarış.

Örneğin, Facebook, kullanıcıların sitelerinin kullanıcılarının ırksal dağılımını iyi bir doğrulukla bulmak için tam olarak kullandı (https://www.facebook.com/note.php?note_id=205925658858).

Başka ne çıkarılabilir? Belirli bir şey aramıyorum, bu merakımı açıklamak için çok açık uçlu bir soru.

Örneklerim ABD'ye özel, bu yüzden adın ABD'de bulunan birinin adı olduğunu varsayacağız; ancak, birisi diğer ülkeler için herkese açık veri kümelerini biliyorsa, ben de onlara açıkım.

Bunun için doğru yer olup olmadığından pek emin değilim, eğer değilse, birisi beni daha uygun bir yere yönlendirebilirse sevinirim.

Umarım bu ilginç bir soru ve burası uygun bir yer!


2
uygun eşleme verilerini alabiliyorsanız, muhtemelen coğrafi konum hakkında da bir şeyler alabilirsiniz? Yaşa göre çıkarımlar yapmak için zaman içinde ilk isimlerin popülerliği (google "bebek adı sihirbazı") hakkında bilgi de kullanabilirsiniz ...
Ben Bolker

1
Aktarılan soruyu kopya ile birleştirdim.

Yanıtlar:


12

Bu ciddi bir cevap değil, ama bir yıl önce okuduğum bir kitaptan bir şey hatırladım. Freakonomics'te , bir kişiden adından anlatabileceğinize ayrılmış bir bölüm var . Bölüm yazarın araştırma kağıdına dayanmaktadır . Farklı siyah isimlerin nedenleri ve sonuçları

Sanırım bu makalede bir alıntı veya özet buldum

Veriler, ortalama olarak, belirgin bir şekilde siyah bir ada sahip bir kişinin - ister Imani adında bir kadın ya da DeShawn adında bir adam olsun - Molly adında bir kadın veya Jake adında bir adamdan daha kötü bir yaşam sonucuna sahip olduğunu göstermektedir. Ama isminin hatası değil. İki siyah erkek, Jake Williams ve DeShawn Williams, aynı mahallede ve aynı ailevi ve ekonomik koşullarda doğarlarsa, muhtemelen benzer yaşam sonuçlarına sahip olacaklardı. Ancak oğulları Jake adını veren ebeveynler aynı mahallelerde yaşama ya da ekonomik koşulları oğulları DeShawn adında ebeveynlerle paylaşma eğiliminde değildir. İşte bu yüzden Jake adında bir çocuk DeShawn adında bir çocuktan daha fazla para kazanma ve daha fazla eğitim alma eğiliminde olacak. DeShawn'


4

İlk addan bölge, yaş, birinci nesil göçmen statüsü tahmin. Soyadından orijinal soyadı coğrafi konumunu tahmin edebilirsiniz. Tam adıyla sosyal ve ekonomik durumu tahmin edebilirsiniz (Thurston Howell III).


Bir Gilligan Adası karakterinin bu sitesinde ilk söz için +1.
rolando2

4

Sadece buradaki diğer önerilere eklemek için, aile verileri için en büyük kaynaklardan biri, şecere sitelerinin sallanmasıdır. Bence çoğu batı insanı, uzak ya da başka bir kaç aile üyesi tarafından listeleniyor ve bu tür herhangi bir dahil etme, yerlerle, doğum ayrıntılarıyla, vb. İle birlikte, genellikle kapsamlı bir aile ağacı ile birlikte geliyor. Çok bilgilendirici.

Bu verileri Facebook'taki arkadaş grafikleriyle eşleştirirseniz, insanlar kardeşler / kuzenler (ve bazen ebeveynler / çocuklar) ekleme eğilimi gösterdiğinden, yerel verileri seçim rolleri ve dizinlerle birlikte kullanırsanız, genellikle ortak adlara sahip kişileri bile belirleyebilirsiniz, ve şaşırtıcı derecede büyük miktarda veri elde edersiniz.


3

Freakonomics'in son bölümünde (2005, Steven D. Levitt ve Stephen J. Dubner) isimler hakkında özellikle sosyo-ekonomik statü ve ırkla ilgili olduğu için büyüleyici bir tartışma var.

FB'nin soyadı analiziyle iyi ilişkili olan veya olmayan ilk adların bir listesi var. Ayrıca isim seçiminin gün içinde nasıl değiştiğini de tanımlarlar.

Kim bilir - ebeveynlerin seçim adı insanların nüfus sayımında rapor ettiklerinden daha doğru olabilir.


3

Yukarıda birçok iyi öneriniz var, bu yüzden ilginç bir fıkradan bahsedeceğim. Bir şirket araştırma laboratuvarında (isimsiz olarak kalacak) bir yaz öğrencisi (şimdi önde gelen bir bilgisayar bilimcisi) şirketin çevrimiçi telefon dizinindeki verilere baktı ve isimlerdeki karakter n-gramlarını kullanarak ödeme notu için bir tahmin modeli oluşturdu. En güçlü belirleyici, ez_'nin daha düşük maaş notu göstermesi, hakkında konuşmaya teşvik edilmediğini hayal ettiğim bir bulgu ...


2

Muhtemelen şunları bulabilirsiniz:

  1. Meslek ve muhtemelen iş geçmişi, herhangi bir profesyonel tartışmaya katılırsa (mevcut iş genellikle e-postadaki veya imzadaki alan adından bulunabilir, arama geçmişte olanları da ortaya çıkarır)
  2. Sosyal ağlarda profili koruyorsa akrabalar.
  3. Geçerli konum, en azından şehre kadar.
  4. Etnik köken, eğer farklı bir isme sahipse (yani, "Lubomir" adlı biri muhtemelen Slav Avrupa ülkelerinden birine bağlıdır, vb.).
  5. Sosyal ağlardan doğum tarihi - insanlar bir insanı doğum tarihi veya çevresinde tebrik etme eğilimindedir ve eğer şanslıysanız, 25, 30, 35 vb. söz konusu kişi değilse.
  6. Eğitim durumu - LinkedIn vb.
  7. Hobiler, favori spor takımları vb.
  8. Eğer bir evcil hayvan severse, muhtemelen tüm evcil hayvanlarını sosyal ağlarda da kullanırdı.

Hangi btw , şifreleriniz, gizli sorularınız vb. İçin asla yukarıdaki listeden hiçbir şey kullanmamanız gerektiği anlamına gelir .


Seninle aynı ada sahip insanlar hakkında ... Orada "Dean Harding" ler var, bunlardan biri bile profesyonel bir futbolcuydu! Twitter'daki "DeanHarding" ben değil, Facebook'ta yüzlerce "Dean Harding" var, vb ...

Bu elbette şansa bağlıdır. Genellikle aynı meslekte, aynı meslekte ve kabaca aynı bölgede yaşayan 3 kişinin olduğu vakaları gördüm. Sonra tabii ki zorlaşıyor :)

2

Darden ve Robinson (1976), insanların derneklerini erkek isimleri konusunda yönlendiren bir dil yapısı bulmaya çalıştı. İki konu grubundan (sosyoloji öğrencileri ve deniz subayları) bir dizi ortak Amerikan ismini yumuşak-sert, ortak-asil ve kentsel-kırsal gibi anlamsal farklılıklar boyunca derecelendirmelerini istediler. Ayrıca farklı ad çiftleri arasında benzerlik yargısı talep ettiler ve doğrulama yoluyla anlamsal farklılıklardan alınan araçları TORSCA MDS prosedürünü kullanarak hem üç hem de dört D çözeltisinde buldukları boyutlarla ilişkilendirdiler.

Yazarlar, 3-B çözümlerini Osgood'un klasik aktivasyon, değerlendirme ve güç üçlüsüne kabaca karşılık geldiğini bulmuşlardır. Dört boyutta, alan verilere biraz daha iyi uyuyor ve burada yapıyı “karakter”, “olgunluk”, “sosyallik” ve “erkeklik” e bağlı olarak yorumladılar, ancak bu ölçekler neredeyse aynı derecede tanımlanmış görünmüyor yazarlar önerdi. Çalışmadan gelen şaşırtıcı bir bulgu, en azından bu iki küçük örnek için (n = 83 ve 21), verilen ad ile takma ad arasındaki ayrıma karşılık gelen hiçbir boyutun ortaya çıkmamasıydı.

Darden, DK ve Robinson, IE (1976). Erkek isimlerinin çok boyutlu ölçeklendirilmesi: Toplumdilbilimsel bir yaklaşım. Sosyometri, 39 , 4, 422-431.


1

Bulunabilecek bilgi miktarı, sadece ırktan ve cinsiyetten her türlü kişisel bilgiye kadar çılgınca değişir. Bilgiyi elde etmek için en iyi seçeneğiniz, genellikle cencus veritabanlarından daha fazla bilgi sağladığı için facebook gibi sosyal ağ siteleri olacaktır.


1

Kullandığınız kaynaklara bağlı olarak alabileceğiniz çok çeşitli bilgiler var. Sayım verileri açıktır. Ayrıca Facebook, MySpace ve diğer sosyal ağ sitelerinden bilgi alabilirsiniz. Muhtemelen halka açık haber arşivlerinde isimlerinden söz etmek için arama yapabilirsiniz. Belki bazı eyaletlerin sahip olduğu o mülk siteleri bile.

Neler yapılabileceğine dair gerçek bir dünya dünyası örneği istiyorsanız, pipl.com'a bir göz atın


Nüfus Sayımı verilerini isimle nerede (dünyanın herhangi bir yerinde) bulabileceğimizi söyleyebilir misiniz ?
whuber

1

Dereceleri, sürücü belgesini, polis kaydını (doğru çeviri mi?) Arayabilirsiniz. Facebook ile hobiler, spor ve sevilen müzikler hakkında bilgiler bulabilirsiniz. Ayrıca, belirli bir ada sahip kullanıcının sosyal medya oranını da arayabilirsiniz. (Bu sonuçlarla ilgilenirim)



0

Bireyin yeri hakkında bir şeyler biliyorsanız, bilgi kaynaklarından biri seçmen kaydı veritabanlarıdır. Seçmen kayıt veritabanlarının birçoğu mevcuttur (bir ücret karşılığında; bunları satın alan ve ücretli olarak çevrimiçi sorgu erişimi sağlayan şirketler vardır). Seçmen kayıt veri tabanı bireyin adresine ve / veya doğum tarihine sahip olabilir. Bu bilgiler bireyi diğer veritabanlarında aramanızı sağlayabilir.

Bununla birlikte, bunun ne kadar yardımcı olduğuna dair sınırlar vardır. Kişinin yaşadığı şehri veya ilçeyi biliyorsanız ve adlarının oldukça sıra dışı olması durumunda bu yararlı olabilir. Ancak bu ortak bir adsa veya nerede yaşadıklarını bilmiyorsanız, muhtemelen size yardımcı olmayacaktır.


0

diğer birçok yararlı özellik dahil olmak üzere kamuya açık veriler için en büyük kaynaklardan biri, mülk mülkiyet kayıtları için il memurları ofisidir. veri tüm verilerin bir araya getirilmesi ile ilgilidir ... bazı eyaletler merkezi bir veritabanı sağlar, bazıları ise vermez.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.