Bir sayfanın kaç yaşında olduğunu nasıl anlayabilirim?


15

Google'ın ilk önce kimin mesaj gönderdiğini ve kimin kopyaladığını belirlemede az çok doğru olduğunu düşündüm. Ancak, "arama aracı: özelleştirilmiş aralık" kullandığımda sonuçlar oldukça garip. Sadece birkaç yıldır sahip olduğum bir web sitesi için 2002'ye kadar uzanan sayfalar buldum.

Bu nedenle Google, orijinali kimlerin kopyaladığını ve kimin yazdığını bulmak için doğru değildir. Nedir?

resim açıklamasını buraya girin

Eğer stackexchange.com2009 yılında kuruldu o zaman nasıl mümkün olabilir? hermeneutics.seStack Overflow'dan daha eski!


Birisi sizden önce alan adına sahip miydi? Google'da karşılaştırdığınız sayfalar nedir?
closetnoc

Soruyu SE verileriyle güncelledim. Zaman damgaları doğru olamaz.
Renan

2
Vay. Emin değilim. Bunun mekaniğini normal olarak anlıyorum, ancak Google'ın yaptığı şey hala bir gizem. İnternette Google'ın tarihleri ​​nasıl belirlediği hakkında çok az bilgi var. Google'ın değiştirilmiş tarihleri ​​nasıl belirlediğiyle ilgili bir sorumuz vardı. Biraz araştırma yaptım ve neredeyse hiçbir şey yok. Yine de tekrar bakacağım. Ancak birkaç gün sürebilir. CMS yazılımının ve büyük olasılıkla SE kodunun Apache'nin HTML sayfaları için oluşturduğu gibi oluşturma ve değiştirme tarihleri ​​döndürmediğini unutmayın. Ve cevap bu olabilir.
closetnoc

Google olması gerekmiyor, ancak kullanıcılarımın intihal mi yoksa intihal mi olduğunu gerçekten bilmek istiyorum. = /
Renan

Şimdiye kadar, Google, HTML içindeki tarih biçimini anlamıyor gibi görünüyor, ancak bu kesin değil. İlk örnek sayfanın kaynak kodu, Google için kesin tarih ipuçları vermez. Google (en azından) görünüm veya bu siparişteki bir tarih: URL, başlık, gövde (içerik), meta etiketler, HTTP yanıtından son değiştirilme tarihi. HEAD isteği oluşturma tarihi ve son değiştirilme tarihini döndürür. Ayrıca, eğer değiştirilmiş-if ile bir GET, kaynağı 200 Ok ile döndürür veya 304 Değiştirilmemiş değerini döndürür. SE kodu bunları döndürmeyebilir ve yalnızca URL, başlık, içerik ve meta etiketler kullanılabilir.
closetnoc

Yanıtlar:


12

Bu sorunun cevabını şu şekilde araştırdım: sahip olduğum örnek olduğu için Google'ı kullanma, Google'ın oluşturma tarihlerini ve değiştirilme tarihlerini ve Google'ın tanıdığı tarih biçimlerini nasıl aldığı. Lütfen bu bilgilerin sadece birkaç sayfada bulunmadığını ve bazılarının doğrudan uygulanmadığı ve bir araya getirmediği birçok kaynaktan gelen verileri ortaya çıkarmak zorunda olduğumu anlayın. Bazı durumlarda, bilgi çeşitli kaynaklardan elde edilir ve her zaman alıntı yapılamaz.

Google sayfa tarihlerini bu sırayla arar; URL, başlık etiketi, gövde (içerik), meta etiketler, HTTP yanıt başlığı en azından Google arama cihazı söz konusu olduğunda. Diğer belgelerdeki diğer paragraflarda herhangi bir emir belgelenmemiştir, ancak liste tartışılmış ve listeyi onaylamış görünmektedir. Bunu düşünürseniz, bu bir arama motorunun alacağı sırayı yansıtır; bir - sayfanızı (bağlantı) keşfedin ve iki - meta etiketi (küçük ayrıntı) ve HTTP yanıt başlığı dışında sayfanızı yukarıdan aşağıya (başlık, gövde ve meta etiket) okuyun. Cihaz ile ilgili liste şu şekildedir:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Not: Başlangıç ​​tarihi, sayfanın Google tarafından ilk istendiği tarihtir. Bir oluşturma tarihi bulunmadığında, başlangıç ​​tarihi kullanılır.

1] Herhangi bir arama motoru bir HTTP GET isteği aracılığıyla bir kaynak isteyebilir ve web sunucusu, veri başlığındaki kaynakla birlikte yanıt başlığında son değiştirilme tarihini döndürür.

2] Herhangi bir arama motoru, bir HTTP HEAD isteği yoluyla bir kaynağın başlık bilgisini isteyebilir ve web sunucusu, veri paketi içinde kaynak olmadan yanıt başlığında değiştirilen tarihi döndürür.

3] Herhangi bir arama motoru, bir kaynağın belirli bir tarihten bu yana değiştirilip değiştirilmediğini, bir tarih ayarlanmışsa if HTTP-GET ile bir kaynak isteyerek isteyebilir. Kaynak ayarlanan tarihten bu yana değiştirildiyse, web sunucusu 200 Ok yanıtıyla yanıt verir ve kaynağı döndürür veya kaynak ayarlanan tarihten bu yana değiştirilmemişse, web sunucusu kaynağı döndürmeden 304 Değiştirilmedi ile yanıt verir .

Google, bant genişliğinden tasarruf etmek için 3. yöntemi kullanarak birçok istekte bulunur. Bunları web sunucusu günlük dosyalarınızda göreceksiniz.

Not: Bir içerik yönetim sisteminin (CMS) veya başka bir yazılımın bir yanıt üstbilgisinde uygun tarih verememesi mümkündür.

Bu tarih örnekleri Google cihazının dokümanlarından da gelir, ancak genel arama ile ilgili başka yerlerde de bulunur. Bu ayrıntıları cihaz belgelerinden aldım, çünkü kesilebilir ve başka yerlerde düzgün olmadığı bir liste olarak yapıştırılabilir.

4] Google, URL içinde bir tarih arar. Aşağıdaki biçimleri arar; YYYMMDDHH - YYYY - YYYYMM.

5] Google, başlık etiketinde bir tarih arar. Aşağıdaki biçimleri arar; YYYMMDDHH - YYYY - YYYYMM diğer biçimlerin tanınabileceğinden şüpheleniyorum. Aşağıya bakınız.

6] Google, gövde etiketi (içerik) içinde bir tarih arar. Aşağıdaki biçimleri arar; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY diğer biçimlerin tanınabileceğinden şüpheleniyorum. Aşağıya bakınız.

Not: Google'ın özellikle ilk H1etiketin hemen altındaki bir tarihi aradığı bilinmektedir . Bunun nedeni blogların genellikle bu konuma tarihler koymasıdır.

7] Google, bunun gibi bir meta etiket arar. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Google'ın ayrıca aşağıdaki tarih biçimlerini tanıdığı söylenir.

YYYY-MD - YYYY.MD - YYYY / A / G - MD-YYYY - MDYYYY - A / G / YYYY - YY-AA-GG - YY.MM.DD - YY / AA / GG - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - GG-AA-YY - AA-GG-YY - GG / AA / YY - AA / GG / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - MMDDYYYY - YYMMYD - GGMMYY - AAGGY

Bulduğum araştırma zaman sorununa cevap vermedi.

Atıfta bulunulan örnekler söz konusu olduğunda, sayfalar, yok sayılabilecek bir yayılma etiketi dahilinde tarih ipuçları vermez. SE yazılımı / web sunucusunun herhangi bir yanıt başlığında oluşturma ve değiştirilme tarihlerini döndürmesi mümkün değildir.

Google'ın bu tarihleri ​​neden ve nasıl elde ettiği, asla çözülemeyecek iyi bir sorudur. Ancak aramaya devam edeceğim.


3
"Google bu tarihte sayfa tarihlerini arar; URL, başlık etiketi, gövde (içerik), meta etiketler, HTTP yanıt başlığı." Bu araştırma için herhangi bir rakam veya istatistik var mı? Burada yayınladığınız şeyler için referanslar gönderebilseydiniz, hepimiz için çok daha iyi olurdu.
PatomaS

Bunu sorduğun için teşekkür ederim. Bulduğum şeylerin çoğu bitler ve parçalardı. Liste birkaç yerde bulundu, ancak sipariş Google arama cihazının dokümanlarında bulundu ve başka yerlerdeki paragraflarda yedeklenmiş gibi görünüyordu. Kelimenin tam anlamıyla bulmak için biraz zaman alan birkaç düzine belgeye baktım. Bu konuda doğrudan bilgi olmadığı için çeşitli kaynaklardan gelen verileri bir araya getirmek zorunda olduğumu söylemeye dikkat etmeye çalıştım. İfadeyi daha açık hale getirmek için düzenleyeceğim.
closetnoc

Ayrıca, bir article.post > div.post-content > h2 > pdüzeyde bulunan aşağıdaki tarih biçimi dizesinin Google tarafından yakın zamanda alındığını ve tarihi görüntülemek için kullanıldığını da doğrulayabilirim : "Son güncelleme: 7 Ekim 2018"
Matt

-2

Bir alanın kaç yaşında olduğunu görmek istiyorsanız Google'da geri dönüş makinesi arayın . Bu site aradığınız şey: http://archive.org/web/ .

İntihal tespit etmek istiyorsanız, bu bağlantı size yardımcı olacaktır: http://copyscape.com/signup.php?pro=0&o=f

Ayrıca, Google'da "intihal kontrolü" için arama yapın.

Umarım yardımcı oldum.


3
Saygı ile, soruyu tekrar okumalısınız.
closetnoc

Soru "Bir sayfanın kaç yaşında olduğunu nasıl söyleyebilirim?" Lütfen bağlantımı takip edin ve cevabın iyi olduğunu göreceksiniz. Bunu okuduğunuz için teşekkürler.
Pascut

3
Soruyu okumuyorsun. Başlığı okuyorsunuz. Makinenin geri dönüş yolu soruyu cevaplamıyor.
closetnoc

Haklısın, sorumu düzenledim ..
Pascut

1
Wayback makinesi, alandaki sayfanın kaydını tutar. Belirli sayfalar arasındaki tarihleri ​​karşılaştırmak yararlı değildir. Hangisinin önce gönderildiğini söylemek için doğru araçlar arıyorum.
Renan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.