Header Ads Widget

Ticker

6/recent/ticker-posts

AI-Bot Scraping Çağında İçerik Güvenliği: Yüksek Otoriteli Bloglar İçin Gelişmiş Koruma Protokolleri

Reklam

Reklam

Geçen hafta bir danışmanlık müşterim araştırma yaparken kendi 2019'da yazdığı detaylı bir teknik makaleyi buldu. Ancak makale onun sitesinde değil, hiç duymadığı bir "AI-generated content" platformundaydı. Kaynak belirtilmemiş, içerik hafifçe paraphrase edilmiş ama yapı birebir aynıydı. Google'da arama yaptığında, kendi orijinal makalesi 8. sıradayken, bu kopya içerik 3. sıradaydı.

Bu, artık istisnai bir durum değil. 2026'da içerik üretiminin demokratikleşmesi değil, içerik çalmanın endüstrileşmesi yaşanıyor. 15 yıldır bu işin içindeyim ve ilk kez "kaliteli içerik üretmek" yeterli olmuyor. Şimdi ürettiğiniz içeriği korumak da bir beceri, bir strateji hatta bir zorunluluk haline geldi.

Bu makalede, yıllarca biriktirdiğiniz uzmanlığı dijital hırsızlara kaptırmadan nasıl koruyacağınızı adım adım göstereceğim. Sadece robots.txt yazmak değil, Cloudflare'den honeypot tuzaklarına, içerik filigranlama tekniklerinden browser integrity kontrolüne kadar gerçek dünyada işe yarayan çözümleri paylaşacağım.

2026'da İçerik Neden "Dijital Altın" Haline Geldi?

Scraping artık basit bir veri çekme işlemi değil. 2020'lerde botlar web sitelerini indeksliyor, veritabanlarını dolduruyordu. Bugün ise Large Language Model (LLM) crawler'ları sizin 3000 kelimelik makalenizi okuyup 30 saniyede "özgün" bir versiyonunu üretebiliyor. Daha kötüsü, bu yeni versiyon bazen Google'da sizin orijinal içeriğinizden daha üst sıralarda çıkabiliyor.

Otorite hırsızlığı dediğimiz şey tam olarak bu: 15 yıllık tecrübenizle, gerçek case study'lerle, kendi hatalarınızdan öğrendiğiniz bilgilerle yazdığınız makale, anonim bir AI sitesinde sanki onların uzmanlığıymış gibi sunuluyor. SEO açısından bakıldığında, Google'ın "orijinallik" algısı karışıyor ve siz duplicate content cezası yeme riskiyle karşı karşıya kalıyorsunuz.

Paradoks: Arama Motorlarına İzin Verirken LLM'leri Nasıl Engelleriz?

İşin zor tarafı şu: Googlebot'u engellerseniz, siteniz indekslenmiyor. Ama GPTBot'a izin verirseniz, içeriğiniz ChatGPT'nin eğitim datasına giriyor ve kaynak belirtilmeden milyonlarca kullanıcıya servis ediliyor. Post-SGE Döneminde Hayatta Kalma Kılavuzu yazımda da değindiğim gibi, Google artık "mavi link" yerine direkt cevap veriyor. Bu durumda, içeriğiniz kullanılıyor ama sitenize trafik gelmiyor.

Bu paradoksu çözmek için katmanlı bir savunma stratejisi gerekiyor.

Tehdit Analizi: İyi, Kötü ve Çirkin Botlar

Tüm botlar kötü niyetli değil. Ekosistemdeki aktörleri üç kategoriye ayırmak gerekiyor:

İyi Botlar (Beyaz Liste)

  • Googlebot: SEO için olmazsa olmaz
  • Bingbot: Microsoft ekosistemi için önemli
  • Yandexbot: Rusça içerik üretenler için kritik
  • LinkedIn Bot: Sosyal paylaşımlar için gerekli

Bu botları engellemek, dijital intihar anlamına gelir.

Gri Botlar (İzlenmesi Gereken)

  • GPTBot (OpenAI): ChatGPT eğitimi için veri topluyor
  • CCBot (Common Crawl): Açık kaynak AI modellerinin dataseti
  • Claude-bot (Anthropic): Claude AI'ın eğitim crawler'ı
  • Applebot-Extended: Apple Intelligence için içerik topluyor

Bunlar teknik olarak yasal ama size hiçbir değer katmıyorlar. İçeriğinizi kullanıyorlar, kaynak göstermiyorlar, trafik getirmiyorlar.

Kötü (Malicious) Botlar

  • Kaynak belirtmeyen content scraper'lar
  • Otomatik spin/paraphrase araçları
  • Spam siteler için toplu içerik toplayıcılar
  • Headless browser'larla çalışan agresif crawler'lar

Bunları tespit etmek ve engellemek, teknik beceri gerektirir.

Savunma Hattı 1: Robots.txt ve Ötesi

Robots.txt hala önemli ama artık yeterli değil. Modern AI botlarının bir kısmı robots.txt kurallarını "öneri" olarak görüyor, zorunluluk olarak değil.

Gelişmiş Robots.txt Yapılandırması

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Claude-bot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: FacebookBot
Disallow: /

Önemli not: Bazı Türk site sahipleri FacebookBot'u engelleyince sosyal medya paylaşımlarında önizleme görselleri çıkmadığını fark ediyor. Bu durumda FacebookBot'a sadece gerekli sayfalara (Open Graph resimlerinin olduğu yerler) izin verin.

Meta Tag Seviyesinde Koruma

HTML <head> bölümünüze şu etiketleri ekleyin:

html
<meta name="robots" content="noai, noimageai">
<meta name="googlebot" content="noai, noimageai">

Bu etiketler, içeriğinizin AI eğitimi için kullanılmamasını talep ediyor. Yasal zorunluluk değil ama etik olarak buna uyan şirketler var.

Savunma Hattı 2: Cloud-Level Protection (Firewall Ayarları)

Robots.txt'ye uymayan botlara karşı bulut seviyesinde önlem şart. Cloudflare kullanıyorsanız (ki çoğu Türk blogger için ücretsiz plan yeterli), şu özellikleri mutlaka aktive edin:

Bot Fight Mode

Cloudflare Dashboard → Security → Bots → "Bot Fight Mode" açık olmalı.

Bu mod, şüpheli botları otomatik olarak challenge (doğrulama) sürecine sokuyor. Gerçek kullanıcılar etkilenmiyor çünkü Cloudflare modern tarayıcıları tanıyor.

Rate Limiting (Hız Sınırlama)

Normal bir okuyucu dakikada en fazla 3-5 sayfa açar. Bir bot ise saniyede 10-20 istek atabiliyor. Cloudflare'de ücretsiz planda şu kuralı ekleyebilirsiniz:

Kural: Aynı IP'den 60 saniye içinde 20'den fazla istek gelirse → 1 saat ban

Bu agresif scraper'ları etkili şekilde engelliyor. Ancak dikkat: Ofis ortamlarında birçok kişi aynı IP'yi kullanıyorsa, bu sınırı 30-40'a çıkarın.

Browser Integrity Check (BIC)

Headless Chrome, Puppeteer, Playwright gibi otomasyon araçlarını tespit eder. Cloudflare Dashboard → Security → Settings → "Browser Integrity Check" aktif olmalı.

Gerçek dünya örneği: Bir müşterim bu ayarı açtıktan sonra, günlük bot trafiğinin %73 düştüğünü Analytics'te gördü. Organik trafik sabit kaldı, sadece sahte botlar temizlendi.

Savunma Hattı 3: Teknik "Tuzaklar" ve Honeypotlar

Şimdi biraz daha teknik derinliklere iniyoruz. Bu stratejiler özellikle yüksek otoriteli, değerli içerik üreten siteler için kritik.

Honeypot Linkler

İnsanların görmediği ama botların tıkladığı gizli linkler koyun. Örnek:

html
<div style="position:absolute; left:-9999px;">
  <a href="/bot-trap">Gizli Link</a>
</div>

/bot-trap sayfasına gelen her IP'yi otomatik olarak .htaccess veya Cloudflare'de banlayın. Gerçek kullanıcılar bu linki asla görmez, ama botlar CSS'i parse etmeden tüm linkleri takip eder.

PHP örneği (bot-trap.php):

php
<?php
$ip = $_SERVER['REMOTE_ADDR'];
file_put_contents('banned-ips.txt', $ip . "\n", FILE_APPEND);
header("HTTP/1.1 403 Forbidden");
exit("Bot detected");
?>

Dynamic Content Injection

Kritik bilgileri (kod blokları, case study detayları) server-side değil, JavaScript ile client-side yükleyin. Botların çoğu JavaScript render edemez.

javascript
// Kritik içerik JSON'da tutuluyor
fetch('/api/content-fragment')
  .then(res => res.json())
  .then(data => {
    document.getElementById('critical-content').innerHTML = data.html;
  });

Bu yöntem SEO'ya zarar verebilir, bu yüzden sadece en değerli, en çok kopyalanan içerikleriniz için kullanın.

Canvas Fingerprinting

Tarayıcının gerçek mi yoksa bot mu olduğunu anlamak için ileri seviye bir teknik. Canvas API her tarayıcıda biraz farklı çalışır, botlar ise genelde standart değerler döndürür.

javascript
var canvas = document.createElement('canvas');
var ctx = canvas.getContext('2d');
ctx.textBaseline = "top";
ctx.font = "14px 'Arial'";
ctx.fillText("Browser test", 2, 2);
var fingerprint = canvas.toDataURL();

// Fingerprint'i backend'e gönder
fetch('/verify-browser', {
  method: 'POST',
  body: JSON.stringify({fp: fingerprint})
});

İçerik Filigranlama (Watermarking) ve İzleme

Görünmez Filigranlar

Metin aralarına zero-width space (sıfır genişlikli boşluk) karakterler ekleyerek, içeriğin size ait olduğunu kanıtlayabilirsiniz:

javascript
function addWatermark(text) {
  const watermark = '\u200B\u200C\u200D'; // Görünmez karakterler
  return text.split(' ').map((word, i) => {
    if (i % 10 === 0) return word + watermark;
    return word;
  }).join(' ');
}

Biri içeriğinizi kopyalayıp yayınlarsa, bu görünmez karakterleri arayarak orijinalin size ait olduğunu ispatlarsınız.

Automated Monitoring Araçları

İçeriğinizin internette kopyalarını bulan araçlar:

  • Copyscape: Ücretli ama Türkçe içerik için en doğru sonuçları veren araç
  • Google Alerts: "Makalenizden bir cümle" şeklinde alert kurun
  • Plagiarism Checker Tools: Grammarly, Quetext gibi araçlar da işe yarıyor

DMCA Süreci: Türkiye'den DMCA başvurusu yaparken, Google'ın telif hakkı formu üzerinden başvurun. Genelde 7-10 gün içinde kopya içerik indekslerden kalkıyor.

Senior Seviye İpucu: Cloudflare Workers ile Dinamik Bot Engelleme

Cloudflare Workers veya AWS Lambda@Edge kullanarak, gelen isteğin User-Agent ve ASN (Autonomous System Number) bilgisine göre anlık olarak challenge çıkarabilirsiniz.

Cloudflare Workers örneği:

javascript
addEventListener('fetch', event => {
  event.respondWith(handleRequest(event.request))
})

async function handleRequest(request) {
  const userAgent = request.headers.get('User-Agent') || '';
  const suspiciousBots = ['GPTBot', 'CCBot', 'Claude-bot', 'Bytespider'];
  
  // Şüpheli bot tespit edilirse
  if (suspiciousBots.some(bot => userAgent.includes(bot))) {
    return new Response('Access Denied', { status: 403 });
  }
  
  // ASN kontrolü (örnek: veri merkezi IP'leri)
  const asn = request.cf.asn;
  const blockedASNs = [16509, 14618]; // AWS, Amazon ASN'leri
  
  if (blockedASNs.includes(asn)) {
    // Turnstile challenge göster
    return Response.redirect('https://challenges.cloudflare.com/turnstile', 302);
  }
  
  return fetch(request);
}

Bu kod, bilinen AI bot'larını direkt engelliyor, veri merkezi IP'lerinden gelenlere ise Turnstile (Cloudflare'ın modern CAPTCHA'sı) gösteriyor.

Türkiye'deki kullanıcılar için özel not: Turkcell, Türk Telekom gibi operatörler bazen IP'leri Carrier-Grade NAT (CGN) ile paylaştırıyor. Rate limiting'i çok sıkı ayarlarsanız, aynı operatörü kullanan gerçek kullanıcılar etkilenebilir. Test ederken mutlaka farklı operatörlerden kontrol edin.

Açık İnternet vs. Güvenli İçerik: Denge Nasıl Kurulur?

Burada samimi olmak gerekiyor: Aşırı korumacı yaklaşım, kullanıcı deneyimini mahveder.

Bir konferansta bir meslektaşım sitesine o kadar çok güvenlik katmanı eklemişti ki, mobil kullanıcılar sürekli CAPTCHA çözüyordu. Bounce rate %80'e çıkmış. Google bu siteyi "kullanıcı dostu değil" diye cezalandırmış.

Dengeli yaklaşım:

  • ✅ Robots.txt ile nazikçe "hayır" deyin (GPTBot, CCBot vb.)
  • ✅ Cloudflare Bot Fight Mode aktif olsun (pasif koruma)
  • ✅ Honeypot tuzakları kurun (gizli, kullanıcıyı etkilemez)
  • ❌ Her sayfaya CAPTCHA koymayın
  • ❌ JavaScript zorunlu hale getirmeyin (SEO zarar görür)
  • ❌ Tüm veri merkezi IP'lerini banlemeyin (CDN'ler de veri merkezinde çalışır)

2026 ve Sonrasında İçeriğin Geleceği: Lisanslanabilir İçerik

Vizyon olarak şunu söyleyebilirim: Önümüzdeki 2-3 yıl içinde içerik lisanslama platformları yaygınlaşacak. Yani içeriğinizi AI şirketlerine izin vererek (ücretli) açabileceksiniz ya da tamamen kapalı tutacaksınız.

Şu anda bu konuda öncü olan platformlar:

  • Spawning AI (spawning.ai): Sanatçılar ve içerik üreticileri için opt-out/opt-in sistemi
  • Data Provenance Initiative: Medya şirketleri için içerik lisanslama
  • OpenAI Media Manager (yakında çıkacak): İçerik sahiplerine "AI eğitiminde nasıl kullanılsın?" seçeneği sunacak

Türkiye'de henüz bu konuda lokal bir platform yok ama global standartları takip etmek, gelecekte avantaj sağlayacak.

Sıkça Sorulan Sorular (SSS)

S: Robots.txt'ye GPTBot engelleme koydum ama içeriğim ChatGPT'de çıkıyor. Neden?

C: İki sebep olabilir: (1) İçeriğiniz engellemeden önce toplanmış olabilir, (2) Biri içeriğinizi manuel olarak ChatGPT'ye kopyalayıp kullanıyor olabilir. İkinci durumda yapabileceğiniz bir şey yok.

S: Cloudflare Bot Fight Mode, Google Analytics verilerimi etkiler mi?

C: Hayır. Cloudflare, Googlebot ve diğer "verified bot"ları otomatik olarak beyaz listeye alıyor. Analytics'iniz etkilenmez.

S: Honeypot link kurdum ama gerçek bir kullanıcı yanlışlıkla tıklarsa ne olur?

C: CSS ile left:-9999px yaparsanız, tıklama imkansız hale gelir. Ama ekstra güvenlik için, bot-trap sayfasında "IP'nizi banlamadan önce 3 saniye bekliyoruz, insan olduğunuzu kanıtlamak için butona tıklayın" gibi bir son şans mekanizması ekleyebilirsiniz.

S: Türkiye'de DMCA başvurusu yaparken özel bir durum var mı?

C: Google'ın DMCA formu global, Türkiye için özel bir prosedür yok. Ancak .tr uzantılı sitelerde BTK üzerinden de telif bildiriminde bulunabilirsiniz. İki yolu da paralel yürütmek daha etkili oluyor.

S: JavaScript ile içerik yüklemek SEO'ya zarar vermez mi?

C: Google artık JavaScript'i render ediyor ama hala bir gecikme var. Kritik içeriklerinizi (ilk paragraf, başlıklar) server-side bırakın, sadece detaylı case study, kod blokları gibi "çalınması pahalı" içerikleri dynamic yapın.

S: Dağıtık Monolit yazınızda bahsettiğiniz mikroservis mimarisi, içerik korumasında nasıl kullanılabilir?

C: Çok iyi soru. İçerik sunumunu mikroservis olarak ayırırsanız (örneğin kritik içerikler ayrı bir API'den gelsin), bot'ların tüm siteyi scrape etmesi zorlaşır. Ancak dikkat: Aşırı kompleks yapılar bakım maliyetini artırır. Ölçeklenme ihtiyacınız yoksa, klasik monolitik yapıda katmanlı güvenlik daha mantıklı.


Son söz olarak: 2026'da içerik üretmek, sadece yazmak değil. Yazdığınızı koruyabilmek, izleyebilmek ve gerektiğinde hakkınızı arayabilmek de işin bir parçası. Bu makalede paylaştığım teknikleri hepsini birden uygulamak zorunda değilsiniz. Sitenizin trafiğine, içeriğinizin değerine ve teknik becerilerinize göre kademeli olarak uygulayın.

15 yıldır bu işin içindeyim ve şunu net olarak söyleyebilirim: Kaliteli içerik hala kazanıyor, ama artık korumasız içerik kaybediyor.

Reklam

Reklam

Yorum Gönder

0 Yorumlar