İnterneti kullanarak farkında olmadan yapay zekayı eğitiyoruz!

Yapay zeka teknolojileri ortasında insansı metinler üretebilen ChatGPT, Gemini ve Claude üzere büyük lisan modelleri (LLM) günde çok sayıda insan tarafından kullanılıyor.

Bu modellerin eğitilmesindeyse kitaplardan, internet sitelerinden, makalelerden ve öbür yazılı gereçlerden elde edilen metinler kullanılıyor.

Eğitim gereci, kamuya açık kaynaklardan toplanabilse de son periyottaki tartışmalar, bu sürecin internet kullanıcılarının çevrimiçi hareketlerinden derlenmesine ağırlaşıyor.

İnternette bir hizmete erişimden evvel kullanıcının robot değil de insan olduğunu teyit etmeye yönelik “CAPTCHA” ve “reCAPTCHA” testleri, teknoloji firmaları için bir güvenlik tedbirinden daha fazlası olarak görülüyor.

Kullanıcıların, önlerine sunulan görsellerdeki harfleri yazması yahut muhakkak objeleri ayırt etmesi üzere kolay vazifeler isteyen bu testlerin, yapay zeka araçlarının eğitiminde kullanıldığı yıllardır tartışılıyor.

Google’ın kullandığı testlerde sık sık yaya geçitleri, trafik lambaları ve taşıtlar üzere objelerin sorulması, bunlardan elde edilen dataların yapay zeka takviyeli insansız araçlar için kullanıldığına yönelik argümanların ortaya atılmasına neden oldu.

Bir Google Cloud sözcüsü, yaptığı açıklamada, “reCAPTCHA kullanıcı bilgileri, reCAPTCHA hizmetini düzgünleştirme dışında hiçbir gaye için kullanılmamaktadır ve bu durum, hizmet koşulları kontratında açıkça belirtilmiştir.” tabirini kullandı.

Cep telefonundaki oyundan gerçekçi dünya haritası

Gündelik kullanımların yapay zeka eğitiminde kullanılması tartışmaları son günlerde oyunlar üzere öbür alanlara da sıçradı.

ABD merkezli Niantic firmasının 2016’da piyasaya sürdüğü ve kısa müddette pek çok ülkede büyük kitle kazanan “Pokemon Go” isimli oyun, son devirde tenkitlerin odağında yer alıyor.

Oyuncuların, “Pokemon” çizgi dizisindeki karakterleri, cep telefonlarındaki GPS ve kameralar aracılığıyla gerçek dünyada aradığı oyun, sokak imgelerinden oluşan büyük bir data havuzunun oluşmasını sağladı.

MIT Technology Review mecmuasının haberine nazaran, Niantic’in yapay zeka şirketi Niantic Spatial, oyuncuların biriktirdiği 30 milyar görseli kullanarak gerçek dünyanın gerçekçi sanal modelini üretti.

Niantic, bu sayede bireylerin etrafındaki manzaraların fotoğraflarını yükleyerek pozisyonlarını haritada görmesini sağlayan bir teknoloji geliştirdiğini açıkladı.

Firma ayrıyeten bu modellemeyi kullanarak GPS’in emniyetli olmadığı yerlerde robotların hareketini kolaylaştıracak bir teknoloji hedefliyor.

Firmanın internet sitesinden Kasım 2024’te yapılan açıklamada da oyuncuların gerçek dünyayı tarayarak sunduğu dataların kullanıldığı doğrulanmış lakin bu özelliğin “tamamıyla opsiyonel” olduğu vurgulanmıştı.

Kullanıcılar, LLM’lerin güzelleştirilmesine direkt katkı sağlıyor

İsviçre’deki Lozan Üniversitesinden Profesör Christian Peukert, yapay zekanın eğitiminde kullanılan gereçler ile internet kullanıcılarının güvenliği ve mahremiyeti ortasındaki istikrarları kıymetlendirdi.

Profesör Peukert, CAPTCHA testlerinin eski versiyonlarında kullanıcıların deşifre etmesi istenen sözlerden birinin sistem tarafından bilindiğini, başkasının ise bilinmediğini belirtti.

Peukert, sistemin tanıdığı sözün, kullanıcının insan olduğunun doğrulanmasında kullanıldığını, bilinmeyen sözcüğe verilen cevabın ise e-kitap uygulamaları üzere dijitalleşme gayretleri kapsamında bilgi olarak depolandığını anlattı.

Bunun “kullanıcıların, metin tanıma sistemlerinin güzelleştirilmesine direkt katkıda bulunduğu” manasına geldiğini vurgulayan Peukert, “Yapay zekanın eğitiminin büyük kısmı, kullanıcıların çoğunlukla fark etmeyerek internette ürettiği pasif datalara dayanıyor.” sözünü kullandı.

Christian Peukert, reCAPTCHA’nın haricinde internetteki dataların yapay zeka eğitimi için kullanıldığı alanlara örnekler vererek, şunları kaydetti:

Reddit ve Twitter üzere toplumsal medya platformları, lisan modellerini eğiten büyük ölçülerdeki metinleri sağlıyor. Instagram üzere manzara platformlarında (paylaşımlara eklenen) açıklamalar ve etiketler, görsel datanın etiketlenmesine katkı sağlıyor. Google’daki aratmalar, lisan manaya ve sıralama sistemlerinin geliştirilmesine yardımcı oluyor. Google Haritalar ve Waze üzere navigasyon uygulamaları, iddia modellerinin eğitildiği hareket bilgilerini topluyor. Sohbet robotları ve sesli asistanlarla görüşmeler genelde kayıt altına alınıyor ve sistemleri güzelleştirmede kullanılıyor.

Gizlilik ve güvenlik açısından endişeler

Bu süreçlerin saklılık ve güvenlik açısından sıkıntıları olduğunu vurgulayan Christian Peukert, büyük ölçekli bilgi birikiminin “fişlemeye”, “sahte içeriklerin üretilmesine” ve “kullanıcıların kendileriyle rekabet eden sistemleri beslemesine” yol açabileceğini tabir etti.

Profesör Peukert, bireysel tedbirlerin data kullanımını azaltma konusunda tek başına yetmeyeceğinin altını çizerek “Eğitim için kullanılan bilgilerin birçok çoktan toplanmış halde, kamuya açık formda yahut sistemler ortasında çoğaltılmış durumda bulunuyor. Bilgiler büyük bilgi kümelerine bir sefer dahil edildiğinde denetimi geri kazanmak zordur.” değerlendirmesinde bulundu.

Öte yandan, Peukert, bu bilgi katkısının birtakım yararları da olduğuna işaret ederek insan kaynaklı dataların lisan teknolojileri, çeviri, erişilebilirlik araçları, bilimsel çalışmalar ve arama motorları üzere gündelik hizmetlerdeki kullanımını örnek gösterdi.

İnterneti kullanarak farkında olmadan yapay zekayı eğitiyoruz!