ChatGPT’yi kullanarak ChatGPT’den veri çalmak: Yapay zeka insanların adlarını, soyadlarını, yüzlerini ve adreslerini nasıl ortaya çıkarır?

Suzan

New member
Ne kadar güvendeyim yapay zekaya emanet edilen veriler ve özellikle ChatGPT’ye? En ünlü yapay zekanın üzerinde eğitim aldığı milyarlarca bilgi meraklı gözlerden ne kadar güvende? Bakılırsa pek değil Kasım ayının sonunda yayınlanan araştırma (Bu) ve bunun mümkün olup olmadığını ve nasıl mümkün olduğunu tam olarak anlamaya adanmış ChatGPT’den Eğitim Verilerini Çıkarma. Yani tam olarak eğitim aldığı verileri ChatGPT’den çıkarmak.

Bu etik hackleme çalışmasına diğerlerinin yanı sıra araştırmacılar da katıldı Derin Düşünce (Google’ın yapay zeka ile ilgilenen bölümü) Nicholas Carlini ve Katherine Lee gibi, aynı zamanda Washington Üniversitesi, Cornell’den, Berkeley ve Zürih Politeknik.


Yapay zeka

Google ve üretken yapay zekanın hataları: Bard, yanıtlarının onayını internette arayacak



kaydeden Emanuele Capone

19 Eylül 2023


ChatGPT’de gizlenen (fazla değil) bilgi


Açıklananlara göre, araştırmanın yazarları “çıkarmayı” başardılar. birkaç megabayt veri ücretli sürümünden eğitim” SohbetGPT (İşte yaşamının ilk yılındaki 36 temel aşama) yaklaşık 200 dolar harcıyoruz, ancak “daha fazla para harcayarak yaklaşık bir GB veri çıkarmanın mümkün olacağına inanıyoruz” OpenAI AI’ye sorular sorun.

Sorunun ciddiyetini anlamak için anlaşılması gereken ilk şey şudur: araştırmacılar bilgiyi kim bilir hangi hileyi, hacklemeyi, yazılımı veya cihazı kullanarak değil, pratikte herkesin yapabileceği gibi sadece ChatGPT ile sohbet ederek elde ettiler.

Altını çizmemiz gereken ikinci önemli nokta ise bunun ne tür bir bilgi olduğu: Nasıl biliniyor? (burada anlattık) Yapay zekanın eğitildiği Büyük Dil Modelleri milyarlarca veriden oluşuyor İnternette kazıma yapılarak kurtarılır. Basitleştirme: Binlerce, binlerce ve binlerce çevrimiçi sayfa okunur (Wikipedia, gazete siteleri, sosyal ağ mesaj panoları, bilimsel makaleler, kütüphane arşivleri vb.), bu sayfalar ezberlenir ve bu sayfalardan öğrenilen bilgilere dayanarak yapay zekalar öğrenmek verebileceğim şaşırtıcı cevapları ver. Bu veriler çoğunlukla halka açıktır (ya da hemen hemen), sıradan insanlar tarafından her zaman kolay olmasa da çevrimiçi olarak erişilebilir.

Bu muazzam veri denizinde ayrıca çok sayıda özel bilgi veya her durumda fotoğraflar gibi hassas, yüzler (çünkü yüz çizmeyi öğrenmek için üretken yapay zekaların yüzlere bakması gerekir), adreslere-posta adresleri, telefon numaraları, adlar ve soyadlar insanların, kitapların, etkileşimlerin izleri flört uygulamaları ve benzeri. Ve bu tam olarak araştırmacıların ChatGPT’den elde edebildiği verilerdir. Gerçekten de ChatGPT’yi kendilerinin yazdığı gibi “yeniden canlandırmayı” başardılar.


ChatGPT'yi hacklemek için kullanılan istemin bir örneği

ChatGPT'yi hacklemek için kullanılan istemin bir örneği

ChatGPT’yi hacklemek için kullanılan istemin bir örneği



Tek bir kelimenin sürekli tekrarından sonra birkaç satırda ne olur?

Tek bir kelimenin sürekli tekrarından sonra birkaç satırda ne olur?

Tek bir kelimenin sürekli tekrarından sonra birkaç satırda ne olur?


Arama yöntemi ve sonucun ciddiyeti


Bahsedildiği gibi bu sonuca ulaşmak zor olmadı. Aksine, “oldukça aptalca” bir yöntem kullanıldıaraştırmanın yazarlarının kendilerinin de açıkladığı gibi: bir istem olarak, ChatGPT’den bir kelimeyi sonsuza kadar, yani sonsuz ve sonsuza kadar tekrarlaması istendi ve belirli sayıda satırdan sonra AI yazmaya başladı (“kusmak” için, aslında) eğitim verileri.

İşte size izin veren bir örnek neler olduğunu açıkça görChatGPT, tamamen habersiz bir kişinin e-posta adresini ve telefon numarasını açığa çıkarıyor, ancak dahası da var: testlerin %5’inden fazlasında OpenAI’nin yapay zekasının yanıt verdiği şey şuydu: 50 sıralı bloklar doğrudan eğitim veri kümelerinden alınmıştır.

Belki aynı derecede aptalca ama yararlı bir örnek vermek gerekirse, sanki bir öğrenci okula bazı notlarla gitmiş gibi tarih dersinde sınav için ona saklanmış, testi yapmış, soruları doğru ve şaşırtıcı derecede iyi cevaplamış, mükemmel bir not almış ve sonra birdenbire, birdenbire öğretmenin önünde kartları açıp yüksek sesle ona okumaya başlamış. ses. Ağırlaştırıcı durumun eklenmesiyle birlikte ChatGPT tarafından kullanılan kartlarda insanların adları ve soyadları, yüzleri, fotoğrafları, telefon numaraları, adresleri, e-posta adresleri ve kim bilir daha neler var.

Anladığınız gibi, keşfedilen şey iki kez ciddi. Her şeyden önce, gizli kalması gereken hassas bilgileri herkesin kullanımına açık olarak ifşa etmesi nedeniyle, Italian Tech’de sık sık açıkladığımız gibi, siber suçlular tarafından dolandırıcılık ve dolandırıcılık organize etmek için güvenilir hikayeler oluşturmak amacıyla kullanılabilir. Ardından, ChatGPT’nin yanıtlarının güvenilirliği hakkında daha fazla ciddi şüphe uyandırdığı için genel olarak üretken yapay zeka. Sanki zaten yeterince yokmuş gibi.

Uzman: “Özellikle şirketler için ciddi”


Meslektaşları tarafından yayınlanan belgeleri okuyan profesör Annalisa Barlaİtalya’da yapay zekayla uğraşan birkaç kadından biri, Dibris’te Bilgisayar Bilimleri doçentliği yapan ve Cenova Üniversitesi Makine Öğrenimi Cenova Merkezi’ne bağlı olan , bize “kullanılan yöntemin basitliğine hayran kaldığını” itiraf etti. ChatGPT’yi hacklemek için”. Ve biraz da endişeli çünkü o “bunu anlıyor” bu şey hemen hemen tüm Yüksek Lisans’larda işe yararhem açık hem kapalı olanlar, OpenAI’nin yapay zekasının temel aldığı model gibi hem küçük hem de büyük olanlar”. Aslında: “Bir model ne kadar büyükse, dış dünyaya iletmemesi gereken bilgileri iletmesi o kadar kolay olur” ver”.

Bu neden ciddi? “İlgili kişilerin bariz mahremiyet sorunlarının yanı sıra, sanırım özellikle kurumsal dünya içinbelki şirket içi kullanım için dikey bir GPT geliştirmek isteyenler için, çalışanların soru sorabileceği veya şirket belgelerine başvurabilecekleri bir sohbet robotu”. Ancak kullanım şirket içiyse sorun nedir? “Güvenlik eksikliği var bu bilgilerin başkalarının erişimine açık olmadığını, eğitim verilerinin başkalarıyla paylaşılmaması modeller” ve bu nedenle diğer yapay zekalarda yer almıyor. O zaman gidip herkese söyleyebilirlerdi.

Ve “makalede, hassas veriler, reşit olmayanlar için yasaklanmış materyaller, telif hakkı kapsamındaki materyaller ve daha fazlası dahil olmak üzere araştırmacıların ChatGPT’den elde etmeyi başardığı bilgilerin kesin bir listesi var, eğer bir şirket olsaydım Güvenebilir miyim bilmiyorum Çok”. Bu sorun, yani yapay zekaların herkese öğrendiklerini nereden öğrendiklerini söylemesi riski, iş dünyasında kullanım için başka bir sorun daha ekliyor: “Daha önce bahsedilen kurumsal chatbot örneğini hayal edersek, bunu nasıl başarabiliriz? Verilerin olduğundan eminim yalnızca doğru kişilerin erişebileceğibir stajyerin yalnızca üst düzey yöneticilere mahsus bilgilere sahip olamayacağını mı düşünüyorsunuz?”.

Gizlilik, Garantör yapay zeka için veri toplanmasına ilişkin bir soruşturma başlattı



kaydeden Bruno Ruffilli

22 Kasım 2023


OpenAI’nin hataları: bunun bir daha olmayacağından nasıl emin olunur?


Ayrıca, belki daha teknik ve içeriden öğrenenler için daha az ilginç olmayan ve özellikle (en azından teoride) üzerinde eğitim aldığı verileri açığa çıkarmayacak şekilde programlanacak olan OpenAI yaratığını ilgilendiren başka bir endişe nedeni daha var. Uyumlu olurdu, bunun yerine yaptığı şeyi yapmamaya karar verdik: “Bu, normalde bu yapay zekaların geliştirilmesinde insan müdahalesiyle yapılan, muhtemelen yanıtın tonunu veya yanıtın türünü filtreleyen, belki de hassas konulardan kaçınmak için yapılan bir şeydir”, biz Barla daha ayrıntılı olarak açıklanmıştır. Basitçe söylemek gerekirse, öyle ChatGPT neden ilaçların nasıl hazırlanacağını açıklamıyor evde: bilmediği için değil, onu programlayan kişi bunu yapmasını engellediği için.

Açıkçası, ChatGPT hizalama prosedürü Araştırmanın yazarlarının da belirttiği gibi, üzerinde çalışıldığı verilerin açıklanmaması işe yaramadı: “Testleri yalnızca halka açıklanmış yapay zeka üzerinde (yani bitmiş ürün üzerinde) yapmak doğru değildir. iyi bir fikir çünkü üzerinde eğitim aldıkları modellerdeki tüm zayıf noktaları gizliyor.” Her şeyden önce, “bu Yüksek Lisans derecelerini veren şirketlerin dahili testlere, kullanıcı testlerine ve üçüncü taraf testlerine güveninBu kusurları keşfetmek için: “Saldırımızın işe yaraması çok saçma, çünkü bu güvenlik açığı daha erken bulunabilirdi ve bulunması gerekirdi.”

Araştırmacılar, çalışmalarının sonunda şunları açıklıyor: nasıl kontrol ettiler ChatGPT’den alınan bilgilerin gerçekten ChatGPT’nin üzerinde eğitim aldığı bilgiler olduğunu ve üstü kapalı olarak OpenAI’nin (ismine rağmen) tamamen dışarıya kapalı olma seçiminin bu alanda akıllıca bir seçim olmadığını ima etmektedir (bunun bir yönü). geçen Mart ayında diğer araştırmacılar tarafından da belirtildi) ve ayrıca Altman’ın şirketiyle belirli bir diyalog biçiminin varlığını ortaya koyuyor. Neyi keşfetmek üzere olduklarını anladıktan sonra “geçtiğimiz 30 Ağustos’ta makalemizin taslağını OpenAI ile hızla paylaştık”: net değil ne tür bir yanıt aldılar ve aldılar mı?ancak “standart 90 günlük bekleme süresinin ardından 28 Kasım’da her şeyi kamuoyuna açıkladık.” Aynı şey, en iyi bilinen üretken yapay zekayla aynı sorunu yaşayan GPT-Neo, Falcon, RedPajama, Mistral ve LLaMA geliştiricileri için de yapıldı.

@capoema