“Çöpü atarsanız, çöp dışarı çıkar”: bilgisayar bilimcileri arasındaki popüler deyiş, veritabanlarının makine öğrenimi algoritmalarının eğitiminde oynadığı kritik rol. Basitçe söylemek gerekirse, bir algoritmaya belirli bir görevi tamamlaması için – örneğin görüntülerdeki kedileri tanımak – öğretmek için kullanılan verilerin (metin, resimler, video ve daha fazlası) kalitesi çok önemlidir.
Veriler yanlış etiketlenmişse veya yanlış bilgiler içeriyorsa, bu yanlışlıklar kaçınılmaz olarak yapay zeka tarafından emilecektir.eğitiminin başarısını tehlikeye atıyor.
Ancak bu veriler nereden toplanıyor? birçok durumda evet halka açık geniş veritabanlarından yararlanma, gibi Laion (MidJourney gibi sistemleri eğitmek için kullanılan türden bilgiler olan 400 milyon metin-resim eşleştirmesi toplar) veya çakal (bunun yerine 700 milyon içerir). Sırayla, bu veritabanları gelir otomatik araçlarla oluşturulmuş düzenli olarak binlerce web sitesini araştıran, içlerinde bulunan bilgileri istifleyen. Örneğin, ChatGPT söz konusu olduğunda, İngilizce Vikipedi’nin tamamının kullanıldığı bilinmektedir. eğitimi için, genel CommonCrawl veritabanını kullanarak.
İşte tuzak burada pusuda: ne olurdu? verileri kasten değiştirirsek veritabanlarını oluşturmak için kullanılan sitelerde yer alan (bunlar genellikle teknik belgelerde belirtilir), yanlış bilgi girilir veya portakalın bulunduğu tüm fotoğrafları “elma” kelimesiyle etiketler?
Dijital Haklar
Yapay zeka: halüsinasyonlar ve insan sorumsuzluğu
kaydeden Diletta Huyskes
10 Mayıs 2023
Bir araştırma ekibi tarafından yayınlanan bir araştırmaya göre, ETH Zürih, bu tür bir operasyon sadece mümkün değil, aynı zamanda kullanılan verilerin küçük bir bölümünü bozmak için yeterlidir. bir algoritmayı, tasarlandığı görevi başarıyla tamamlama yeteneğinden ödün verecek şekilde eğitmek için.
pratikte, Terk edilmiş, ancak botlar tarafından düzenli olarak ziyaret edilen birçok web sitesinin alan adlarını birkaç avroya satın almak yeterlidir. veri toplayan, e onları yanlış bilgilerle doldurun. Araştırmacılara göre 10.000 dolar ile söz konusu Laion veya Coyo gibi arşivlerde yer alan verilerin %1’ine kadar değişiklik yapmak mümkün. %0.01’i değiştirmek için sadece 60$.
Çok küçük yüzdeler, ancak hedefli bir şekilde kullanılırsa yine de bir algoritmanın eğitiminden ödün verebilirler (yine ETH Zürih tarafından yapılan ikinci bir çalışmada gösterildiği gibi). “İlke olarak, veri kümelerine keyfi bilgiler eklemek mümkün olsaydı, o zaman tüm eğitimin ters gideceğini yıllardır biliyorduk.” Hızlı Şirket Çalışmanın yazarlarından biri olan Florian Tramèr. “Yine de, bu hala olmamış gibi görünüyor ve nedenini merak ediyoruz“.
Dava
Sahte Pentagon saldırısının yapay zeka tarafından oluşturulan fotoğrafı Wall Street’i salladı
kaydeden Pier Luigi Pisa
23 Mayıs 2023
Yukarıda belirtilen küçük meblağlardan çok daha yüksek meblağlarda yatırım yaparak bile bazı yapay zeka algoritmalarının işleyişini tehlikeye atmakla ilgilenen hiçbir varlık – uluslar veya rakip şirketler – olamaz mı?
New York Üniversitesi araştırmacısı olası bir açıklama yaptı Julian Togeliusbirkaç on doların bir veritabanını tehlikeye atmak için gerçekten yeterli olabileceğini doğrulayan, ancak her şeyden önce nasıl olduğunu açıklayan bunu başarmak için gereken iş miktarı muhtemelen potansiyel faydalardan daha ağır basacaktır. Gerekli paradan daha fazlası, diye açıklıyor Togelius her zaman, “soru, doğru web sitelerini bulmak, alanlarını satın almak ve materyalinizi doğru formatta hazırlamak için gereken çaba“.
Ancak günümüzde ne kadar çok makine öğrenimi algoritmasının halihazırda stratejik bir öneme sahip olduğu ve bunun gelecekte ne kadar artarak devam edeceği düşünüldüğünde, yapay zekanın gelişiminin kaynağını kirletmenin -sadece teoride bile- mümkün olduğu gerçeği. hala endişe verici senaryolar açılıyor.
Yapay zeka
AI’ya karşı garip itiraz: “Yok olma riskiyle karşı karşıyayız.” Ancak şirketler bunları geliştirmeye devam ediyor
kaydeden Emanuele Capone
30 Mayıs 2023
Veriler yanlış etiketlenmişse veya yanlış bilgiler içeriyorsa, bu yanlışlıklar kaçınılmaz olarak yapay zeka tarafından emilecektir.eğitiminin başarısını tehlikeye atıyor.
Ancak bu veriler nereden toplanıyor? birçok durumda evet halka açık geniş veritabanlarından yararlanma, gibi Laion (MidJourney gibi sistemleri eğitmek için kullanılan türden bilgiler olan 400 milyon metin-resim eşleştirmesi toplar) veya çakal (bunun yerine 700 milyon içerir). Sırayla, bu veritabanları gelir otomatik araçlarla oluşturulmuş düzenli olarak binlerce web sitesini araştıran, içlerinde bulunan bilgileri istifleyen. Örneğin, ChatGPT söz konusu olduğunda, İngilizce Vikipedi’nin tamamının kullanıldığı bilinmektedir. eğitimi için, genel CommonCrawl veritabanını kullanarak.
İşte tuzak burada pusuda: ne olurdu? verileri kasten değiştirirsek veritabanlarını oluşturmak için kullanılan sitelerde yer alan (bunlar genellikle teknik belgelerde belirtilir), yanlış bilgi girilir veya portakalın bulunduğu tüm fotoğrafları “elma” kelimesiyle etiketler?
Dijital Haklar
Yapay zeka: halüsinasyonlar ve insan sorumsuzluğu
kaydeden Diletta Huyskes
10 Mayıs 2023
Bir araştırma ekibi tarafından yayınlanan bir araştırmaya göre, ETH Zürih, bu tür bir operasyon sadece mümkün değil, aynı zamanda kullanılan verilerin küçük bir bölümünü bozmak için yeterlidir. bir algoritmayı, tasarlandığı görevi başarıyla tamamlama yeteneğinden ödün verecek şekilde eğitmek için.
pratikte, Terk edilmiş, ancak botlar tarafından düzenli olarak ziyaret edilen birçok web sitesinin alan adlarını birkaç avroya satın almak yeterlidir. veri toplayan, e onları yanlış bilgilerle doldurun. Araştırmacılara göre 10.000 dolar ile söz konusu Laion veya Coyo gibi arşivlerde yer alan verilerin %1’ine kadar değişiklik yapmak mümkün. %0.01’i değiştirmek için sadece 60$.
Çok küçük yüzdeler, ancak hedefli bir şekilde kullanılırsa yine de bir algoritmanın eğitiminden ödün verebilirler (yine ETH Zürih tarafından yapılan ikinci bir çalışmada gösterildiği gibi). “İlke olarak, veri kümelerine keyfi bilgiler eklemek mümkün olsaydı, o zaman tüm eğitimin ters gideceğini yıllardır biliyorduk.” Hızlı Şirket Çalışmanın yazarlarından biri olan Florian Tramèr. “Yine de, bu hala olmamış gibi görünüyor ve nedenini merak ediyoruz“.
Dava
Sahte Pentagon saldırısının yapay zeka tarafından oluşturulan fotoğrafı Wall Street’i salladı
kaydeden Pier Luigi Pisa
23 Mayıs 2023
Yukarıda belirtilen küçük meblağlardan çok daha yüksek meblağlarda yatırım yaparak bile bazı yapay zeka algoritmalarının işleyişini tehlikeye atmakla ilgilenen hiçbir varlık – uluslar veya rakip şirketler – olamaz mı?
New York Üniversitesi araştırmacısı olası bir açıklama yaptı Julian Togeliusbirkaç on doların bir veritabanını tehlikeye atmak için gerçekten yeterli olabileceğini doğrulayan, ancak her şeyden önce nasıl olduğunu açıklayan bunu başarmak için gereken iş miktarı muhtemelen potansiyel faydalardan daha ağır basacaktır. Gerekli paradan daha fazlası, diye açıklıyor Togelius her zaman, “soru, doğru web sitelerini bulmak, alanlarını satın almak ve materyalinizi doğru formatta hazırlamak için gereken çaba“.
Ancak günümüzde ne kadar çok makine öğrenimi algoritmasının halihazırda stratejik bir öneme sahip olduğu ve bunun gelecekte ne kadar artarak devam edeceği düşünüldüğünde, yapay zekanın gelişiminin kaynağını kirletmenin -sadece teoride bile- mümkün olduğu gerçeği. hala endişe verici senaryolar açılıyor.
Yapay zeka
AI’ya karşı garip itiraz: “Yok olma riskiyle karşı karşıyayız.” Ancak şirketler bunları geliştirmeye devam ediyor
kaydeden Emanuele Capone
30 Mayıs 2023