İnternet tükenmez bir bilgi kaynağıdır. Aynı şey sosyal medya için de geçerli. Herkesin kullanımına açık sonsuz miktarda veri. Bu veriler sayesinde insanların hayatlarına dair detaylı bilgilere ulaşabilirsiniz. Mali, kişisel bilgiler, yapılan veya yeni hayal edilen satın almalara ilişkin bilgiler. Bu bilgiyi toplamak, düzenlemek ve sınıflandırmak için yıllar içinde çeşitli teknikler geliştirildi. Hepsi tek isim altında. Tek şapka: veri kazıma, veri kazıma. Farklı şekillerde gerçekleşebilecek bir dijital koleksiyon. Az ya da çok invazif, az ya da çok etkili. Az ya da çok mahremiyete zararlıdır.
Girişimciler ve profesyoneller için veri kazıma
Dolayısıyla Ekonomi Bakan Yardımcısı Maurizio Leo'nun şu sözlerinin yarattığı sansasyonu anlıyoruz: “Gelir Dairesi ve Sogei ile çalışıyoruz, yapılması gereken sözde 'veri kazıma'dır, yani profesyonellerin ve girişimcilerin sosyal medyada yayınladığı yaşam standardına ilişkin veriler”. Bunlar, geçmişte yapay zekanın vergi kaçıranları ve onların hazineden çaldıkları 80-100 milyarlarca vergiyi takip etmek için kullanılacağını öne süren Leo'nun yeni sözleri değil. Ancak bu durum tartışmalara yol açtı ve hükümet çoğunluğunun üyelerinden uzaklaşmaya yol açtı. Bakan yardımcısının nasıl müdahale etmeyi planladığı konusunda ayrıntı yok. Ancak bazı genel ilkeleri özetleyebiliriz. Veri kazıma nedir? O nasıl çalışır?
Veri kazıma nedir ve nasıl çalışır?
Daha geniş ve daha genel anlamda, bir web uygulamasının başka bir yazılımdan bilgi çıkardığı bir süreç gerçekleştiğinde veri kazımasından bahsediyoruz. Ancak Leo, açıklamalarında, bir web sitesinden (sosyal medya dahil) bilgi alabilen ve gerekli özelliklere göre sınıflandırabilen bir yazılımın kullanımını içeren bir teknik olan veri kazımaya atıfta bulunuyordu: tüm saçları sarı olan insanlar, tüm spor araba sahipleri, örneğin tüm başlangıç seviyesindeki padel kursları. Otomatik bilgi sınıflandırma tekniği.
Bu her zaman meşru bir faaliyet değildir. Aslında, veri kazımanın yasadışı sayıldığı birçok durum olmuştur. En bilinen, en çarpıcı örnek, 2018 yılında 87 milyon insanın hayatına ilişkin verilere sahip olduğu ve onları siyasi propaganda hedefi haline getirmek amacıyla topladığı keşfedilen girişim olan Cambridge Analytica'nın durumudur. Ancak son yıllarda buna benzer onlarca haber yaşandı. Meta, platformlarındaki verileri kazıyanlara karşı sert önlemler aldığını duyurdu. Elon Musk, uygulamayı engellemek amacıyla bundan bir yıl önce belirli bir sayının üzerindeki tweetlerin görüntülenmesini engellemişti.
Sitelerde ve sosyal ağlarda bilgiler nasıl toplanır?
Bu verilerin toplanması farklı şekillerde gerçekleşebilir. Temel olarak, botlar veya örümcekler (tam da bunu yapmak için tasarlanmış yazılımları belirten teknik adlar) tarafından gerçekleştirilen veri toplama süreçlerinin otomasyonu vardır. Otomasyon genellikle gizliliğe saygısızlık edecek şekilde yasa dışı bir şekilde veri toplama riskine yol açar.
En yaygın yollardan biri, gerçek kullanıcılar tarafından yapılan çevrimiçi gezinmeyi simüle eden bir yazılımla veri toplamak, halka açık erişime sınırlamaların getirildiği yerlere (yalnızca arkadaşlarıyla paylaşılan fotoğraflar veya yakın çevreyle paylaşılan bilgiler) bile ulaşmaktır. . Elde edilen bilgiler daha sonra işlenebilir, bir veri tabanında toplanabilir ve sonraki araştırmalar için sınıflandırılabilir. Biraz arşiv gibi. Veri günlüğü gibi.
Gizlilik (ve GDPR) riskleri
Avrupa Kişisel Veri Yasası (GDPR), ne olursa olsun veri hırsızlığını yasaklamaz. Bir devletin vergi kaçakçılığıyla mücadele amacıyla uyguladığı veri kazıma durumunda çözülmesi gereken sorunlar vardır: veri işlemenin vatandaşların temel haklarını ihlal edip etmediğinin anlaşılması, insanların hayatlarına aşırı müdahalenin olup olmadığının anlaşılması. Ama bir gerçek var. İnternette, sosyal medyada insanlar sıklıkla hayatlarını paylaşıyorlar. Ve bunu halka açık olarak yapıyorlar, genellikle mümkün olan en geniş izleyici kitlesine ulaşmaya çalışıyorlar, kendileri, alışverişleri ve tatilleri hakkında konuşuyorlar.
Gelir İdaresi Başkanlığı tarafından inceleme ve soruşturma konusu olabilecek zengin bir bilgi. En azından bakan yardımcısı Leo'nun niyetinde. Fizibilitesinin anlaşılması gereken bir proje. Her şeyden önce teknik olan. Kesinlikle mahremiyetin korunmasıyla ilgili olan. Ancak şu anda ulaşılması en zor şey siyasi yeşil ışık gibi görünüyor.
Girişimciler ve profesyoneller için veri kazıma
Dolayısıyla Ekonomi Bakan Yardımcısı Maurizio Leo'nun şu sözlerinin yarattığı sansasyonu anlıyoruz: “Gelir Dairesi ve Sogei ile çalışıyoruz, yapılması gereken sözde 'veri kazıma'dır, yani profesyonellerin ve girişimcilerin sosyal medyada yayınladığı yaşam standardına ilişkin veriler”. Bunlar, geçmişte yapay zekanın vergi kaçıranları ve onların hazineden çaldıkları 80-100 milyarlarca vergiyi takip etmek için kullanılacağını öne süren Leo'nun yeni sözleri değil. Ancak bu durum tartışmalara yol açtı ve hükümet çoğunluğunun üyelerinden uzaklaşmaya yol açtı. Bakan yardımcısının nasıl müdahale etmeyi planladığı konusunda ayrıntı yok. Ancak bazı genel ilkeleri özetleyebiliriz. Veri kazıma nedir? O nasıl çalışır?
Veri kazıma nedir ve nasıl çalışır?
Daha geniş ve daha genel anlamda, bir web uygulamasının başka bir yazılımdan bilgi çıkardığı bir süreç gerçekleştiğinde veri kazımasından bahsediyoruz. Ancak Leo, açıklamalarında, bir web sitesinden (sosyal medya dahil) bilgi alabilen ve gerekli özelliklere göre sınıflandırabilen bir yazılımın kullanımını içeren bir teknik olan veri kazımaya atıfta bulunuyordu: tüm saçları sarı olan insanlar, tüm spor araba sahipleri, örneğin tüm başlangıç seviyesindeki padel kursları. Otomatik bilgi sınıflandırma tekniği.
Bu her zaman meşru bir faaliyet değildir. Aslında, veri kazımanın yasadışı sayıldığı birçok durum olmuştur. En bilinen, en çarpıcı örnek, 2018 yılında 87 milyon insanın hayatına ilişkin verilere sahip olduğu ve onları siyasi propaganda hedefi haline getirmek amacıyla topladığı keşfedilen girişim olan Cambridge Analytica'nın durumudur. Ancak son yıllarda buna benzer onlarca haber yaşandı. Meta, platformlarındaki verileri kazıyanlara karşı sert önlemler aldığını duyurdu. Elon Musk, uygulamayı engellemek amacıyla bundan bir yıl önce belirli bir sayının üzerindeki tweetlerin görüntülenmesini engellemişti.
Sitelerde ve sosyal ağlarda bilgiler nasıl toplanır?
Bu verilerin toplanması farklı şekillerde gerçekleşebilir. Temel olarak, botlar veya örümcekler (tam da bunu yapmak için tasarlanmış yazılımları belirten teknik adlar) tarafından gerçekleştirilen veri toplama süreçlerinin otomasyonu vardır. Otomasyon genellikle gizliliğe saygısızlık edecek şekilde yasa dışı bir şekilde veri toplama riskine yol açar.
En yaygın yollardan biri, gerçek kullanıcılar tarafından yapılan çevrimiçi gezinmeyi simüle eden bir yazılımla veri toplamak, halka açık erişime sınırlamaların getirildiği yerlere (yalnızca arkadaşlarıyla paylaşılan fotoğraflar veya yakın çevreyle paylaşılan bilgiler) bile ulaşmaktır. . Elde edilen bilgiler daha sonra işlenebilir, bir veri tabanında toplanabilir ve sonraki araştırmalar için sınıflandırılabilir. Biraz arşiv gibi. Veri günlüğü gibi.
Gizlilik (ve GDPR) riskleri
Avrupa Kişisel Veri Yasası (GDPR), ne olursa olsun veri hırsızlığını yasaklamaz. Bir devletin vergi kaçakçılığıyla mücadele amacıyla uyguladığı veri kazıma durumunda çözülmesi gereken sorunlar vardır: veri işlemenin vatandaşların temel haklarını ihlal edip etmediğinin anlaşılması, insanların hayatlarına aşırı müdahalenin olup olmadığının anlaşılması. Ama bir gerçek var. İnternette, sosyal medyada insanlar sıklıkla hayatlarını paylaşıyorlar. Ve bunu halka açık olarak yapıyorlar, genellikle mümkün olan en geniş izleyici kitlesine ulaşmaya çalışıyorlar, kendileri, alışverişleri ve tatilleri hakkında konuşuyorlar.
Gelir İdaresi Başkanlığı tarafından inceleme ve soruşturma konusu olabilecek zengin bir bilgi. En azından bakan yardımcısı Leo'nun niyetinde. Fizibilitesinin anlaşılması gereken bir proje. Her şeyden önce teknik olan. Kesinlikle mahremiyetin korunmasıyla ilgili olan. Ancak şu anda ulaşılması en zor şey siyasi yeşil ışık gibi görünüyor.