16 listopada 0 20

Jak Powstrzymać Firmy Zajmujące się Sztuczną Inteligencją przed Wykorzystywaniem Treści Online do Szkolenia Modeli

Sztuczna inteligencja staje się coraz inteligentniejsza każdego dnia, a wraz z nią pojawia się nowe wyzwanie: ochrona naszych treści online przed wykorzystaniem ich do trenowania modeli sztucznej inteligencji bez naszej zgody. Ostatnie badania rzuciły światło na rosnący trend twórców treści podejmujących kroki w celu ochrony swojej pracy. Według badań przeprowadzonych przez Data Provenance Initiative, 5% danych w głównych internetowych bazach danych, takich jak C4, RefinedWeb i Dolma, jest obecnie ograniczone przed robotami indeksującymi sztuczną inteligencję. Co jeszcze bardziej uderzające, liczba ta wzrasta do 25%, biorąc pod uwagę źródła wysokiej jakości. Statystyki te podkreślają rosnącą świadomość i działania podejmowane przez twórców treści w celu utrzymania kontroli nad ich cyfrowym śladem.

Ponieważ firmy zajmujące się sztuczną inteligencją nadal przeszukują Internet w poszukiwaniu danych szkoleniowych, wiele osób i organizacji szuka sposobów na rezygnację z tego procesu. W tym artykule przeanalizujemy różne dostępne metody ochrony treści online przed robotami indeksującymi sztucznej inteligencji i omówimy bieżące wysiłki na rzecz ustanowienia standardów branżowych w zakresie etycznych praktyk szkoleniowych sztucznej inteligencji.

Zanim przejdziemy do dalszej części tego artykułu, nie przegap żadnej z naszych aktualizacji, które obejmują nowe studia przypadków, przewodniki, publikacje i wywiady wypełnione sprawdzonymi faktami i liczbami od odnoszących sukcesy przedsiębiorców zajmujących się marketingiem online. Subskrybuj nasz kanał Telegram i śledź naszą stronę na Instagram już dziś!

Co to jest crawler sztucznej inteligencji?

Crawlery sztucznej inteligencji to roboty internetowe z misją. Te zautomatyzowane programy odwiedzają niezliczone strony internetowe, zbierając informacje na bieżąco. Firmy zajmujące się sztuczną inteligencją używają tych cyfrowych zwiadowców do zbierania ogromnych ilości danych do szkolenia swoich systemów sztucznej inteligencji. Chociaż proces ten doprowadził do znacznego postępu w technologii sztucznej inteligencji, wzbudził również poważne obawy dotyczące prywatności i własności treści.

Nowe sposoby blokowania sztucznej inteligencji

Magiczny przycisk Cloudflare

Amerykańska firma Cloudflare opracowała innowacyjne narzędzie do zwalczania niechcianego gromadzenia danych przez sztuczną inteligencję. Ta nowa funkcja pomaga właścicielom witryn internetowych zapobiegać wykorzystywaniu ich treści przez sztuczną inteligencję bez ich zgody. Jeśli jesteś klientem Cloudflare, możesz teraz aktywować tę ochronę za pomocą prostego kliknięcia przycisku.

John Graham-Cumming, ekspert z Cloudflare, wyjaśnia cel narzędzia:

„Kiedyś pomagaliśmy ludziom powstrzymywać boty przed kopiowaniem ich stron internetowych. Teraz sztuczna inteligencja jest nową granicą, a ludzie chcą mieć kontrolę nad tym, w jaki sposób wykorzystywane są ich treści”.

Jak działa narzędzie Cloudflare

1. Identyfikacja: Cloudflare może wykryć, kto próbuje uzyskać dostęp do strony internetowej, w tym boty sztucznej inteligencji, które się identyfikują.

2. Blokowanie: Po wykryciu crawlera sztucznej inteligencji narzędzie wyświetla komunikat o błędzie, skutecznie blokując dostęp.

3. Inteligentne wykrywanie: Niektóre boty sztucznej inteligencji próbują maskować się jako ludzcy użytkownicy. W przypadku tych podstępnych odwiedzających Cloudflare stosuje zaawansowany system uczenia maszynowego, aby określić, czy jest to naprawdę bot, czy człowiek.

Graham-Cumming donosi, że ta nowa funkcja zyskała znaczną popularność zarówno wśród małych firm, jak i dużych korporacji.

Metody DIY do blokowania crawlerów sztucznej inteligencji

  • Jeśli nie korzystasz z Cloudflare, nie martw się. Nadal istnieją sposoby ochrony treści przed robotami indeksującymi sztucznej inteligencji. Jedną ze skutecznych metod jest modyfikacja pliku w witrynie o nazwie robots.txt. Oto przewodnik krok po kroku:
  • Zlokalizuj i otwórz plik robots.txt w swojej witrynie.
  • Dodaj nazwy firm zajmujących się sztuczną inteligencją, które chcesz zablokować (np. Anthropic, OpenAI).
  • Użyj polecenia „disallow”, po którym następuje dwukropek i myślnik.
  • Wyczyść pamięć podręczną witryny, aby upewnić się, że zmiany zaczną obowiązywać.
  • Zweryfikuj zmiany, dodając „/robots.txt” na końcu adresu swojej witryny w przeglądarce internetowej.

Raptive, amerykańska firma działająca na rzecz twórców treści, wyjaśnia,

„Modyfikacja pliku robots.txt witryny jest standardową metodą określania, które roboty indeksujące mogą uzyskać dostęp do witryny”.

Ważne jest jednak, aby zrozumieć, że metoda ta opiera się na dobrowolnym przestrzeganiu tych instrukcji przez firmy zajmujące się sztuczną inteligencją. Jak zauważa Graham-Cumming,

„Nie mamy formalnej umowy dotyczącej tego, jak to działa ze sztuczną inteligencją. Renomowane firmy zwykle przestrzegają zasad, ale nie są do tego prawnie zobowiązane”.

Opcje rezygnacji specyficzne dla platformy

Wiele firm zajmujących się sztuczną inteligencją, platform treści i serwisów społecznościowych oferuje obecnie własne sposoby rezygnacji z gromadzenia danych:

Meta Sztuczna Inteligencja:

Przed uruchomieniem w czerwcu Meta pozwoliła użytkownikom zrezygnować z wykorzystywania ich publicznych postów do szkolenia sztucznej inteligencji. Firma zobowiązała się również wobec Komisji Europejskiej, że nie będzie wykorzystywać danych użytkowników do „niezdefiniowanych technik sztucznej inteligencji”.

OpenAI:

OpenAI udostępniło kod, którego właściciele stron internetowych mogą używać do blokowania trzech rodzajów botów: OAI-SearchBot, ChatGPT-User i GPTBot. Opracowuje również narzędzie o nazwie Media Manager, które ma na celu zapewnienie twórcom większej kontroli nad tym, w jaki sposób ich treści są wykorzystywane w szkoleniach sztucznej inteligencji.

Kreatory stron internetowych i platformy blogowe:

Popularne platformy, takie jak Squarespace i Substack, oferują teraz proste przełączniki do wyłączania indeksowania przez sztuczną inteligencję. Inne platformy, takie jak Tumblr i WordPress, wprowadziły opcje „zapobiegania udostępnianiu przez osoby trzecie”, które mogą pomóc w ochronie treści przed skrobakami sztucznej inteligencji.

Slack:

Osoby korzystające ze Slacka mogą zrezygnować ze skrobania przez sztuczną inteligencję, kontaktując się bezpośrednio z zespołem pomocy technicznej za pośrednictwem poczty elektronicznej.

Potrzeba jasnych zasad

Obecnie ochrona treści online przed sztuczną inteligencją opiera się w dużej mierze na starym systemie zwanym Robots Exclusion Protocol. Protokół ten został stworzony przez holenderskiego inżyniera Martijna Kostera w 1994 roku, pierwotnie zaprojektowany do zarządzania sposobem, w jaki wyszukiwarki wykorzystują zasoby stron internetowych. Chociaż wiele firm technologicznych przyjęło ten system, nie jest on oficjalnym standardem internetowym. Ten brak standaryzacji oznacza, że różne firmy mogą go interpretować i wdrażać na różne sposoby.

Ta niejednoznaczność doprowadziła do pewnych kontrowersji. Na przykład Amazon prowadzi obecnie dochodzenie w sprawie amerykańskiej firmy zajmującej się sztuczną inteligencją o nazwie Perplexity, podejrzewając ją o wykorzystywanie treści wiadomości online bez odpowiedniego zezwolenia.

Graham-Cumming podkreśla potrzebę jasności:

„Potrzebujemy uniwersalnego systemu w całym Internecie, który jasno określi, czy dane witryny mogą zostać zeskrobane”.

Patrząc w przyszłość

Internet Architecture Board (IAB) podejmuje kroki w celu rozwiązania tych palących kwestii. Zaplanowała ważne spotkania na wrzesień, które zdaniem wielu ekspertów doprowadzą do ustanowienia nowych, kompleksowych zasad gromadzenia i wykorzystywania danych przez sztuczną inteligencję.

Spotkania te zgromadzą interesariuszy z różnych sektorów, w tym firmy technologiczne, twórców treści i obrońców prywatności. Ich celem jest znalezienie równowagi między rozwojem technologii sztucznej inteligencji a ochroną praw twórców treści i prywatności internautów.

Podsumowanie

Ponieważ sztuczna inteligencja staje się coraz lepsza, ochrona treści online stała się bardzo ważna dla twórców, firm i każdego, kto korzysta z Internetu. Fakt, że do 25% dobrej jakości treści online jest obecnie chronionych przed robotami indeksującymi AI, pokazuje, że coraz więcej osób przejmuje się tą kwestią i coś z nią robi.

Dostępne obecnie sposoby ochrony treści, takie jak przycisk blokowania Cloudflare i zmiana plików robots.txt, pomagają niektórym, ale nie są idealne. Nie ma zasad, których wszyscy muszą przestrzegać. Oznacza to, że dobre firmy zajmujące się sztuczną inteligencją mogą uszanować twoje życzenia, ale nie ma gwarancji, że wszystkie to zrobią.

Zbliżające się spotkania IAB są ważnym krokiem w kierunku ustanowienia zasad dotyczących gromadzenia danych przez sztuczną inteligencję. W miarę upływu czasu twórcy treści powinni uczyć się o swoich prawach i narzędziach, których mogą używać do ochrony swojej pracy.

Na razie ludzie i organizacje powinni podjąć działania w celu ochrony swoich treści online. Można skorzystać z usług takich jak Cloudflare, zmienić ustawienia witryny lub skorzystać z opcji rezygnacji na różnych platformach. Są to wszystkie sposoby na zachowanie kontroli nad sposobem wykorzystania cyfrowych kreacji w świecie sztucznej inteligencji.

W miarę jak twórcy treści, firmy technologiczne i twórcy zasad będą rozmawiać, mamy nadzieję na przyszłość, w której sztuczna inteligencja może się rozwijać, a treści mogą być chronione w tym samym czasie. Może to prowadzić do nowych pomysłów, przy jednoczesnym poszanowaniu praw właścicieli treści i prywatności ludzi.

Co sądzisz o artykule