Исследователи разоблачили, что ИИ-модель Meta Llama 3.1 нарушает авторские права - она может вспомнить 42 процента первой книги о Гарри Поттере

Недавно исследование Stanford, Cornell и West Virginia University показало, что модель Meta Llama 3.1 (70B), выпущенная в июле 2024 года, сознательно запомнила 42% первой книги о Гарри Поттере так, что может воспроизвести отрывки по 50 токенов с вероятностью более 50%. То есть, мродель не просто помнит сюжет - она может воспроизвести целые куски текста, если ей дать первое предложение. Для сравнения, старая модель помнила всего 4.4 %.
Что произошло
Группа исследователей проверила, насколько сильно новая Llama "залипла" на книгах. Оказалось, если текст очень популярен (типа "Гарри Поттера" или "Хоббита"), то ИИ может повторить большие куски. А вот менее известные книги (например, "Sandman Slim") - не вызывали у него особого энтузиазма: там модель помнила менее 1 %.
Учёные использовали специальный метод, который показывает, насколько модель уверена в каждом следующем слове - и эта уверенность была так высока, что стало понятно: она это точно видела раньше.
Как это измеряли
Использовали метод анализа вероятностей следующих токенов: если, подложив первые 50 токенов из отрывка, модель воспроизводит следующие - это считалось признаком запоминания
Почему это важно
- Потому что книги защищены авторским правом, и ИИ не должен просто так воспроизводить их, как принтер.
- Если он может повторить "Гарри Поттера" по памяти, то в будущем легко будет сгенерировать целые книги, которые выглядят как копия, но с новым именем.
- Это уже не учеба, а Ctrl+C и Ctrl+V, и у юристов сразу включился режим "ага, вас поймали!".
Почему так произошло?
Потому что Meta обучала эту модель на 15 триллионах слов - это очень-очень много. Возможно, в тренировку попали не просто книги, а форумы, фан-сайты и рецензии с цитатами - чем чаще текст появлялся в датасете, тем чаще его влияние на модель.
И что теперь?
Если юристы докажут, что ИИ воспроизводит тексты почти дословно - это может означать большие проблемы для Meta. Особенно потому, что их модель открыта, и все могут это проверить. Закрытые языковые модели (OpenAI, Anthropic и Google) тоже могут иметь аналогичные проблемы, но доказать это гораздо сложнее. Это затрудняет для Meta защиту на базе fair use - суд может расценить память как доказательство того, что модель создает производное из большой части текстов. Так же трудно будет сказать, что это все "не более чем шаблоны" .
Иронично, но прозрачность, которой создатели Llama гордятся, теперь может сыграть против них.
То есть, теперь эта языковая модель может принести Meta реальные судебные дела, потому что она "зашарила" тексты, которые не должна была бы помнить настолько точно. С одной стороны, суд может ужесточить требования к open-weight моделям: "предоставьте веса - получите доказательство против себя". С другой - на это могут обратить внимание институты и суды, которые ценят прозрачность. Meta и другие могут использовать это как аргумент за то, что открытость - это "сервис" и "ответственность"
Источник: understandingai.org