Безопасность и уязвимости в AI / LLM / ...

Здесь будет подборка интересных (на мой взгляд) ссылок на вопросы безопасности. Интересные ссылки-статьи можете выслать на xenon (собака) sysattack.com, помещу сюда.

Chat GPT “DAN” (and other “Jailbreaks”)

Все Jailbreak устаревают, но интересны как примеры, как заставить ChatGPT обходить его ограничения

https://www.schneier.com/blog/archives/2023/07/automatically-finding-prompt-injection-attacks.html

https://www.reddit.com/r/ChatGPT/comments/10rtwc5/jailbreak_hub/?onetap_auto=true https://gist.github.com/coolaj86/6f4f7b30129b0251f61fa7baaa881516 https://futurism.com/amazing-jailbreak-chatgpt https://www.cnbc.com/2023/02/06/chatgpt-jailbreak-forces-it-to-break-its-own-rules.html https://docs.kanaries.net/articles/chatgpt-jailbreak-prompt

Prompt Injection

Общая проблема, как я ее вижу: Нейросеть научена на обычных текстах, а не на “хакерских”, и в принципе не может надежно “искать ловушки”. Поэтому, если вы указываете ей какой-то свой текст, а потом она берет какие-то данные откуда-то еще (с сайта, из загруженного вами файла), она получает в результате просто более длинный текст. И куски текста вставленные туда “откуда-то” - это такие же равноправные куски текста. Она как бы не умеет строго подсчитывать скобочки, не слишком понимает, что вот с этого места идет включенный текст и ему нельзя доверять, а тут рыбу заворачивали. Если даже такую инструкцию добавить, в тексте может быть инструкция, чтобы забыть про это. Вроде бы ему сказали эту вторую инструкцию игнорировать, но она ведь говорит, что ее нельзя игнорировать! :-)

Prompt Injection через Youtube / Google Docs

https://www.tomshardware.com/news/gdocs-ai-open-to-prompt-injection

https://www.tomshardware.com/news/chatgpt-vulnerable-to-youtube-prompt-injection

Never gonna give you up

Взлом локальной машины (sandbox) Chat GPT с данными пользователя через Prompt Injection

https://www.tomshardware.com/news/chatgpt-code-interpreter-security-hole

Кратко - на каждую вашу сессию в ChatGPT, он запускает у себя небольшую виртуалку, в которой выполняет некоторые действия. Например, если вы просите обработать какой-то файл и аплоадите его - тот файл загружается в эту машину. Машинка работает под Ubuntu, домашний каталог - /home/sandbox, загруженные файлы доступны в /mnt/data.

Если просите данные с сайта (например, сайт погоды) - он с той вашей машины (где есть ваш важный файл) лезет на указанный вами сайт (хороший, как вам казалось), берет оттуда данные, вставляет их в prompt И ИСПОЛНЯЕТ его! Часть промпта - ваша, а часть с сайта.

data stolen

Обратная уязвимость(!) с лишними пальцами

Достаточно долго картинки от генеративных сетей имели отличительную фишку - они не умели рисовать пальцы (Кстати, тут интересно, что и наши человеческие художники тоже долгое время не могли качественно отрисовать кисти рук, большинство шедевров далекого прошлого сделаны “без рук”, потому что правдоподобно их нарисовать - сложно). Нейросети вроде уже научились более-менее качественно рисовать пальцы (ну или проблемы можно купировать через Negative Prompt), но это осталось “визитной карточкой” сгенерированных картинок.

На vc.com появилась любопытная статья 15 советов, как определить, является ли изображение сгенерированным нейросетью, но особенно любопытна не сама статья, а комментарий к ней!

Появилась городская легенда, что преступники стали носить протезы, чтобы доказательства с камер выглядели как будто они были сфабрикованы нейросетью

image with extra finger

Вот это уже очень интересно! Если мы думали “как нейросети изменят мир” и боялись, что появятся фейковые картинки, то атака случилось с обратной стороны! Как теперь доказать, что реальная фотография в самом деле реальная? Особенно если на ней есть элемент, явно похожий как мелкий дефект сгенерированной картинки? (хотели подделать доказательство, халтурно проработали, не заметили маленький дефект). Теперь даже фото и видео из “настоящих” источников должно быть как-то подтверждено, что оно из настоящих.

Безопасность и уязвимости в AI / LLM / ....

Chat GPT “DAN” (and other “Jailbreaks”)

Prompt Injection

Prompt Injection через Youtube / Google Docs

Взлом локальной машины (sandbox) Chat GPT с данными пользователя через Prompt Injection

Обратная уязвимость(!) с лишними пальцами