Ночное-полезное: тул, который автоматом снимает цензуру с языковых моделей 💃
Полезная штука для тех, кто любит ковырять LLM поглубже, чем разрешает «моральный компилятор» внутри модели 🤨
Что умеет:
— Полностью автоматический decensor через directional ablation;
— Подбирает параметры сам (Optuna TPE), ничего настраивать не надо;
— Срезает отказы, но почти не трогает мозги модели — низкий KL;
— Работает с dense и multimodal моделями, MoE тоже ест;
— Можно юзать даже без понимания, что такое attention head 😂
Осторожно, штука мощная