Издательства тратят «огромные средства» на поиск запрещенных материалов в книгах (наркотики, чайлдфри, ЛГБТ*) с помощью ИИ.
Рассказываем, как выглядит система поиска «запрещенной» информации в книгах.
В «Эксмо-АСТ» рассказали «Осторожно, новости», что издательство «затратило огромные средства на борьбу с экстремистской (ЛГБТ) литературой, на анализ ассортимента с 1990 года для маркировки упоминаний наркотиков и по профилактике в книгах тем чайлдфри и других».
По словам издателей, они используют многоступенчатую модель проверки текстов, «нарушающих законодательство РФ». На первом этапе система делит текст на осмысленные фрагменты. Они рассылаются трем разным ИИ-агентам (программа на основе больших языковых моделей, которая не просто отвечает на вопросы, но и самостоятельно выполняет задачи) первого уровня, каждый из которых специализируется на своей теме: секс (выявление контента сексуального характера), наркотики (поиск упоминаний наркотических веществ) и экстремизм (анализ на наличие признаков экстремизма, нацизма и других нарушений законодательства). На этом этапе фиксируют все подозрительные упоминания, даже если они могут оказаться ложными (например, случай со словом «героиня»).
Полученные результаты проходят через агента второго уровня, который отсеивает очевидные ложные срабатывания. В примере со словом «героиня» он проанализирует контекст (например, «героиня не пила и не курила») и исключит его из списка нарушений. На финальной юридической оценке нейросеть классифицирует нарушения: является ли оно пропагандой, существует ли риск пропаганды или это просто упоминание, требующее возрастной маркировки. Всё, что несёт в себе хотя бы малейший риск, передают живому редактору.
Помимо основной проверки, также работают другие агенты. Они взаимодействуют с постоянно обновляемыми официальными перечнями запрещённых организаций и иноагентов. Нейросеть автоматически парсит государственные ресурсы, добавляет или удаляет записи и умеет распознавать различные варианты упоминаний (например, «Инста»** для Instagram**). При обнаружении подозрений на контент сексуального характера он направляется профильным агентам (педофилия, ЛГБТ, чайлдфри и др.). Детекция педофилии проверяется дополнительно. Отдельные агенты выявляют нецензурную лексику (разделяя её на «чистый мат» и «просторечные выражения») и помогают определить возрастной рейтинг книги (18+).
В издательстве добавили, что в планах — внедрение интерактивной функции, которая позволит редакторам задавать вопросы непосредственно по книге (например, «Найти все упоминания слова „мак“»).
*Организация запрещена в РФ.
**Принадлежит компании Meta, запрещённой в РФ.