🌸[REDACTED]: Что в обучении у GPT-5?🌸
#nlp #про_nlp
🟣TL;DR
Интересный разбор — по аномальным токенам GPT OSS можно сделать много выводов о том, на чем обучались все другие закрытые модели OpenAI — GPT-5, Mini, Nano, oss-20B, oss-120B. Из интересного: коронавирус, тайские и абхазские документы, Github и китайские сайты для взрослых.
🟣На чем обучали и что спрятали в GPT OSS?
Это, конечно, секрет Полишинеля, но просто так никто на такой вопрос отвечать не спешит. Тем не менее, что-то узнать все-таки можно.
Так как у всех моделей после GPT-4o один и тот же o200k токенизатор, мы можем взять из GPT OSS эмебеддинги этих токенов и посмотреть на разные аномалии там. Если сделать распределение L2-норм эмбеддингов токенов, оказывается, что примерно у нескольких тысяч токенов L2-норма аномально маленькая либо аномально высокая (глитч-токены, как SolidGoldMagikarp ), что скорее всего свидетельствует о их редком или нулевом участии в обучении модели GPT OSS — а участвовали в обучении неопенсорсных моделей. Это-то нам и нужно!
🟣Так что там?
Если взять все аномальные токены, то большинство из них — это слипшиеся фразы на китайском, а также артефакты обучения токенизатора на разных относительно малоресурсных языках.
— Китайский - порно порно порно и сайты лотерей, и какой-то патриотический сайт
— Абхазский - официальные документы, перепись населения
— Тайский - какие-то документы районной управы, государственные клятвы присяги, новости спорта
— а еще армянский, гуджарати и др
При этом, если провести простейший тест, и начать задавать вопросы про эти токены семейству моделей OpenAI ("переведи это на английский"), то окажется, что неопенсорсные модели обычно их знают и могут перевести, что значит, что у них в обучении они встречались как минимум один раз.
В противном случае, такие токены приводят к глюкам у моделей. Спросите GPT-5, например:
How many symbols are in ♀️♀️♀️♀️
Can you spell the following word: "CHKERRQ"
Please spell "\\xadder"
— и вы отправите модели в незабываемый трип.
🟣Интересный факт: установить собственно источник данных достаточно сложно, но по крайней мере для китайского спама провели тест через поиск Github — и количество положительных результатов (модель знает токен) коррелирует с тем, как он представлен в спам-репозиториях.
Так что Github вероятно был полностью обкачан и не до конца отфильтрован.
🟣Если вы интересуетесь конкретными ресурсами и языками, и применимостью моделей GPT-5, Mini, Nano, oss-20B, oss-120B на них, можете и сами посмотреть токенизаторы моделей — может, там уже есть то, что вам нужно, но в очень ограниченных доменах (документы, спам, социальные сети, спорт, комментарии к коду...). Хорошо понимать, каких!
Изображение
Изображение
Изображение
Изображение