Телеграм канал 'Deep Dive 2 Deep Learning'

Deep Dive 2 Deep Learning


386 подписчиков
73 просмотров на пост

Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только

Детальная рекламная статистика будет доступна после прохождения простой процедуры регистрации


Что это дает?
  • Детальная аналитика 5'655'650 каналов
  • Доступ к 1'533'798'153 рекламных постов
  • Поиск по 5'914'658'483 постам
  • Отдача с каждой купленной рекламы
  • Графики динамики изменения показателей канала
  • Где и как размещался канал
  • Детальная статистика по подпискам и отпискам
Telemetr.me

Telemetr.me Подписаться

Аналитика телеграм-каналов - обновления инструмента, новости рынка.

Найдено 345 постов

🤖💡Подход для коррекции языковых моделей
Галлюцинация — это большая тень, нависшая над быстро развивающимися мультимодальными моделями (MLLM), относящаяся к явлению, заключающемуся в том, что сгенерированный текст несовместим с содержимым изображения.
Большие языковые модели могут вызывать галлюцинации и генерировать ложную информацию, что приводит к потенциальной дезинформации и путанице.
Woodpecker - новый метод для борьбы с галлюцинациями в современных исследованиях, который не требует переобучения модели
Woodpecker состоит из пяти этапов: извлечение ключевой концепции, формулировка вопросов, проверка визуальных знаний, формирование визуальных утверждений и коррекция галлюцинаций. Woodpecker может легко обслуживать различные MLLM, при этом его можно интерпретировать, получая доступ к промежуточным результатам пяти этапов.

😱🤖LLM управляют компьютером
Open Interface - это инструмент, который позволяет управлять любым компьютером через LLM.
Сервис может выполнять такие функции, как:
1. Самостоятельно управлять компьютерами, посылая пользовательские запросы в бэкэнд LLM (GPT-4V и т.д.) для определения необходимых действий.
2. Автоматически выполнять действия, имитируя ввод с клавиатуры и мыши.
3. При необходимости корректировать курс, отправляя LLM текущий скриншот компьютера.
Более подробное руководство по установке представлено для MacOS, Linux и Windows по этой ссылке.

🤖Бенчмарк для оценки безопасности AI-моделей
AI Safety - некоммерческий проект MLCommons, занимающийся созданием и поддержкой бенчмарков, широко используемых в ИИ-индустрии
AI Safety v0.5 находится на стадии proof-of-concept и позволяет оценивать большие языковые модели (LLM), стоящие за современными чат-ботами, анализируя ответы на запросы из «опасных категорий». Необходимость в появлении такого инструмента давно назрела, поскольку технологию оказалось довольно легко использовать в неблаговидных и даже опасных целях. Например, можно применять для подготовки фишинговых атак и совершения других киберпреступлений, а также для распространения дезинформации и разжигания ненависти.
Бенчмарк включает более 43 тыс. промтов. Методика позволяет классифицировать угрозы, конвертируя ответы в понятные даже непрофессионалам характеристики, вроде «высокий риск», «умеренно-высокий риск» и т.д. При этом разработчики заявляют, что LLM чрезвычайно трудно оценивать по ряду причин.

🤖💡Стартап, способный перевернуть медицину
Медицина переворачивается благодаря нейросети OpenCRISPR - она может изменять ДНК человека как детали LEGO.
OpenCRISPR-1 - это созданный ИИ генный редактор, состоящий из Cas9-подобного белка и направляющей РНК, полностью разработанный с помощью больших языковых моделей (LLM) компании Profluent. Белок OpenCRISPR-1 сохраняет прототипическую архитектуру нуклеазы Cas9 типа II, но на сотни мутаций отличается от SpCas9 или любого другого известного природного CRISPR-ассоциированного белка.
Таким образом, OpenCRISPR-1 можно использовать в деактивированном или никейном формате для редактирования генов следующего поколения, таких как редактирование оснований, праймов или эпигенома.

🤖🔎Модель LLM Reka Core от стартапа Reka
Стартап Reka, основанный бывшими разработчиками DeepMind, представил свою последнюю разработку в области искусственного интеллекта — мультимодальную языковую модель (LLM) под названием Reka Core. Данная нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
Reka Core обладает впечатляющим контекстным окном на 128 000 токенов и поддерживает обработку данных на 32 языках, что делает её одной из самых мощных и универсальных систем на рынке. Как отмечают разработчики, эта функциональность открывает новые возможности для разработчиков и исследователей в области ИИ, позволяя модели эффективно справляться с задачами обработки больших объемов разнообразных данных.
В ряде мультимодальных оценок Reka Core продемонстрировала результаты, превосходящие показатели таких известных моделей, как Claude 3 Opus и Gemini Ultra. Особенно заметно это стало в области обработки видеоконтента, где Reka Core вышла на первое место, превзойдя Gemini Ultra. Кроме того, модель показала конкурентоспособные результаты с GPT-4 в задачах по пониманию изображений, что свидетельствует о высоком качестве и универсальности разработки.

🤖Анонс альфа-версии библиотеки torch tune от Pytorch
torchtune - это библиотека, созданная на базе PyTorch для файнтюнинга LLM.
Даный фреймворк сочетает в себе функции файнтюнинга, которые можно использовать, экономя память. По словам разработчиков, они будут легко интегрироваться в любые инструменты. Доступный функционал библиотеки:
1. Загрузка и подготовка наборов данных и контрольных точек модели
2. Настройка обучения с помощью композитных строительных блоков, поддерживающих различные архитектуры моделей, методы эффективной тонкой настройки параметров (PEFT) и многое другое
3. Ведение журнала прогресса и метрик для получения информации о процессе обучения
4. Оценка точно настроенной модели на популярных бенчмарках
5. Запуск локальных выводов для тестирования настроенных моделей
6. Совместимость контрольной точки с популярными производственными системами вывода
С деталями анонса можно ознакомится по данной ссылке.

🤖💡Инструмент для решения множества задач извлечения и унификации информации
Mirror - это модель, которая решает задачи извлечения и унификации информации из текстов.
Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.
Модель способна решать такие задачи, как:
1. Распознавание именованных сущностей
2. Извлечение связей между сущностями
3. Извлечение событий
4. Аспектно-ориентированный анализ настроения
5. Многопространственное извлечение (например, Discontinuous NER)
6. N-арное извлечение (например, Hyper Relation Extraction)
7. Экстрактивное машинное понимание прочитанного (MRC) и ответы на вопросы
8. Классификация и MRC с несколькими вариантами ответов

🤖💡Преобразование плоской картинки в 3D-модель
DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).
DUSt3R не требует калибровки камеры или данных о точке обзора
Ключевые возможности DUSt3R:
1. Работа с произвольными коллекциями изображений
2. Интеграция монокулярных и бинокулярных методов реконструкции с помощью регрессии точечных карт
3. Выравнивание многоракурсные карты точек в общую систему координат
4. Использование кодеров/декодеров с предварительно обученными моделями

😎🤖Огромный список репизиториев open-source LLM-моделей и не только
На гитхабе появился весьма внушительных размеров список с открытыми репозиториями различных LLM-моделей и не только: от разработки ML-пайплайнов до обработки различных текстов .
Также имеется отдельная таблица с описанием данных репозиториев. Таблицу можно найти по этой ссылке.

😎🤖Подборка ИИ-моделей для работы с видео
MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео. Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео. Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.
MA-LMM - большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео. Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления. Модель обучается на смешанном наборе данных, содержащем как изображения, так и видео, что позволяет напрямую применять его к задачам, включающим оба носителя, без каких-либо модификаций.
CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.
Video-LLaVA - демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.

📖Написать комикс со своим сюжетом теперь достаточно просто
AI Comic Factory предлагает удобный интерфейс и оптимизированные инструменты. Независимо от того, ребенок вы или взрослый, интуитивно понятный дизайн позволяет без труда создавать персонализированные комиксы.
AI Comic Factory обеспечивает простой и интуитивно понятный интерфейс, который позволяет пользователям легко создавать уникальные сюжеты и диалоги для своих комиксов.
Сервис может сгенерировать любые сюжеты и даже визуализировать сны. В общем, достатчно написать промт и вуаля - новый комикс.

💡🤖Модель для генерации похожих лиц
Arc2Face - это модель основы лица с уникальной идентичностью,учитывая встраивание человека в ArcFace, способна создавать многообразные фотореалистичные изображения с высокой степенью схожести лиц, превосходящей существующие модели.
Arc2Face для управления генерацией необходимы только отличительные функции ArcFace.
Таким образом, Arc2Face предлагает надежную основу решения для множества задач, где согласованность идентификаторов имеет первостепенное значение.
🤖💡🔎Локальная система метапоиска

LLocalSearch - это проект, который представляет собой систему метапоиска, использующую LLM-агентов.
Пользователь может задать вопрос, и система будет использовать цепочку ИИ-агентов для поиска ответа. Пользователь может видеть прогресс работы и окончательный ответ. При этом нетребуется никаких ключей или токенов доступа от OpenAI или Google API.

▪️Github

💡🤖😎ИИ, который поможет составить план к обучению
Learn Anything – это ИИ-сервис, который помогает пользователям находить инструменты, необходимые им для изучения всего, что они хотят. Нейронная сеть преобразует абстрактные желания и запросы в структурированный учебный план, предоставляя статьи, руководства и видеоуроки.
Просто введя в текстовое поле то, что они хотят узнать, пользователи увидят карту со ссылками на веб-сайты с информацией, необходимой им для достижения их цели.


Найдено 345 постов