ИИ-модели портят большие документы во время долгой работы.
ИИ-модели портят большие документы во время долгой работы.
У нас тут очень интересный случай — препринт от исследователей MS, но при этом не подписанный как MS Research Paper.
Обычный тест — сделать 2-3 правки в большом документе и на этом закончить. Теста на долгое сохранение документа в порядке не было. Тут решили сделать цикл из 20 разных правок и откатов.
- Нейросети дают документ и просят сделать правку (например, раздели этот список покупок на категории).
- Дальше нейросети дают получившийся файл и просят сделать обратную правку (собери все категории обратно в один список в хронологическом порядке).
- В идеале финал и старт должны быть по фактам одинаковые.
Там нет логического разделения, создания новых смыслов и т.п. — только, условно, перестановка абзацев и предложений. Тест называется DELEGATE-52, потому что в нём 52 профессиональные области от Питона до рецептов. База — документы от 2000 до 5000 токенов (то есть около 20 тысяч знаков).
Посмотрели 19 LLM, включая передовые. Ни одна модель не справилась с задачей без потерь.
— В среднем по всем моделям терялось около 50% исходных данных. — Передовые модели (это Gemini 3.1 Pro, Opus 4.6, последний на тот момент ChatGPT) испортили или потеряли в среднем четверть данных. — Слабые модели (и старые версии) просто удаляют куски текста. Они “забывают” переписать часть документа. Сильные модели почти ничего не удаляют, но они искажают факты. Это даже веселее. — Программирование на Питоне оказалось единственной сферой из 52, где большинство нейросетей справились отлично (сохранили 98% данных). — Проверили, станет ли лучше, если дать инструменты (возможность писать код, открывать и сохранять файлы самостоятельно, как это делают продвинутые ИИ-агенты). Оказалось, что использование специализированных агентов делает результат ещё на 6% хуже. — Чем больше документ, тем быстрее копятся ошибки. Документ на 10 тысяч токенов разрушается в 5 раз сильнее, чем документ на 1 тысячу токенов. — Если в рабочую папку добавить сторонние, не относящиеся к делу файлы (для реалистичности), качество работы ИИ падает еще на 2–8%. — Это не “каждый раз теряем по проценту”. Модели какое-то время работают идеально, а потом за один шаг теряется от 10% до 30% всего документа. Именно эти редкие, но огромные ошибки дают 80% всех потерь в эксперименте.
Мораль: кто-то слишком дофига умный и ленивый )
В случае картинок на потери 70-80% достаточно 3 шагов.
Авторы Филипп Лабан, Тобиас Шнабель и Дженнифер Невилл. Это чуваки из Microsoft Research — одного из самых крутых научных подразделений по ИИ. Как мы уже говорили, дока не подписана MS, поэтому вопросов пока больше, чем ответов. Может, просто методология кривая, к Питону надо добавить Node.js и Фортран, а, может, надо дождаться момента, когда OpenAI-модель будет побеждать в тесте.
Ну и остался один вопрос — а как с тестом справляются живые люди. Ответ — а тоже через жопу! Это “замыленный глаз”. Профессиональные редакторы знают, что после нескольких часов работы над одним документом перестают замечать собственные опечатки и логические разрывы. Программисты через 5 часов без кофе, за который не заплатила компания, уже говнокодят. Водители и врачи после долгой смены поставляют клиентов друг другу… Короче, вы поняли. Базовая проблема, что сознание дрейфует, ошибки накапливаются — не уникальна для LLM.
Но люди придумали способы обхода: — Отложенная вычитка (надо ещё раз глянуть через 2 дня) — Метакогниция (так, я устал, надо собраться и проверить ещё раз) — Агентность (отдам на кросс-ревью) — TDD (покрытие тестами раньше результата) — Всякие diff-инструменты — Чеклисты — особенно в авиации и медицине.
То есть люди продолжают портить документы, но умеют ловить испорченное до того, как выпускать наружу. Вероятно, если добавить ещё одну модель, которая следит за всем этим, будет проще и с LLM.
— Вступайте в ряды Фурье! | Самые улётные посты В Бутане совсем нет светофоров. Из-за этого жители Бутана не могут доказать, что они не роботы.