dimatorzok.com

Кто такой DimaTorzok?

Короткий ответ: это не человек. «Субтитры сделал DimaTorzok» — это галлюцинация ИИ-распознавания речи (модели Whisper от OpenAI). Когда в аудио наступает тишина или шум, модель не молчит, а «додумывает» текст — чаще всего подпись автора субтитров, которой на самом деле нет. Никто эти субтитры не делал.

Где появляется эта фраза

Вы могли встретить её при автоматической расшифровке речи в:

Общее у всех случаев — в этот момент в записи была пауза, тишина или музыка.

Почему ИИ это пишет

Whisper обучали примерно на 680 000 часов аудио с уже готовыми субтитрами — в том числе с YouTube и из пиратских раздач. В конце таких видео на фоне тишины часто стоит строка вроде «Субтитры сделал …». Модель запомнила закономерность: тишина в конце ≈ подпись автора. Поэтому, встретив пустой участок, она «уверенно» дописывает то, что по её опыту обычно там и бывает.

Это называется галлюцинацией модели — выдуманный текст, которого в аудио не было. Тот же баг существует и в других языках: турецкий «Altyazı M.K.», чешский «Titulky vytvořil JohnyX», арабский «ترجمة نانسي قنقر». Просто имя в подписи другое.

Развенчание: он НЕ заскамил нейросети

В соцсетях гуляет красивая версия: будто DimaTorzok «сделал так, что ИИ воспринимает тишину как его цифровой отпечаток, и заскамил все генераторы». Это неправда.

Никакого внедрения, взлома и «отпечатка» не было. Реальный автор по имени DimaTorzok когда-то делал субтитры и подписывал свою работу — обычная практика. Его подписи случайно попали в обучающую выборку Whisper вместе с миллионами других субтитров. Скучнее, чем миф, но именно так это и работает: не злой умысел, а неубранный мусор в данных обучения.

А был ли реальный DimaTorzok?

Похоже, да — это псевдоним человека, который добровольно делал субтитры к чужим видео и подписывал их. Из-за того, что его подпись попала в данные обучения, имя теперь «живёт» внутри модели и всплывает у тысяч людей по всему миру. Мы рассказываем о техническом феномене и не публикуем личных данных и домыслов о конкретном человеке (см. disclaimer).

Как это убрать

Строку-подпись можно удалить вручную, но если она всплывает регулярно — проще прогнать текст или файл субтитров через нашу бесплатную чистилку. Она знает известные фразы-галлюцинации (на русском и других языках) и убирает их, сохраняя тайм-коды.

Частые вопросы

DimaTorzok — это вирус или взлом?

Нет. Это безобидный артефакт работы модели распознавания речи. Он не вредит файлам и не связан со взломом — просто лишний текст, который нужно удалить.

Почему именно в моём голосовом он появился?

Скорее всего, в начале или конце записи была пауза/тишина (например, вы не сразу остановили запись). На пустом участке модель и «дорисовала» подпись.

Можно ли сделать так, чтобы это не появлялось?

Да — на стороне распознавания помогает фильтрация тишины (VAD) перед транскрибацией и пост-обработка. Если делаете субтитры в редакторе, проще удалять такие строки автоматически (см. инструмент) или использовать сервисы, которые чистят это сами.

Это бывает только на русском?

Нет. Whisper галлюцинирует подписи на многих языках: «Subtitles by…», «Altyazı M.K.» (тур.), «Titulky vytvořil JohnyX» (чеш.), «ترجمة نانسي قنقر» (араб.) и др. Наша чистилка ловит набор таких сигнатур.