Ilnar Salimzianov's Personal Site
Read in English
Расширьте возможности вашего языка: давайте создавать его
цифровое будущее вместе с Mozilla
Впервые опубликовано: 24 июля 2025 г. Последнее обновление: 1
августа 2025 г.
21 июля 2025 года я начал работу в новой роли — Регионального
исследователя языков, как независимый подрядчик для Mozilla
Foundation. В течение следующих шести месяцев я сосредоточусь на
проекте, который, я уверен, жизненно важен для будущего наших
языков. Я хочу рассказать вам об этой инициативе и объяснить, что
она даст вам.
Note: Я являюсь независимым подрядчиком, а не сотрудником Mozilla.
Все высказанные здесь взгляды являются моими собственными.
Что такое Mozilla Data Collective (MDC)?
Многие из нас знают Common Voice, новаторский проект Mozilla по сбору
речевых данных с помощью краудсорсинга. Его успех — свидетельство
того, чего может достичь мировое сообщество. На сегодняшний день в
рамках проекта собрано более 33 816 часов записанной речи
на 137 языках.
Mozilla Data Collective (MDC) — это следующий шаг в этом
видении. Представьте себе Common Voice, но для всех типов
языковых данных, а не только для речи. Основная философия —
Создавай, Курируй, Контролируй. Это платформа, которая
позволяет отдельным лицам и сообществам предоставлять данные на
своих условиях, возвращая власть в руки создателей данных.
Два ключевых отличия от Common Voice:
- Более широкие типы данных: Мы ищем:
- текстовые корпусы,
- аудио для систем синтеза речи (TTS) (обычно: один
диктор, читающий длинные отрывки текста),
- аудио для систем распознавания речи (STT) (обычно: много
дикторов, читающих короткие отрывки текста),
- и многое другое. Всё, что необходимо для создания
полного набора инструментов ИИ для языка.
- Гибкое лицензирование: Вы всё контролируете. Хотя
открытые лицензии приветствуются, вы можете добавлять ограничения
(например, некоммерческое использование) или даже предоставлять
платный доступ.
Почему стоит внести свой вклад? Что это даст вам?
Ваша мотивация будет зависеть от того, кто вы. Вот как MDC может
принести вам прямую пользу:
Для исследователей, учёных и лингвистов
- Видимость и влияние: Ваши наборы данных получат более
широкую аудиторию в сообществе ML/AI, что приведёт к большему
количеству цитирований и большему влиянию вашей работы.
- Бесплатный и безопасный хостинг: MDC предоставляет
стабильное, долгосрочное место для ваших ценных данных,
гарантируя, что они останутся доступными для поиска и
использования на долгие годы.
- Упрощённый вклад: Если ваши данные не в
машиночитаемом формате, я могу помочь. Моя роль — помогать в
очистке, конвертации и документировании наборов данных, чтобы
сделать их пригодными для коллектива.
Для создателей контента, журналистов и издателей
- Стимулируйте инновации на вашем языке: Предоставляя
контент (например, архивы статей, аудио подкастов), вы даёте
сырьё для создания лучших инструментов ИИ для вашего родного
языка.
- Расширьте свой охват: По мере совершенствования
инструментов ИИ для вашего языка ваш контент становится более
доступным для мировой аудитории.
- Обеспечьте будущее вашего контента: Превратите ваши
существующие архивы в ценный актив, который напрямую способствует
цифровой жизнеспособности вашего сообщества.
Для языковых активистов и сообществ
- Цифровой суверенитет: Обеспечьте процветание вашего
языка в цифровую эпоху. MDC предоставляет языковым сообществам
путь к созданию и контролю над фундаментальными данными,
необходимыми для их собственного технологического будущего.
- Расширение прав и возможностей местных талантов:
Благодаря доступным данным местные разработчики могут создавать
продукты, отвечающие потребностям сообщества.
- Сохраняйте и контролируйте своё наследие: Вы можете
применять ограничения доступа к вашим наборам данных, гарантируя,
что они используются в соответствии с ценностями вашего
сообщества.
Какие данные мы ищем?
Мы заинтересованы в наборах данных, достаточно больших для
современных задач НЛП. Идеальные вклады включают:
- Текстовые корпусы: Сборники современного текста
объёмом не менее 500 тыс. токенов для создания языковых моделей.
- Аудио для ASR/TTS: Не менее 5-10 часов аудио в паре
с орфографическими транскрипциями. Даже данные только с аудио
полезны для речевых языковых моделей.
- Корпусы интервью: Транскрибированные записи полевых
исследований невероятно ценны. Мы гарантируем соблюдение любых
ограничений доступа.
- Параллельные корпусы: Наборы данных с ~100 тыс.
параллельных предложений для машинного перевода.
Если в ваших данных используются несколько орфографий или они в
необработанном формате (например, файлы ELAN), не волнуйтесь. Если
они хорошо задокументированы, они, скорее всего, подойдут для MDC.
Моя роль и географический фокус
Как независимый подрядчик, я сосредоточен на поиске наборов
данных для языков Большой Центральной Азии и Кавказа. Сюда
входят такие языки, как:
- Turkish, Azerbaijani, Turkmen, Uzbek, Kazakh, Kyrgyz, Tatar
- Kurdish, Persian (Farsi), Pashto, Dari
- Georgian, Armenian, Chechen, Avar
- Mongolian, и многие другие в регионе.
Даже если ваш язык не указан в списке, пожалуйста, свяжитесь со
мной. Цель Mozilla — поддерживать все языки, и я могу связать вас с
нужным коллегой.
Давайте сотрудничать!
Я всю свою карьеру работал над вычислительными инструментами для
наших языков, часто при государственной поддержке. Я рассматриваю
эту работу с Mozilla как способ отдать долг и помочь создать более
справедливый цифровой мир.
Крупные технологические компании не спасут наши языки — это
сделаем мы, носители. Инициативы, подобные MDC, дают нам возможность
строить
будущее, которого мы хотим. Ваш вклад может иметь огромное
значение.
Если у вас есть или вы знаете о наборе данных, который мог бы
подойти, пожалуйста, свяжитесь со мной. Я здесь, чтобы ответить на
ваши вопросы и взять на себя техническую часть работы.
Вы можете связаться со мной напрямую по электронной почте
mdc.ilnar@gmail.com или
заполнив форму для выражения заинтересованности ниже.
Дополнительная информация
Вы можете прочитать официальное объявление о Mozilla Data Collective на форуме
Common Voice Discourse.
Home |
Resume |
Projects |
Publications |
Talks |
Reading log |
Movies log |
Now |
Email