Ilnar Salimzianov's Personal Site


Read in English

Расширьте возможности вашего языка: давайте создавать его цифровое будущее вместе с Mozilla

Впервые опубликовано: 24 июля 2025 г. Последнее обновление: 1 августа 2025 г.

21 июля 2025 года я начал работу в новой роли — Регионального исследователя языков, как независимый подрядчик для Mozilla Foundation. В течение следующих шести месяцев я сосредоточусь на проекте, который, я уверен, жизненно важен для будущего наших языков. Я хочу рассказать вам об этой инициативе и объяснить, что она даст вам.

Note: Я являюсь независимым подрядчиком, а не сотрудником Mozilla. Все высказанные здесь взгляды являются моими собственными.

Что такое Mozilla Data Collective (MDC)?

Многие из нас знают Common Voice, новаторский проект Mozilla по сбору речевых данных с помощью краудсорсинга. Его успех — свидетельство того, чего может достичь мировое сообщество. На сегодняшний день в рамках проекта собрано более 33 816 часов записанной речи на 137 языках.

Mozilla Data Collective (MDC) — это следующий шаг в этом видении. Представьте себе Common Voice, но для всех типов языковых данных, а не только для речи. Основная философия — Создавай, Курируй, Контролируй. Это платформа, которая позволяет отдельным лицам и сообществам предоставлять данные на своих условиях, возвращая власть в руки создателей данных.

Два ключевых отличия от Common Voice:

Почему стоит внести свой вклад? Что это даст вам?

Ваша мотивация будет зависеть от того, кто вы. Вот как MDC может принести вам прямую пользу:

Для исследователей, учёных и лингвистов

Для создателей контента, журналистов и издателей

Для языковых активистов и сообществ

Какие данные мы ищем?

Мы заинтересованы в наборах данных, достаточно больших для современных задач НЛП. Идеальные вклады включают:

Если в ваших данных используются несколько орфографий или они в необработанном формате (например, файлы ELAN), не волнуйтесь. Если они хорошо задокументированы, они, скорее всего, подойдут для MDC.

Моя роль и географический фокус

Как независимый подрядчик, я сосредоточен на поиске наборов данных для языков Большой Центральной Азии и Кавказа. Сюда входят такие языки, как:

Даже если ваш язык не указан в списке, пожалуйста, свяжитесь со мной. Цель Mozilla — поддерживать все языки, и я могу связать вас с нужным коллегой.

Давайте сотрудничать!

Я всю свою карьеру работал над вычислительными инструментами для наших языков, часто при государственной поддержке. Я рассматриваю эту работу с Mozilla как способ отдать долг и помочь создать более справедливый цифровой мир.

Крупные технологические компании не спасут наши языки — это сделаем мы, носители. Инициативы, подобные MDC, дают нам возможность строить будущее, которого мы хотим. Ваш вклад может иметь огромное значение.

Если у вас есть или вы знаете о наборе данных, который мог бы подойти, пожалуйста, свяжитесь со мной. Я здесь, чтобы ответить на ваши вопросы и взять на себя техническую часть работы.

Вы можете связаться со мной напрямую по электронной почте mdc.ilnar@gmail.com или заполнив форму для выражения заинтересованности ниже.

📬 Заинтересованы в предоставлении набора данных? Заполните Форму для выражения заинтересованности, и я свяжусь с вами!

Дополнительная информация

Вы можете прочитать официальное объявление о Mozilla Data Collective на форуме Common Voice Discourse.


Home | Resume | Projects | Publications | Talks | Reading log | Movies log | Now | Email