Я проанализировал более 1 миллиона коммитов кода, чтобы оценить гендерный баланс участников ведущих криптовалютных проектов. Результаты показывают явное отсутствие женщин-разработчиков.

(Примечание: эта статья изначально была написана для публикации в ныне несуществующем BREAKERMAG.)

Системная проблема

После десятилетий гендерного дисбаланса многие области технологий начинают считаться с тем фактом, что они непропорционально преобладают над мужчинами.

Технологические компании, такие как Facebook, Twitter и Google, теперь публикуют ежегодные отчеты о разнообразии, которые в значительной степени не впечатляют. Согласно отчетам инсайдеров, развивающиеся отрасли, такие как искусственный интеллект, переживают полномасштабный кризис разнообразия, что приводит к предвзятости, присущей выпускаемой ими продукции. Тем не менее, хотя эти статистические данные могут обескураживать, выявление таких системных проблем является важной отправной точкой для внесения изменений.

В индустрии блокчейнов уже есть некоторые данные о разнообразии. В отчете LongHash за 2018 год было обнаружено, что 14,5% сотрудников блокчейн-стартапов составляли женщины на всех штатных должностях, в то время как анализ Quartz показал, что 85% блокчейн-компаний, запущенных в период с 2012 по 2018 год, имели команду основателей, состоящую исключительно из мужчин. Другой часто цитируемый статистический показатель, Взаимодействие с биткойнами с разбивкой по полу Coin.Dance, основан на данных Google Analytics и обычно колеблется от 5 до 10 процентов женщин от недели к неделе.

Но когда дело доходит до гендерного баланса разработчиков, работающих на местах, надежных данных мало, особенно с учетом того, что проекты блокчейн не всегда являются формальными компаниями и вместо этого могут быть организованы как проекты с открытым исходным кодом. в которые разработчики вносят свой код на разовой основе.

В попытке исследовать, я собрал новый набор данных вкладов в 100 лучших криптовалютных проектов - всего более 1 миллиона коммитов кода - и попытался определить пол участников, у которых были связаны настоящие имена. со своими учетными записями пользователей. Я надеюсь, что полученные данные помогут обсудить текущее состояние криптографии и способы его улучшения.

Методология

3 апреля 2019 года я использовал панель управления OnChainFX от Messari, чтобы собрать список из 100 лучших криптопроектов по рыночной капитализации, и составил электронную таблицу, связав каждый проект с учетной записью GitHub, где размещены все репозитории кода проекта.

Проекты отбрасывались, если слишком много репозиториев организации не были связаны с основным проектом - например, токен Basic Attention Token размещен в учетной записи, которая также включает базу кода для Brave Browser. Каждый раз, когда проект исключали из первоначального списка из 100, заменяли его из пунктов 101 и далее в списке, сохраняя общее количество.

Используя GitHub API и собственный скрипт Python, я запросил каждую из 100 организаций, чтобы получить список всех репозиториев, принадлежащих организации, и имя пользователя каждого разработчика, который сделал коммиты в главной ветви каждого репозитория. Поскольку многие криптовалютные проекты начинаются как форк других проектов, например Litecoin как форк Биткойна, я использовал параметр type=source, чтобы исключить разветвленные репозитории, без которых коммиты из разветвленной кодовой базы учитывались бы несколько раз в наборе данных.

Затем я отдельно запросил каждую учетную запись пользователя, чтобы найти пользователей, которые заполнили поле name настоящим именем, как показано ниже.

С помощью другого сценария я запросил каждое настоящее имя в базе данных, поддерживаемой Genderize.io, веб-службой, которая пытается определить пол имени. Для каждого имени Genderize возвращает предполагаемый пол вместе с оценкой вероятности того, что предполагаемый пол правильный.

Затем я объединил набор данных гендеризованных имен с набором данных имен пользователей и коммитов, создав новый набор данных кодовых коммитов с прогнозируемым полом, сгруппированных по организациям, из чего сделаны выводы в этой статье.

Перед изучением выводов следует отметить, что пол - это сложно: наличие имени, которое анализируется как женское, не означает, что вы являетесь женщиной, и наоборот. Все чаще двоичное представление о мужчине / женщине рассматривается как редуцирующий способ изучения пола, поэтому эти результаты дают лишь приблизительную оценку гендерной идентичности разработчиков блокчейнов.

Выводы

Всего я собрал данные о 1 026 804 коде коммитов в 100 проектах. Из них 691 134 были созданы разработчиками с именами, идентифицированными мужчинами, и только 47 678 были созданы людьми с именами, определенными женщинами. Остальные 287 992 фиксации были совершены пользователями, которые не указали настоящее имя или (в меньшем количестве случаев) указали имя, которое не может быть проанализировано как пол.

В общей сложности на пользователей GitHub с женскими именами приходится менее 5 процентов всех участников 100 самых популярных криптовалютных проектов - 4,64 процента, если быть точным.

Пользователи GitHub с мужскими именами составляют 67,3 процента коммитов в 100 крупнейших криптовалютных проектов, а оставшиеся 28,05 процента составляют разработчики неизвестного пола.

Также было несоответствие в среднем количестве коммитов, сделанных каждой из трех групп. Разработчики с мужскими именами в наборе данных сделали на тринадцать больше коммитов по каждому проекту, чем разработчики с женщинами, в среднем, и на десять больше, чем разработчики неизвестного пола.

От коммитов к пользователям

Если мы посчитаем количество индивидуальных учетных записей пользователей в наборе данных, а не количество коммитов, картина будет аналогичной: 4,75 процента участников имеют имена, идентифицированные женщинами. Используя этот показатель, количество разработчиков, пол которых невозможно определить, возрастает до 37,9 процента.

В большинстве случаев эти разработчики просто не предоставили информацию для поля name своего профиля GitHub; в меньшем количестве случаев разработчики вводили имя неопределенного пола или для которого Genderize не мог вернуть прогноз.

Индивидуальные проекты

Несоответствие в гендерном балансе было постоянным во всех проектах с несколькими отклонениями - хотя почти все они были связаны с неправильной классификацией Genderize или наличием большого количества участников без указанных настоящих имен, а не с высоким уровнем участия женщин-разработчиков.

Построив график количества коммитов, внесенных разработчиками с женскими именами, в сравнении с количеством коммитов, внесенных разработчиками с мужскими именами, мы можем получить представление о том, как отдельные проекты соотносятся друг с другом.

В наборе данных в целом 54 проекта включали менее 100 коммитов кода от разработчиков с женскими именами, а 31 из этих проектов включали менее 10 коммитов кода. Организации в правом нижнем углу диаграммы имеют пропорционально более высокое соотношение участия женщин: мужчин в коде, в то время как в организациях в левом верхнем углу преобладают мужчины.

В диаграммах также указаны некоторые проекты, в которых, по всей видимости, больше вкладов разработчиков с женскими именами, чем от разработчиков с мужскими именами, например Bytom, VeChain, Neo и Theta Token.

При ближайшем рассмотрении данные этих проектов показывают слабость Genderize API, особенно с незападными названиями. Ведущий разработчик блокчейнов VeChain Бин Цянь был ошибочно идентифицирован Genderize как женщина; при исправлении этой ошибки VeChain выпадает из списка. Точно так же технический директор Theta Token Джиеи Лонг также был ошибочно признан женщиной.

Бытомский веб-разработчик Житинг Линь был правильно идентифицирован как женщина и всего совершил 940 коммитов в репозитории Бытома. Тем не менее, у Bytom есть выше среднего количество участников, не указанных в списке настоящих имен, что может иметь искаженные результаты.

Выводы

Во-первых, некоторые предостережения. Остается открытым вопрос, что мы можем предположить относительно пола разработчиков, которые предпочитают не указывать настоящее имя. Должны ли мы предположить, что соотношение мужчин и женщин составляет 12: 1, как в именах с указанием пола, или мы можем предположить, что в области, где доминируют мужчины, женщины с большей вероятностью скрывают свое настоящее имя, участвуя в совместном проекте?

По этому вопросу данные существующих исследований показывают, что пол разработчиков в категории «неизвестно», вероятно, будет соответствовать гендерному разделению, которое было показано выше.

В крупнейшем исследовании по этой теме, проведенном GitHub посредством интервью с 5 500 разработчиками с открытым исходным кодом, 95 процентов участников проектов с открытым исходным кодом оказались мужчинами - цифра, соответствующая представленным здесь данным. В свете этого сравнение идентифицируемых мужских или женских имен при игнорировании вкладов в категорию неизвестно вряд ли приведет к значительному смещению, хотя мы должны помнить о потенциальной погрешности.

Кроме того, набор данных учитывает фиксации, но не строки кода. Различные разработчики и организации коммитят код с разной частотой, поэтому необработанное количество коммитов не отражает всей ценности вклада в проект - и, как объяснялось в недавней статье о материнской плате, даже если судить по строкам кода, это ошибочный метод.

Очевидно, что используемая здесь методология может дать лишь приблизительную картину гендерного разрыва в криптовалютных проектах и ​​имеет множество ограничений. Несомненно, вклад многих женщин был упущен из виду из-за того, что они решили не указывать настоящее имя в своем профиле, и из-за нехватки времени было невозможно проверить каждую запись на предмет возможной неправильной классификации.

Тем не менее, хотя данные нечеткие, они рисуют четкую картину области, в которой преобладают мужчины-разработчики почти в каждом крупном проекте. Стоит изучить, каковы более общие причины такого гендерного дисбаланса и какие шаги может предпринять отрасль, чтобы побудить больше женщин заняться программированием на блокчейне.

Исследования в других областях бизнеса показали, что разнообразие обеспечивает повышение производительности компаний, и нам следует задаться вопросом, какие потенциальные выгоды теряются, когда дизайнеры и разработчики, продвигающие отрасль, происходят из в основном однородной группы.