Изабель Уильямс, Дженна Оратц и Джая Кумари

Быстрая ссылка - наш код находится здесь.

Все мы слышали истории о расовой предвзятости, которая возникает при вынесении приговоров: два очень похожих преступления совершены двумя преступниками разной расы, и за них предусматривается разный срок наказания. Многие источники новостей сообщили об этой теме и обнаружили, что на длину приговоров действительно влияет расовая принадлежность.

Мы решили проверить, верны ли эти утверждения авторитетных источников новостей для данного штата США. Нашей главной целью было выяснить, грозят ли преступники разных рас разный срок наказания за одни и те же преступления.

Данные

После сортировки нескольких баз данных мы выбрали базу данных штата Небраска для информации о приговорах по уголовным делам. Вот ссылка на него и то, как он выглядит после загрузки:

По сравнению с базами данных других штатов, Небраска выделялась тем, что это была единственная найденная нами база данных, в которой были найдены три критерия, которые мы искали: раса преступника, срок наказания и тип совершенного преступления.

Визуализация данных

Некоторые примечания по выбору дизайна:

  • Мы рассмотрели только две расы, Черную и Белую, так как у других расовых групп было слишком мало данных, чтобы собрать много информации. В части машинного обучения мы включили категорию «Другое».
  • Мы определили продолжительность приговора как «наиболее раннюю возможную дату выпуска» - «дату начала приговора» в годах. Для приговоров менее года мы изменили продолжительность предложения на долю года в зависимости от месяцев в предложении.
  • Приговоры LFE (жизнь) и DTH (смерть) были изменены на 122 года, самую старую известную продолжительность жизни человека, поэтому они могли появиться на гистограммах. Мы не хотели исключать эти предложения, но мы понимаем, что указание произвольного года может привести к предвзятости.

Мы начали с рассмотрения общей тенденции сроков приговоров по всем преступлениям, разделенным на Белую и Черную расы, используя линейный график гистограммы плотности, логарифмически масштабируя ось абсцисс:

Разбивка сроков наказания по преступлениям.

Затем мы разбили это на десять преступлений с наибольшим количеством случаев в наборе данных: кража со взломом, грабеж, кража, производство / распространение / продажа контролируемых веществ, сексуальное насилие 1-й степени, подделка 2-й степени, владение контролируемым вещества, за исключением марихуаны, кража с получением украденного имущества, хранение метамфетамина и вождение с отозванными правами.

Для каждого преступления мы построили линейный график значений длины приговора из гистограммы плотности, ось абсцисс снова масштабирована для наглядности.

В целом мы обнаружили, что приговоры для черных и белых были примерно одинаковыми за большинство преступлений, за парой исключений:

Расовое представительство в каждом преступлении:

Сначала мы создали круговую диаграмму для полного расового представления расы в данных. Белые люди составили чуть более половины данных, черные - четверть, латиноамериканцы - около одной десятой и пять процентов - представители других рас.

Затем мы создали эти же круговые диаграммы для каждого из десяти наиболее распространенных преступлений.

Обсуждение результатов визуализаций

Сборы за расовую принадлежность и хранение наркотиков (MANU / DIST / DEL / DISP OR POSS W / I):

Мы обнаружили, что как чернокожие люди чрезмерно представлены в арестах за хранение наркотиков (рис. 16) по сравнению с их общим числом арестованных (рис. 12), так и что чернокожие получают более длительные приговоры, чем их белые коллеги (рис. 5).

Раса и кража со взломом против грабежа против кражи:

Существуют резкие различия в расовом представительстве между кражами со взломом, грабежом и кражей (фиг. 13, 14, 15).

На веб-сайте Законодательного собрания Небраскана различия в трех типах заключаются в следующем: Кража со взломом - это умышленное, злонамеренное и насильственное проникновение в чужую собственность с намерением совершить кражу или любое другое тяжкое преступление; до тех пор, пока произошли взлом и проникновение, фактического кражи происходить не должно. Ограбление - это насильственное и насильственное похищение чего-либо ценного у другого. Кража - это получение или изъятие украденного имущества с осознанием того, что оно украдено. И кража со взломом, и грабеж - с применением силы, но грабеж должен быть насильственным по отношению к другому человеку.

Несмотря на то, что разница в сроках заключения в рамках каждого отдельного преступления не была значительной по признаку расы, мы хотели увидеть, были ли существенно разные сроки наказания по каждому преступлению.

Мы также нашли пятизначную статистическую сводку, а также средние сроки наказания по трем типам преступлений:

Robbery Stats:
 Min: 0.0
 Q1: 2.0
 Median: 3.0
 Mean: 4.0563427800269904
 Q3: 5.0
 Max: 58.0

Burglary Stats:
 Min: 0.0
 Q1: 1.0
 Median: 2.0
 Mean: 2.4904106220801574
 Q3: 3.0
 Max: 134.0

Theft Stats:
 Min: 0.0
 Q1: 1.0
 Median: 1.0
 Mean: 2.0246331236897275
 Q3: 2.0
 Max: 102.0

Мы обнаружили, что сроки наказания за ограбление выше, а расовая представленность чернокожих лиц в грабеже удваивается по сравнению с кражей со взломом и кражей.

Использование данных для машинного обучения

В этой части нашего проекта мы попытались использовать расу и другую информацию о преступниках, чтобы создать модель машинного обучения, которая могла бы точно угадать срок наказания преступника, а также использовать длину приговора и другую информацию для прогнозирования расы.

Разработка функций
Мы тщательно отобрали функции, которые использовали в нашей модели, ограничив их количество, чтобы увидеть, насколько хорошо модель сможет прогнозировать, в основном на основе интересующей информации (расы и длины предложения ). Мы использовали LabelEncoder из sklearn, чтобы изменить столбцы Gender и Race на числовые значения, и использовали фиктивные переменные pandas для преобразования Crime и Race в столбцы с горячим кодированием. В рамках этого мы удалили всех преступников, преступление которых не входило в десятку самых распространенных, чтобы уменьшить количество столбцов с тысяч до десятков. В результате у нас осталось 18 009 преступников, что, по нашему мнению, было достаточно большим набором данных, чтобы получить значимые результаты. Мы также вычли длину предложения из максимального годового заключения, чтобы создать новое значение, длину предложения по отношению к максимальному наказанию, и сделали то же самое с минимальным годичным приговором. Мы сделали это вместо того, чтобы использовать только эти значения, потому что мы чувствовали, что несоответствие длины предложения минимальному и максимальному условиям было более значимым.

Мы разделяем данные на обучающий набор и набор для тестирования, при этом обучающий набор включает 4/5 данных, а тестовый набор - остальные 1/5.

Прогнозирование расы
Мы разбили результаты на основе преступности, чтобы увидеть, помогает ли модель лучше прогнозировать расу в отношении одних преступлений по сравнению с другими. Мы также протестировали модель как на обучающем, так и на тестовом наборе для каждого преступления, а также для всего набора данных. Мы сравнили эти результаты с результатами наивной модели, которая всегда предполагала, что преступник был Белым. Результаты были следующими:

All Crimes:
 Training Set Results:
  Percent Correct: 0.6413697362332254
  Percent Correct with naive model: 0.5908375751966682
  Top features: ['SENTENCE WRT MAX TERM: 0.4143', 'SENTENCE WRT MIN 
  TERM: 0.3025', 'ROBBERY: 0.0977']

 Testing Set Results:
  Percent Correct: 0.5941143808995003
  Percent Correct with naive model: 0.5893947806774015
  Top features: ['SENTENCE WRT MAX TERM: 0.4121', 'SENTENCE WRT MIN
  TERM: 0.3022', 'ROBBERY: 0.0998']

Burglary:
 Training Set Results:
  Percent Correct: 0.6594696969696969
  Percent Correct with naive model: 0.6431818181818182
  Top features: ['SENTENCE WRT MAX TERM: 0.5511', 'SENTENCE WRT MIN
  TERM: 0.4198', 'GENDER: 0.029']

 Testing Set Results:
  Percent Correct: 0.6407879490150638
  Percent Correct with naive model: 0.6500579374275782
  Top features: ['SENTENCE WRT MAX TERM: 0.5513', 'SENTENCE WRT MIN
  TERM: 0.421', 'GENDER: 0.0277']

Driving Under Revoked License:
 Training Set Results:
  Percent Correct: 0.6483870967741936
  Percent Correct with naive model: 0.632258064516129
  Top features: ['SENTENCE WRT MAX TERM: 0.5044', 'SENTENCE WRT MIN
  TERM: 0.4287', 'GENDER: 0.0669']

 Testing Set Results:
  Percent Correct: 0.543778801843318
  Percent Correct with naive model: 0.5391705069124424
  Top features: ['SENTENCE WRT MAX TERM: 0.5155', 'SENTENCE WRT MIN
  TERM: 0.4193', 'GENDER: 0.0652']

Forgery 2nd Degree:
 Training Set Results:
  Percent Correct: 0.6142684401451027
  Percent Correct with naive model: 0.5888754534461911
  Top features: ['SENTENCE WRT MAX TERM: 0.534', 'SENTENCE WRT MIN
  TERM: 0.4184', 'GENDER: 0.0476']

 Testing Set Results:
  Percent Correct: 0.5984848484848485
  Percent Correct with naive model: 0.6628787878787878
  Top features: ['SENTENCE WRT MAX TERM: 0.533', 'SENTENCE WRT MIN
  TERM: 0.4151', 'GENDER: 0.0519']

Possession With Intent to Distribute and Similar:
 Training Set Results:
  Percent Correct: 0.5785770132916341
  Percent Correct with naive model: 0.5293197810789679
  Top features: ['SENTENCE WRT MAX TERM: 0.5683', 'SENTENCE WRT MIN
  TERM: 0.3683', 'GENDER: 0.0635']

 Testing Set Results:
  Percent Correct: 0.5
  Percent Correct with naive model: 0.49336283185840707
  Top features: ['SENTENCE WRT MAX TERM: 0.5709', 'SENTENCE WRT MIN
  TERM: 0.3665', 'GENDER: 0.0626']

Possession of Controlled Substance Except Marijuana:
 Training Set Results:
  Percent Correct: 0.572928821470245
  Percent Correct with naive model: 0.5472578763127188
  Top features: ['SENTENCE WRT MAX TERM: 0.497', 'SENTENCE WRT MIN
  TERM: 0.4297', 'GENDER: 0.0734']

 Testing Set Results:
  Percent Correct: 0.5153846153846153
  Percent Correct with naive model: 0.5153846153846153
  Top features: ['SENTENCE WRT MAX TERM: 0.4974', 'SENTENCE WRT MIN
  TERM: 0.4292', 'GENDER: 0.0735']

Possession of Methamphetamine:
 Training Set Results:
  Percent Correct: 0.771484375
  Percent Correct with naive model: 0.76171875
  Top features: ['SENTENCE WRT MIN TERM: 0.4674', 'SENTENCE WRT MAX
  TERM: 0.4456', 'GENDER: 0.087']

 Testing Set Results:
  Percent Correct: 0.7875
  Percent Correct with naive model: 0.7875
  Top features: ['SENTENCE WRT MIN TERM: 0.4697', 'SENTENCE WRT MAX
  TERM: 0.4442', 'GENDER: 0.0861']

Robbery:
 Training Set Results:
  Percent Correct: 0.6095947063688999
  Percent Correct with naive model: 0.37220843672456577
  Top features: ['SENTENCE WRT MAX TERM: 0.5696', 'SENTENCE WRT MIN
  TERM: 0.3957', 'GENDER: 0.0347']

 Testing Set Results:
  Percent Correct: 0.49760765550239233
  Percent Correct with naive model: 0.3923444976076555
  Top features: ['SENTENCE WRT MAX TERM: 0.5609', 'SENTENCE WRT MIN
  TERM: 0.4025', 'GENDER: 0.0365']

Sexual Assault 1st Degree:
 Training Set Results:
  Percent Correct: 0.680568720379147
  Percent Correct with naive model: 0.628436018957346
  Top features: ['SENTENCE WRT MAX TERM: 0.5185', 'SENTENCE WRT MIN
  TERM: 0.4658', 'GENDER: 0.0157']

 Testing Set Results:
  Percent Correct: 0.6371681415929203
  Percent Correct with naive model: 0.672566371681416
  Top features: ['SENTENCE WRT MAX TERM: 0.5137', 'SENTENCE WRT MIN
  TERM: 0.4705', 'GENDER: 0.0158']

Theft:
 Training Set Results:
  Percent Correct: 0.6833333333333333
  Percent Correct with naive model: 0.6605263157894737
  Top features: ['SENTENCE WRT MIN TERM: 0.4658', 'SENTENCE WRT MAX
  TERM: 0.4552', 'GENDER: 0.079']

 Testing Set Results:
  Percent Correct: 0.6578249336870027
  Percent Correct with naive model: 0.6445623342175066
  Top features: ['SENTENCE WRT MIN TERM: 0.461', 'SENTENCE WRT MAX
  TERM: 0.4597', 'GENDER: 0.0792']

Theft By Receiving Stolen Property:
 Training Set Results:
  Percent Correct: 0.6291291291291291
  Percent Correct with naive model: 0.6081081081081081
  Top features: ['SENTENCE WRT MAX TERM: 0.5341', 'SENTENCE WRT MIN
  TERM: 0.4178', 'GENDER: 0.048']

 Testing Set Results:
  Percent Correct: 0.5833333333333334
  Percent Correct with naive model: 0.6031746031746031
  Top features: ['SENTENCE WRT MAX TERM: 0.5355', 'SENTENCE WRT MIN
  TERM: 0.4163', 'GENDER: 0.0482']

Выводы

  • В целом, наша модель машинного обучения была более эффективной, чем наивная модель при прогнозировании на обучающей выборке, но столь же эффективна при прогнозировании на тестовой выборке. Это означает, что он успешно распознал некоторые шаблоны в обучающем наборе, но они не были перенесены в набор для тестирования.
  • Длина предложения в отношении максимального термина и длина предложения в отношении минимального термина были двумя главными характеристиками для каждой категории, что означает, что модель действительно сочла их важными при угадывании длины предложения, но это не обязательно важно, поскольку модели обычно не являются очень точно.
  • Обладание метамфетамином дало интересный результат для тестовой выборки - процент правильных ответов для нашей модели был таким же, как и для наивной модели, что означает, что наша модель, вероятно, предполагала, что каждый преступник был Белым. Поскольку 76,8% преступников в этом преступлении были белыми, это имеет смысл, но все же очень интересно.
  • Ограбление также имело интересный результат - для обучающей выборки правильность нашей модели была на 23% выше, чем у наивной модели, а для тестовой она была все еще на 10% выше. Это было, безусловно, наивысшим из преступлений, и его, вероятно, можно отнести к вышеупомянутой чрезмерной представленности чернокожих лиц в грабежах.

Прогнозирование длины предложения
Здесь мы сделали то же самое, что и с прогнозированием расы, за исключением того, что мы попробовали три разные наивные модели - всегда прогнозировали среднее значение, всегда прогнозировали среднее значение или всегда прогнозировали 1 ( режим). Мы также включили гонку в качестве дополнительной функции (с использованием столбцов с горячим кодированием для каждой гонки). Результаты приведены ниже:

All Crimes:
 Training Set Results:
  Average Years Off: 1.1607589079130032
  Average Years Off with naive model using mean: 1.827314029509284
  Average Years Off with naive model using median: 1.696159185562239
  Average Years Off with naive model using mode: 1.7584451642757983
  Top features: ['SENTENCE WRT MAX TERM: 0.4487', 'SENTENCE WRT MIN
  TERM: 0.3858', 'GENDER: 0.0205']

 Testing Set Results:
  Average Years Off: 1.1740699611327041
  Average Years Off with naive model using mean: 1.6875600605622771
  Average Years Off with naive model using median: 1.567740144364242
  Average Years Off with naive model using mode: 1.6299278178789562
  Top features: ['SENTENCE WRT MAX TERM: 0.4485', 'SENTENCE WRT MIN
  TERM: 0.3864', 'GENDER: 0.0206']

Burglary:
 Training Set Results:
  Average Years Off: 1.3795454545454546
  Average Years Off with naive model using mean: 1.5582185491276401
  Average Years Off with naive model using median: 1.626515151515151
  Average Years Off with naive model using mode: 1.6265151515151515
  Top features: ['SENTENCE WRT MIN TERM: 0.4989', 'SENTENCE WRT MAX
  TERM: 0.4669', 'GENDER: 0.0136']

 Testing Set Results:
  Average Years Off: 1.52954808806489
  Average Years Off with naive model using mean: 1.4513681423367522
  Average Years Off with naive model using median: 1.544611819235226
  Average Years Off with naive model using mode: 1.544611819235226
  Top features: ['SENTENCE WRT MIN TERM: 0.5012', 'SENTENCE WRT MAX
  TERM: 0.4654', 'GENDER: 0.0135']

Driving Under Revoked License:
 Training Set Results:
  Average Years Off: 0.8806451612903226
  Average Years Off with naive model using mean: 0.911992715920916
  Average Years Off with naive model using median: 0.856451612903225
  Average Years Off with naive model using mode: 0.8564516129032258
  Top features: ['SENTENCE WRT MAX TERM: 0.4963', 'SENTENCE WRT MIN
  TERM: 0.4541', 'GENDER: 0.0151']

 Testing Set Results:
  Average Years Off: 0.8018433179723502
  Average Years Off with naive model using mean: 0.8169636220773425
  Average Years Off with naive model using median: 0.774193548387096
  Average Years Off with naive model using mode: 0.7741935483870968
  Top features: ['SENTENCE WRT MAX TERM: 0.4931', 'SENTENCE WRT MIN
  TERM: 0.4566', 'GENDER: 0.0153']

Forgery 2nd Degree:
 Training Set Results:
  Average Years Off: 1.0181378476420797
  Average Years Off with naive model using mean: 1.1849621817469314
  Average Years Off with naive model using median: 1.037484885126965
  Average Years Off with naive model using mode: 1.037484885126965
  Top features: ['SENTENCE WRT MIN TERM: 0.5038', 'SENTENCE WRT MAX
  TERM: 0.4168', 'GENDER: 0.0369']

 Testing Set Results:
  Average Years Off: 1.1477272727272727
  Average Years Off with naive model using mean: 1.0070018365472888
  Average Years Off with naive model using median: 0.871212121212121
  Average Years Off with naive model using mode: 0.8712121212121212
  Top features: ['SENTENCE WRT MIN TERM: 0.505', 'SENTENCE WRT MAX
  TERM: 0.4163', 'GENDER: 0.0373']

Possession With Intent to Distribute and Similar:
 Training Set Results:
  Average Years Off: 1.0742767787333856
  Average Years Off with naive model using mean: 1.1186991889798592
  Average Years Off with naive model using median: 1.175136825645035
  Average Years Off with naive model using mode: 1.1751368256450352
  Top features: ['SENTENCE WRT MAX TERM: 0.4807', 'SENTENCE WRT MIN
  TERM: 0.4588', 'GENDER: 0.0203']

 Testing Set Results:
  Average Years Off: 0.922566371681416
  Average Years Off with naive model using mean: 1.087771164539119
  Average Years Off with naive model using median: 1.148230088495575
  Average Years Off with naive model using mode: 1.1482300884955752
  Top features: ['SENTENCE WRT MAX TERM: 0.4816', 'SENTENCE WRT MIN
  TERM: 0.4589', 'GENDER: 0.0202']

Possession of Controlled Substance Except Marijuana:
 Training Set Results:
  Average Years Off: 0.8751458576429405
  Average Years Off with naive model using mean: 0.8075278201754006
  Average Years Off with naive model using median: 0.707117852975496
  Average Years Off with naive model using mode: 0.7071178529754959
  Top features: ['SENTENCE WRT MIN TERM: 0.5213', 'SENTENCE WRT MAX
  TERM: 0.4221', 'GENDER: 0.0258']

 Testing Set Results:
  Average Years Off: 0.8346153846153846
  Average Years Off with naive model using mean: 0.6122781065088765
  Average Years Off with naive model using median: 0.561538461538462
  Average Years Off with naive model using mode: 0.5615384615384615
  Top features: ['SENTENCE WRT MIN TERM: 0.5165', 'SENTENCE WRT MAX
  TERM: 0.4267', 'GENDER: 0.0259']

Possession of Methamphetamine:
 Training Set Results:
  Average Years Off: 0.7734375
  Average Years Off with naive model using mean: 0.88427734375
  Average Years Off with naive model using median: 0.66015625
  Average Years Off with naive model using mode: 0.66015625
  Top features: ['SENTENCE WRT MIN TERM: 0.6117', 'SENTENCE WRT MAX
  TERM: 0.3545', 'GENDER: 0.0124']

 Testing Set Results:
  Average Years Off: 0.89375
  Average Years Off with naive model using mean: 0.883203125
  Average Years Off with naive model using median: 0.6125
  Average Years Off with naive model using mode: 0.6125
  Top features: ['SENTENCE WRT MIN TERM: 0.6123', 'SENTENCE WRT MAX
  TERM: 0.3541', 'GENDER: 0.012']

Robbery:
 Training Set Results:
  Average Years Off: 1.2928039702233252
  Average Years Off with naive model using mean: 2.9327555054762047
  Average Years Off with naive model using median: 2.645161290322581
  Average Years Off with naive model using mode: 3.1943755169561623
  Top features: ['SENTENCE WRT MAX TERM: 0.5686', 'SENTENCE WRT MIN
  TERM: 0.3688', 'GENDER: 0.0221']

 Testing Set Results:
  Average Years Off: 1.3397129186602872
  Average Years Off with naive model using mean: 2.807856962981618
  Average Years Off with naive model using median: 2.535885167464115
  Average Years Off with naive model using mode: 3.15311004784689
  Top features: ['SENTENCE WRT MAX TERM: 0.5667', 'SENTENCE WRT MIN
  TERM: 0.3699', 'GENDER: 0.0229']

Sexual Assault 1st Degree:
 Training Set Results:
  Average Years Off: 1.2966824644549764
  Average Years Off with naive model using mean: 4.060600615439881
  Average Years Off with naive model using median: 3.630331753554502
  Average Years Off with naive model using mode: 4.734597156398104
  Top features: ['SENTENCE WRT MAX TERM: 0.6166', 'SENTENCE WRT MIN
  TERM: 0.347', 'WHITE: 0.0099']

 Testing Set Results:
  Average Years Off: 1.1563421828908556
  Average Years Off with naive model using mean: 3.1724227947894583
  Average Years Off with naive model using median: 2.899705014749263
  Average Years Off with naive model using mode: 4.129793510324483
  Top features: ['SENTENCE WRT MAX TERM: 0.6179', 'SENTENCE WRT MIN
  TERM: 0.3471', 'OTHER: 0.0096']

Theft:
 Training Set Results:
  Average Years Off: 1.2526315789473683
  Average Years Off with naive model using mean: 1.146075715604802
  Average Years Off with naive model using median: 1.100877192982456
  Average Years Off with naive model using mode: 1.1008771929824561
  Top features: ['SENTENCE WRT MIN TERM: 0.4883', 'SENTENCE WRT MAX
  TERM: 0.4624', 'GENDER: 0.0193']

 Testing Set Results:
  Average Years Off: 1.16710875331565
  Average Years Off with naive model using mean: 1.10216774901674
  Average Years Off with naive model using median: 1.037135278514589
  Average Years Off with naive model using mode: 1.0371352785145889
  Top features: ['SENTENCE WRT MIN TERM: 0.4904', 'SENTENCE WRT MAX
  TERM: 0.4619', 'GENDER: 0.0186']

Theft By Receiving Stolen Property:
 Training Set Results:
  Average Years Off: 0.9864864864864865
  Average Years Off with naive model using mean: 1.1954026098170283
  Average Years Off with naive model using median: 0.987987987987988
  Average Years Off with naive model using mode: 0.987987987987988
  Top features: ['SENTENCE WRT MIN TERM: 0.481', 'SENTENCE WRT MAX
  TERM: 0.4547', 'GENDER: 0.0201']

 Testing Set Results:
  Average Years Off: 1.0436507936507937
  Average Years Off with naive model using mean: 1.1678004535147377
  Average Years Off with naive model using median: 0.873015873015873
  Average Years Off with naive model using mode: 0.873015873015873
  Top features: ['SENTENCE WRT MIN TERM: 0.4867', 'SENTENCE WRT MAX
  TERM: 0.4495', 'GENDER: 0.0199']

Выводы

  • Что касается данных в целом, наша модель показала себя немного лучше, чем любая из наивных моделей, которые мы пробовали, при этом среднее количество лет от фактического заключения было примерно на 0,5 года лучше для нашей модели.
  • Для некоторых преступлений наша модель была намного лучше, в то время как для других одна или две из наивных моделей были лучше (хотя какие из них менялись между преступлениями). В целом наша модель была более точной, чем любая из наивных моделей.
  • Ни одна из расовых категорий (черный, белый или другой) не входит в тройку лучших характеристик для любой категории, кроме сексуального насилия, что предполагает, что раса не является важным фактором при определении длины предложения. Тем не менее, Sexual Assault имеет лучшую точность нашей модели по сравнению с наивными моделями (в среднем примерно на 2 года ближе к реальному приговору), что предполагает, что расовая принадлежность действительно может играть некоторую роль. Кроме того, расовые категории могут выпасть из первой тройки, потому что они представляют собой три отдельные категории, что снижает важность характеристики любой из них.

Выводы

Мы ожидали немедленно найти более убедительные доказательства расовой предвзятости в данных, поскольку мы нашли много примеров в средствах массовой информации. Некоторые предубеждения присутствуют, но для их обнаружения потребовался дополнительный анализ. Например, невозможно было определить разницу в сроках наказания во всех данных о преступлениях, но расовые различия были очевидны в отношении преступлений, связанных с хранением наркотиков, и расового представительства в некоторых преступлениях с более длительным сроком наказания, таких как ограбление.

Часть нашего проекта, посвященная машинному обучению, дала очень интересные результаты в отношении корреляции расы и длины предложения. На основании наших данных и визуализаций неудивительно, что точность нашей модели в целом была не намного лучше, чем у наивных моделей, но мы обнаружили, что наша модель была более точной для каждой категории, в то время как наивная модель была более склонна к ошибкам на основе различия в разных категориях преступлений.

Если бы мы продолжили этот проект, мы бы надеялись взглянуть на более разнообразный набор данных, чем у Небраски, в надежде сделать более конкретные выводы о любых возможных связях между расой и длиной предложения.

Кроме того, чтобы сделать окончательные выводы, нам потребуется больше информации в данных, которые могут объяснить более длинные предложения, которые отсутствуют в наборе Небраски.