Изабель Уильямс, Дженна Оратц и Джая Кумари
Быстрая ссылка - наш код находится здесь.
Все мы слышали истории о расовой предвзятости, которая возникает при вынесении приговоров: два очень похожих преступления совершены двумя преступниками разной расы, и за них предусматривается разный срок наказания. Многие источники новостей сообщили об этой теме и обнаружили, что на длину приговоров действительно влияет расовая принадлежность.
Мы решили проверить, верны ли эти утверждения авторитетных источников новостей для данного штата США. Нашей главной целью было выяснить, грозят ли преступники разных рас разный срок наказания за одни и те же преступления.
Данные
После сортировки нескольких баз данных мы выбрали базу данных штата Небраска для информации о приговорах по уголовным делам. Вот ссылка на него и то, как он выглядит после загрузки:
По сравнению с базами данных других штатов, Небраска выделялась тем, что это была единственная найденная нами база данных, в которой были найдены три критерия, которые мы искали: раса преступника, срок наказания и тип совершенного преступления.
Визуализация данных
Некоторые примечания по выбору дизайна:
- Мы рассмотрели только две расы, Черную и Белую, так как у других расовых групп было слишком мало данных, чтобы собрать много информации. В части машинного обучения мы включили категорию «Другое».
- Мы определили продолжительность приговора как «наиболее раннюю возможную дату выпуска» - «дату начала приговора» в годах. Для приговоров менее года мы изменили продолжительность предложения на долю года в зависимости от месяцев в предложении.
- Приговоры LFE (жизнь) и DTH (смерть) были изменены на 122 года, самую старую известную продолжительность жизни человека, поэтому они могли появиться на гистограммах. Мы не хотели исключать эти предложения, но мы понимаем, что указание произвольного года может привести к предвзятости.
Мы начали с рассмотрения общей тенденции сроков приговоров по всем преступлениям, разделенным на Белую и Черную расы, используя линейный график гистограммы плотности, логарифмически масштабируя ось абсцисс:
Разбивка сроков наказания по преступлениям.
Затем мы разбили это на десять преступлений с наибольшим количеством случаев в наборе данных: кража со взломом, грабеж, кража, производство / распространение / продажа контролируемых веществ, сексуальное насилие 1-й степени, подделка 2-й степени, владение контролируемым вещества, за исключением марихуаны, кража с получением украденного имущества, хранение метамфетамина и вождение с отозванными правами.
Для каждого преступления мы построили линейный график значений длины приговора из гистограммы плотности, ось абсцисс снова масштабирована для наглядности.
В целом мы обнаружили, что приговоры для черных и белых были примерно одинаковыми за большинство преступлений, за парой исключений:
Расовое представительство в каждом преступлении:
Сначала мы создали круговую диаграмму для полного расового представления расы в данных. Белые люди составили чуть более половины данных, черные - четверть, латиноамериканцы - около одной десятой и пять процентов - представители других рас.
Затем мы создали эти же круговые диаграммы для каждого из десяти наиболее распространенных преступлений.
Обсуждение результатов визуализаций
Сборы за расовую принадлежность и хранение наркотиков (MANU / DIST / DEL / DISP OR POSS W / I):
Мы обнаружили, что как чернокожие люди чрезмерно представлены в арестах за хранение наркотиков (рис. 16) по сравнению с их общим числом арестованных (рис. 12), так и что чернокожие получают более длительные приговоры, чем их белые коллеги (рис. 5).
Раса и кража со взломом против грабежа против кражи:
Существуют резкие различия в расовом представительстве между кражами со взломом, грабежом и кражей (фиг. 13, 14, 15).
На веб-сайте Законодательного собрания Небраскана различия в трех типах заключаются в следующем: Кража со взломом - это умышленное, злонамеренное и насильственное проникновение в чужую собственность с намерением совершить кражу или любое другое тяжкое преступление; до тех пор, пока произошли взлом и проникновение, фактического кражи происходить не должно. Ограбление - это насильственное и насильственное похищение чего-либо ценного у другого. Кража - это получение или изъятие украденного имущества с осознанием того, что оно украдено. И кража со взломом, и грабеж - с применением силы, но грабеж должен быть насильственным по отношению к другому человеку.
Несмотря на то, что разница в сроках заключения в рамках каждого отдельного преступления не была значительной по признаку расы, мы хотели увидеть, были ли существенно разные сроки наказания по каждому преступлению.
Мы также нашли пятизначную статистическую сводку, а также средние сроки наказания по трем типам преступлений:
Robbery Stats: Min: 0.0 Q1: 2.0 Median: 3.0 Mean: 4.0563427800269904 Q3: 5.0 Max: 58.0 Burglary Stats: Min: 0.0 Q1: 1.0 Median: 2.0 Mean: 2.4904106220801574 Q3: 3.0 Max: 134.0 Theft Stats: Min: 0.0 Q1: 1.0 Median: 1.0 Mean: 2.0246331236897275 Q3: 2.0 Max: 102.0
Мы обнаружили, что сроки наказания за ограбление выше, а расовая представленность чернокожих лиц в грабеже удваивается по сравнению с кражей со взломом и кражей.
Использование данных для машинного обучения
В этой части нашего проекта мы попытались использовать расу и другую информацию о преступниках, чтобы создать модель машинного обучения, которая могла бы точно угадать срок наказания преступника, а также использовать длину приговора и другую информацию для прогнозирования расы.
Разработка функций
Мы тщательно отобрали функции, которые использовали в нашей модели, ограничив их количество, чтобы увидеть, насколько хорошо модель сможет прогнозировать, в основном на основе интересующей информации (расы и длины предложения ). Мы использовали LabelEncoder из sklearn, чтобы изменить столбцы Gender и Race на числовые значения, и использовали фиктивные переменные pandas для преобразования Crime и Race в столбцы с горячим кодированием. В рамках этого мы удалили всех преступников, преступление которых не входило в десятку самых распространенных, чтобы уменьшить количество столбцов с тысяч до десятков. В результате у нас осталось 18 009 преступников, что, по нашему мнению, было достаточно большим набором данных, чтобы получить значимые результаты. Мы также вычли длину предложения из максимального годового заключения, чтобы создать новое значение, длину предложения по отношению к максимальному наказанию, и сделали то же самое с минимальным годичным приговором. Мы сделали это вместо того, чтобы использовать только эти значения, потому что мы чувствовали, что несоответствие длины предложения минимальному и максимальному условиям было более значимым.
Мы разделяем данные на обучающий набор и набор для тестирования, при этом обучающий набор включает 4/5 данных, а тестовый набор - остальные 1/5.
Прогнозирование расы
Мы разбили результаты на основе преступности, чтобы увидеть, помогает ли модель лучше прогнозировать расу в отношении одних преступлений по сравнению с другими. Мы также протестировали модель как на обучающем, так и на тестовом наборе для каждого преступления, а также для всего набора данных. Мы сравнили эти результаты с результатами наивной модели, которая всегда предполагала, что преступник был Белым. Результаты были следующими:
All Crimes: Training Set Results: Percent Correct: 0.6413697362332254 Percent Correct with naive model: 0.5908375751966682 Top features: ['SENTENCE WRT MAX TERM: 0.4143', 'SENTENCE WRT MIN TERM: 0.3025', 'ROBBERY: 0.0977'] Testing Set Results: Percent Correct: 0.5941143808995003 Percent Correct with naive model: 0.5893947806774015 Top features: ['SENTENCE WRT MAX TERM: 0.4121', 'SENTENCE WRT MIN TERM: 0.3022', 'ROBBERY: 0.0998'] Burglary: Training Set Results: Percent Correct: 0.6594696969696969 Percent Correct with naive model: 0.6431818181818182 Top features: ['SENTENCE WRT MAX TERM: 0.5511', 'SENTENCE WRT MIN TERM: 0.4198', 'GENDER: 0.029'] Testing Set Results: Percent Correct: 0.6407879490150638 Percent Correct with naive model: 0.6500579374275782 Top features: ['SENTENCE WRT MAX TERM: 0.5513', 'SENTENCE WRT MIN TERM: 0.421', 'GENDER: 0.0277'] Driving Under Revoked License: Training Set Results: Percent Correct: 0.6483870967741936 Percent Correct with naive model: 0.632258064516129 Top features: ['SENTENCE WRT MAX TERM: 0.5044', 'SENTENCE WRT MIN TERM: 0.4287', 'GENDER: 0.0669'] Testing Set Results: Percent Correct: 0.543778801843318 Percent Correct with naive model: 0.5391705069124424 Top features: ['SENTENCE WRT MAX TERM: 0.5155', 'SENTENCE WRT MIN TERM: 0.4193', 'GENDER: 0.0652'] Forgery 2nd Degree: Training Set Results: Percent Correct: 0.6142684401451027 Percent Correct with naive model: 0.5888754534461911 Top features: ['SENTENCE WRT MAX TERM: 0.534', 'SENTENCE WRT MIN TERM: 0.4184', 'GENDER: 0.0476'] Testing Set Results: Percent Correct: 0.5984848484848485 Percent Correct with naive model: 0.6628787878787878 Top features: ['SENTENCE WRT MAX TERM: 0.533', 'SENTENCE WRT MIN TERM: 0.4151', 'GENDER: 0.0519'] Possession With Intent to Distribute and Similar: Training Set Results: Percent Correct: 0.5785770132916341 Percent Correct with naive model: 0.5293197810789679 Top features: ['SENTENCE WRT MAX TERM: 0.5683', 'SENTENCE WRT MIN TERM: 0.3683', 'GENDER: 0.0635'] Testing Set Results: Percent Correct: 0.5 Percent Correct with naive model: 0.49336283185840707 Top features: ['SENTENCE WRT MAX TERM: 0.5709', 'SENTENCE WRT MIN TERM: 0.3665', 'GENDER: 0.0626'] Possession of Controlled Substance Except Marijuana: Training Set Results: Percent Correct: 0.572928821470245 Percent Correct with naive model: 0.5472578763127188 Top features: ['SENTENCE WRT MAX TERM: 0.497', 'SENTENCE WRT MIN TERM: 0.4297', 'GENDER: 0.0734'] Testing Set Results: Percent Correct: 0.5153846153846153 Percent Correct with naive model: 0.5153846153846153 Top features: ['SENTENCE WRT MAX TERM: 0.4974', 'SENTENCE WRT MIN TERM: 0.4292', 'GENDER: 0.0735'] Possession of Methamphetamine: Training Set Results: Percent Correct: 0.771484375 Percent Correct with naive model: 0.76171875 Top features: ['SENTENCE WRT MIN TERM: 0.4674', 'SENTENCE WRT MAX TERM: 0.4456', 'GENDER: 0.087'] Testing Set Results: Percent Correct: 0.7875 Percent Correct with naive model: 0.7875 Top features: ['SENTENCE WRT MIN TERM: 0.4697', 'SENTENCE WRT MAX TERM: 0.4442', 'GENDER: 0.0861'] Robbery: Training Set Results: Percent Correct: 0.6095947063688999 Percent Correct with naive model: 0.37220843672456577 Top features: ['SENTENCE WRT MAX TERM: 0.5696', 'SENTENCE WRT MIN TERM: 0.3957', 'GENDER: 0.0347'] Testing Set Results: Percent Correct: 0.49760765550239233 Percent Correct with naive model: 0.3923444976076555 Top features: ['SENTENCE WRT MAX TERM: 0.5609', 'SENTENCE WRT MIN TERM: 0.4025', 'GENDER: 0.0365'] Sexual Assault 1st Degree: Training Set Results: Percent Correct: 0.680568720379147 Percent Correct with naive model: 0.628436018957346 Top features: ['SENTENCE WRT MAX TERM: 0.5185', 'SENTENCE WRT MIN TERM: 0.4658', 'GENDER: 0.0157'] Testing Set Results: Percent Correct: 0.6371681415929203 Percent Correct with naive model: 0.672566371681416 Top features: ['SENTENCE WRT MAX TERM: 0.5137', 'SENTENCE WRT MIN TERM: 0.4705', 'GENDER: 0.0158'] Theft: Training Set Results: Percent Correct: 0.6833333333333333 Percent Correct with naive model: 0.6605263157894737 Top features: ['SENTENCE WRT MIN TERM: 0.4658', 'SENTENCE WRT MAX TERM: 0.4552', 'GENDER: 0.079'] Testing Set Results: Percent Correct: 0.6578249336870027 Percent Correct with naive model: 0.6445623342175066 Top features: ['SENTENCE WRT MIN TERM: 0.461', 'SENTENCE WRT MAX TERM: 0.4597', 'GENDER: 0.0792'] Theft By Receiving Stolen Property: Training Set Results: Percent Correct: 0.6291291291291291 Percent Correct with naive model: 0.6081081081081081 Top features: ['SENTENCE WRT MAX TERM: 0.5341', 'SENTENCE WRT MIN TERM: 0.4178', 'GENDER: 0.048'] Testing Set Results: Percent Correct: 0.5833333333333334 Percent Correct with naive model: 0.6031746031746031 Top features: ['SENTENCE WRT MAX TERM: 0.5355', 'SENTENCE WRT MIN TERM: 0.4163', 'GENDER: 0.0482']
Выводы
- В целом, наша модель машинного обучения была более эффективной, чем наивная модель при прогнозировании на обучающей выборке, но столь же эффективна при прогнозировании на тестовой выборке. Это означает, что он успешно распознал некоторые шаблоны в обучающем наборе, но они не были перенесены в набор для тестирования.
- Длина предложения в отношении максимального термина и длина предложения в отношении минимального термина были двумя главными характеристиками для каждой категории, что означает, что модель действительно сочла их важными при угадывании длины предложения, но это не обязательно важно, поскольку модели обычно не являются очень точно.
- Обладание метамфетамином дало интересный результат для тестовой выборки - процент правильных ответов для нашей модели был таким же, как и для наивной модели, что означает, что наша модель, вероятно, предполагала, что каждый преступник был Белым. Поскольку 76,8% преступников в этом преступлении были белыми, это имеет смысл, но все же очень интересно.
- Ограбление также имело интересный результат - для обучающей выборки правильность нашей модели была на 23% выше, чем у наивной модели, а для тестовой она была все еще на 10% выше. Это было, безусловно, наивысшим из преступлений, и его, вероятно, можно отнести к вышеупомянутой чрезмерной представленности чернокожих лиц в грабежах.
Прогнозирование длины предложения
Здесь мы сделали то же самое, что и с прогнозированием расы, за исключением того, что мы попробовали три разные наивные модели - всегда прогнозировали среднее значение, всегда прогнозировали среднее значение или всегда прогнозировали 1 ( режим). Мы также включили гонку в качестве дополнительной функции (с использованием столбцов с горячим кодированием для каждой гонки). Результаты приведены ниже:
All Crimes: Training Set Results: Average Years Off: 1.1607589079130032 Average Years Off with naive model using mean: 1.827314029509284 Average Years Off with naive model using median: 1.696159185562239 Average Years Off with naive model using mode: 1.7584451642757983 Top features: ['SENTENCE WRT MAX TERM: 0.4487', 'SENTENCE WRT MIN TERM: 0.3858', 'GENDER: 0.0205'] Testing Set Results: Average Years Off: 1.1740699611327041 Average Years Off with naive model using mean: 1.6875600605622771 Average Years Off with naive model using median: 1.567740144364242 Average Years Off with naive model using mode: 1.6299278178789562 Top features: ['SENTENCE WRT MAX TERM: 0.4485', 'SENTENCE WRT MIN TERM: 0.3864', 'GENDER: 0.0206'] Burglary: Training Set Results: Average Years Off: 1.3795454545454546 Average Years Off with naive model using mean: 1.5582185491276401 Average Years Off with naive model using median: 1.626515151515151 Average Years Off with naive model using mode: 1.6265151515151515 Top features: ['SENTENCE WRT MIN TERM: 0.4989', 'SENTENCE WRT MAX TERM: 0.4669', 'GENDER: 0.0136'] Testing Set Results: Average Years Off: 1.52954808806489 Average Years Off with naive model using mean: 1.4513681423367522 Average Years Off with naive model using median: 1.544611819235226 Average Years Off with naive model using mode: 1.544611819235226 Top features: ['SENTENCE WRT MIN TERM: 0.5012', 'SENTENCE WRT MAX TERM: 0.4654', 'GENDER: 0.0135'] Driving Under Revoked License: Training Set Results: Average Years Off: 0.8806451612903226 Average Years Off with naive model using mean: 0.911992715920916 Average Years Off with naive model using median: 0.856451612903225 Average Years Off with naive model using mode: 0.8564516129032258 Top features: ['SENTENCE WRT MAX TERM: 0.4963', 'SENTENCE WRT MIN TERM: 0.4541', 'GENDER: 0.0151'] Testing Set Results: Average Years Off: 0.8018433179723502 Average Years Off with naive model using mean: 0.8169636220773425 Average Years Off with naive model using median: 0.774193548387096 Average Years Off with naive model using mode: 0.7741935483870968 Top features: ['SENTENCE WRT MAX TERM: 0.4931', 'SENTENCE WRT MIN TERM: 0.4566', 'GENDER: 0.0153'] Forgery 2nd Degree: Training Set Results: Average Years Off: 1.0181378476420797 Average Years Off with naive model using mean: 1.1849621817469314 Average Years Off with naive model using median: 1.037484885126965 Average Years Off with naive model using mode: 1.037484885126965 Top features: ['SENTENCE WRT MIN TERM: 0.5038', 'SENTENCE WRT MAX TERM: 0.4168', 'GENDER: 0.0369'] Testing Set Results: Average Years Off: 1.1477272727272727 Average Years Off with naive model using mean: 1.0070018365472888 Average Years Off with naive model using median: 0.871212121212121 Average Years Off with naive model using mode: 0.8712121212121212 Top features: ['SENTENCE WRT MIN TERM: 0.505', 'SENTENCE WRT MAX TERM: 0.4163', 'GENDER: 0.0373'] Possession With Intent to Distribute and Similar: Training Set Results: Average Years Off: 1.0742767787333856 Average Years Off with naive model using mean: 1.1186991889798592 Average Years Off with naive model using median: 1.175136825645035 Average Years Off with naive model using mode: 1.1751368256450352 Top features: ['SENTENCE WRT MAX TERM: 0.4807', 'SENTENCE WRT MIN TERM: 0.4588', 'GENDER: 0.0203'] Testing Set Results: Average Years Off: 0.922566371681416 Average Years Off with naive model using mean: 1.087771164539119 Average Years Off with naive model using median: 1.148230088495575 Average Years Off with naive model using mode: 1.1482300884955752 Top features: ['SENTENCE WRT MAX TERM: 0.4816', 'SENTENCE WRT MIN TERM: 0.4589', 'GENDER: 0.0202'] Possession of Controlled Substance Except Marijuana: Training Set Results: Average Years Off: 0.8751458576429405 Average Years Off with naive model using mean: 0.8075278201754006 Average Years Off with naive model using median: 0.707117852975496 Average Years Off with naive model using mode: 0.7071178529754959 Top features: ['SENTENCE WRT MIN TERM: 0.5213', 'SENTENCE WRT MAX TERM: 0.4221', 'GENDER: 0.0258'] Testing Set Results: Average Years Off: 0.8346153846153846 Average Years Off with naive model using mean: 0.6122781065088765 Average Years Off with naive model using median: 0.561538461538462 Average Years Off with naive model using mode: 0.5615384615384615 Top features: ['SENTENCE WRT MIN TERM: 0.5165', 'SENTENCE WRT MAX TERM: 0.4267', 'GENDER: 0.0259'] Possession of Methamphetamine: Training Set Results: Average Years Off: 0.7734375 Average Years Off with naive model using mean: 0.88427734375 Average Years Off with naive model using median: 0.66015625 Average Years Off with naive model using mode: 0.66015625 Top features: ['SENTENCE WRT MIN TERM: 0.6117', 'SENTENCE WRT MAX TERM: 0.3545', 'GENDER: 0.0124'] Testing Set Results: Average Years Off: 0.89375 Average Years Off with naive model using mean: 0.883203125 Average Years Off with naive model using median: 0.6125 Average Years Off with naive model using mode: 0.6125 Top features: ['SENTENCE WRT MIN TERM: 0.6123', 'SENTENCE WRT MAX TERM: 0.3541', 'GENDER: 0.012'] Robbery: Training Set Results: Average Years Off: 1.2928039702233252 Average Years Off with naive model using mean: 2.9327555054762047 Average Years Off with naive model using median: 2.645161290322581 Average Years Off with naive model using mode: 3.1943755169561623 Top features: ['SENTENCE WRT MAX TERM: 0.5686', 'SENTENCE WRT MIN TERM: 0.3688', 'GENDER: 0.0221'] Testing Set Results: Average Years Off: 1.3397129186602872 Average Years Off with naive model using mean: 2.807856962981618 Average Years Off with naive model using median: 2.535885167464115 Average Years Off with naive model using mode: 3.15311004784689 Top features: ['SENTENCE WRT MAX TERM: 0.5667', 'SENTENCE WRT MIN TERM: 0.3699', 'GENDER: 0.0229'] Sexual Assault 1st Degree: Training Set Results: Average Years Off: 1.2966824644549764 Average Years Off with naive model using mean: 4.060600615439881 Average Years Off with naive model using median: 3.630331753554502 Average Years Off with naive model using mode: 4.734597156398104 Top features: ['SENTENCE WRT MAX TERM: 0.6166', 'SENTENCE WRT MIN TERM: 0.347', 'WHITE: 0.0099'] Testing Set Results: Average Years Off: 1.1563421828908556 Average Years Off with naive model using mean: 3.1724227947894583 Average Years Off with naive model using median: 2.899705014749263 Average Years Off with naive model using mode: 4.129793510324483 Top features: ['SENTENCE WRT MAX TERM: 0.6179', 'SENTENCE WRT MIN TERM: 0.3471', 'OTHER: 0.0096'] Theft: Training Set Results: Average Years Off: 1.2526315789473683 Average Years Off with naive model using mean: 1.146075715604802 Average Years Off with naive model using median: 1.100877192982456 Average Years Off with naive model using mode: 1.1008771929824561 Top features: ['SENTENCE WRT MIN TERM: 0.4883', 'SENTENCE WRT MAX TERM: 0.4624', 'GENDER: 0.0193'] Testing Set Results: Average Years Off: 1.16710875331565 Average Years Off with naive model using mean: 1.10216774901674 Average Years Off with naive model using median: 1.037135278514589 Average Years Off with naive model using mode: 1.0371352785145889 Top features: ['SENTENCE WRT MIN TERM: 0.4904', 'SENTENCE WRT MAX TERM: 0.4619', 'GENDER: 0.0186'] Theft By Receiving Stolen Property: Training Set Results: Average Years Off: 0.9864864864864865 Average Years Off with naive model using mean: 1.1954026098170283 Average Years Off with naive model using median: 0.987987987987988 Average Years Off with naive model using mode: 0.987987987987988 Top features: ['SENTENCE WRT MIN TERM: 0.481', 'SENTENCE WRT MAX TERM: 0.4547', 'GENDER: 0.0201'] Testing Set Results: Average Years Off: 1.0436507936507937 Average Years Off with naive model using mean: 1.1678004535147377 Average Years Off with naive model using median: 0.873015873015873 Average Years Off with naive model using mode: 0.873015873015873 Top features: ['SENTENCE WRT MIN TERM: 0.4867', 'SENTENCE WRT MAX TERM: 0.4495', 'GENDER: 0.0199']
Выводы
- Что касается данных в целом, наша модель показала себя немного лучше, чем любая из наивных моделей, которые мы пробовали, при этом среднее количество лет от фактического заключения было примерно на 0,5 года лучше для нашей модели.
- Для некоторых преступлений наша модель была намного лучше, в то время как для других одна или две из наивных моделей были лучше (хотя какие из них менялись между преступлениями). В целом наша модель была более точной, чем любая из наивных моделей.
- Ни одна из расовых категорий (черный, белый или другой) не входит в тройку лучших характеристик для любой категории, кроме сексуального насилия, что предполагает, что раса не является важным фактором при определении длины предложения. Тем не менее, Sexual Assault имеет лучшую точность нашей модели по сравнению с наивными моделями (в среднем примерно на 2 года ближе к реальному приговору), что предполагает, что расовая принадлежность действительно может играть некоторую роль. Кроме того, расовые категории могут выпасть из первой тройки, потому что они представляют собой три отдельные категории, что снижает важность характеристики любой из них.
Выводы
Мы ожидали немедленно найти более убедительные доказательства расовой предвзятости в данных, поскольку мы нашли много примеров в средствах массовой информации. Некоторые предубеждения присутствуют, но для их обнаружения потребовался дополнительный анализ. Например, невозможно было определить разницу в сроках наказания во всех данных о преступлениях, но расовые различия были очевидны в отношении преступлений, связанных с хранением наркотиков, и расового представительства в некоторых преступлениях с более длительным сроком наказания, таких как ограбление.
Часть нашего проекта, посвященная машинному обучению, дала очень интересные результаты в отношении корреляции расы и длины предложения. На основании наших данных и визуализаций неудивительно, что точность нашей модели в целом была не намного лучше, чем у наивных моделей, но мы обнаружили, что наша модель была более точной для каждой категории, в то время как наивная модель была более склонна к ошибкам на основе различия в разных категориях преступлений.
Если бы мы продолжили этот проект, мы бы надеялись взглянуть на более разнообразный набор данных, чем у Небраски, в надежде сделать более конкретные выводы о любых возможных связях между расой и длиной предложения.
Кроме того, чтобы сделать окончательные выводы, нам потребуется больше информации в данных, которые могут объяснить более длинные предложения, которые отсутствуют в наборе Небраски.