Как определить, закодирована ли строка с помощью escape() или encodeURIComponent()

У меня есть веб-служба, которая получает данные от разных клиентов. Некоторые из них отправляют данные, закодированные с помощью escape(), в то время как другие вместо этого используют encodeURIComponent(). Есть ли способ определить кодировку, используемую для экранирования данных?

javascript encoding escaping

Rodrigo 14.08.2009 источник

comment

У меня нет контроля над данными, отправляемыми нашими клиентами, и, как я уже говорил, некоторые из них используют escape(), а другие вместо этого используют encodeURIComponent(). Использование unescape в строке, закодированной с помощью encodeURIComponent(), генерирует неверные символы, и я хочу этого избежать. Является ли юридическая проверка, чтобы посмотреть, есть ли в строке только escape-последовательности в парах, как %xx%xx. - Rodrigo 14.08.2009

comment

Наконец я нашел ответ. decodeURIComponent всегда будет декодировать экранированные символы, поскольку он использует некоторые соглашения для определения для каждого символа, кодируется ли он в utf-8 или ascii. Однако, как отмечает Swingley, если клиент отправляет данные, закодированные с помощью escape(), некоторые данные могут быть потеряны или искажены. Поэтому я даю ему точку. - Rodrigo 02.09.2009

comment

Поскольку encodeURIComponent() использует кодировку символов UTF-8 ›= 128, вы можете на стороне сервера проверить допустимые последовательности UTF-8. Если данные содержат недопустимые последовательности UTF-8, данные были созданы с помощью escape(), и вам, вероятно, придется предположить, что они закодированы в соответствии со стандартом ISO-8859-1. Октеты данных ISO-8859-1 на практике никогда не выглядят как действительные последовательности UTF-8. - krisku 09.08.2016

Ответы (5)

arrow_upward
7
arrow_downward

Поощряйте своих клиентов использовать encodeURIComponent(). Объяснение см. на этой странице: Сравнение escape(), encodeURI() и encodeURIComponent(). Если вы действительно хотите выяснить, как именно что-то было закодировано, вы можете попытаться найти некоторые символы, которые escape() и encodeURI() не кодируют.

Derek Swingley 14.08.2009

comment

Я согласен с этим, но, к сожалению, я не могу заставить клиентов принять стандарт кодирования. - Rodrigo; 16.08.2009

comment

также, может быть, что-то вроде: function isEncoded(str){return decodeURIComponent(str) !== str;} - RobertPitt; 29.04.2012

comment

@RobertPitt спасибо за вашу идею, она сработала для меня. :) - Rehan; 16.03.2018

arrow_upward
12
arrow_downward

Это не поможет на стороне сервера, но на стороне клиента я использовал исключения javascript, чтобы определить, является ли кодировка URL-адреса кодировкой ISO Latin или UTF8.

decodeURIComponent создает исключение для недопустимых последовательностей UTF8.

try {
     result = decodeURIComponent(string);
}
catch (e) {
     result =  unescape(string);                                       
}

Например, умляут 'ä' %E4 в кодировке ISO Latin вызовет исключение в Firefox, а кодировка 'ä' %C3%A4 в кодировке UTF8 - нет.

Смотрите также

mika 25.11.2011

arrow_upward
12
arrow_downward

Я понимаю, что это старый вопрос, но я не знаю лучшего решения. Итак, я делаю это так (благодаря комментарию Роберта Питта выше):

function isEncoded(str) {
    return typeof str == "string" && decodeURIComponent(str) !== str;
}

Я еще не сталкивался со случаем, когда это не удалось. Что не означает, что такого случая не существует. Может быть, кто-то может пролить свет на это.

Dejan Janjušević 13.05.2015

comment

Это не удастся, если что-то закодировано лишь частично, например http://google.de/hello%20world woops. Все еще нужно найти элегантный способ справиться с этим. - maryisdead; 24.06.2016

comment

Это решение не имеет абсолютно никакого отношения к попытке определить, какой из escape() или encodeURIComponent() что-то было закодировано. - krisku; 09.08.2016

arrow_upward
2
arrow_downward

Спасибо @mika за отличный ответ. Возможно, только одно улучшение, поскольку функция unescape считается устаревшей:

declare function unescape(s: string): string;


decodeURItoString(str): string {

 var resp = str;

 try {
    resp = decodeURI(str);
 } catch (e) {
    console.log('ERROR: Can not decodeURI string!');

    if ( (unescape != null) && (unescape instanceof Function) ) {
        resp = unescape(str);
    }
 }

return resp;

}

Dudi 17.08.2017

arrow_upward
0
arrow_downward

Вам не нужно различать их. escape() - это так называемое процентное кодирование, оно отличается от кодирования URI только тем, как кодируются определенные символы. Например, пробел закодирован как %20 с escape-кодом, но + с кодировкой URI. После декодирования вы всегда получаете одно и то же значение.

ZZ Coder 14.08.2009

comment

Они сильно различаются тем, как кодируются не-ascii-символы: encodeURIComponent() создает последовательности, закодированные в процентах UTF-8, а escape() процентно кодирует октеты (как в байтах ISO-8859-1). - krisku; 09.08.2016

Как определить, закодирована ли строка с помощью escape() или encodeURIComponent()

Ответы (5)

Смотрите также

Вопросы по теме