Отключить неанглийские символы?

Одна из моих страниц прослушивается, я получаю сообщение от Google о том, что она на индонезийском языке. Вот ссылка в формате .txt, если хотите: http://lc-roleplay.com/account/actions/modelchange/modelchange.txt

Можно как-то отключить ВСЕ не английские буквы?


person Ariel Weinberger    schedule 07.02.2013    source источник
comment
Что значит прослушивается? глючит? Со всеми стилями на странице и встроенными стилями читать слишком много. Все ошибки проверки тоже не помогают validator.w3.org/ Подсказка: для HTML-комментария <!------- x не совпадает с <!-- x (только два тире для обоих открывающих и закрывающие комментарии) Это что-то генерирует, или вы можете переместить стили в файл .css?   -  person Stephen P    schedule 07.02.2013
comment
Вы можете отключить символы в статическом документе, удалив их.   -  person tadman    schedule 07.02.2013
comment
Индонезийский — один из немногих языков, в котором не используются буквы, кроме базовой латиницы от A до Z, поэтому мало смысла в том, что «неанглийские» символы вызвали неправильную классификацию.   -  person Jukka K. Korpela    schedule 07.02.2013


Ответы (1)


Нет, ты не можешь.

Нет такого понятия, как «английские буквы». То, что вы описываете, это латинские символы, из которых 52, которые появляются в английском языке, также появляются в большинстве других языков.

Кроме того, многие английские слова пишутся с сохранением иностранных акцентов, например, в словах cafe, naïve и façade.

Лучшее, что вы могли бы сделать, это запустить проверку английской орфографии и отклонить любой ввод с заданным процентом орфографических ошибок.

Вы можете применить кодировку ASCII, но это не помешает кому-то дать вам ввод юникода - это просто будет означать, что он неправильно декодируется (и будет выглядеть как тарабарщина)

person jsj    schedule 07.02.2013