Вопросы с тегами [unicode]

0

голосов
0

ответ
4

Просмотры

Как обрабатывать Unicode Ответ WebResponse (RestSharp)

Таким образом, я получаю ответ от сервера, и он использует символы валюты выразить валюту. Эти символы приведены как это в WebResponse: «\ u00a3». Я хотел бы, чтобы закодировать их обратно, так что я получить фактический символ. Во-первых, я думал, что это будет мой консольного выход, так что я изменил кодировку консоли, но это не помогло. Так как я не так хорошо знаком с кодировкой я думал, что я хотел бы получить некоторую помощь здесь. Ответ: "Символ": "\ u00a3" строка ответа = Client.Execute (REQ) .content; То, что я пробовал: Console.OutputEncoding = System.Text.Encoding.UTF8; Вместо «\ u00a3» он должен дать мне «£»
FuseFire
1

голосов
1

ответ
76

Просмотры

Haskell не поддерживает юникод конструктор символов (например: ◁)?

Например: {- # LANGUAGE UnicodeSyntax # -} данные Символического п = Constant п | Переменная строка | Символический п + Символический п | Символический п * Символическая п | Символический п: ◁ Символического п происходящий (Показать) Этот код успешно загружен в GHCi. Тогда я вход: Constant 2: * Переменная «а» Это нормально. Но когда я вход: Constant 2: ◁ переменной «а» *** Исключение:: hPutChar: неверный аргумент (неверный символ) Означает ли это, что Haskell не поддерживает Unicode конструктор символов? Как сделать его поддержку Unicode конструктора символов? Окружающая среда: GHCi 8.6.3 (WinGHCi) для Windows 7 Спасибо. Новое наблюдение: Это работает, когда ◁ появился в исходном файле, но вы не можете ввести ◁ в РЕПЛЕ (я использую WinGHCi).
chansey
1

голосов
2

ответ
40

Просмотры

Итерации над колоннами и str.encode двух dataframes' в utf8

Я в настоящее время работаю на Python 2.7 и имею два dataframes х и у. Я хотел бы использовать какое-то список понимания перебрать и столбцы и использовать str.encode ( 'UTF8) на каждую колонку, чтобы избавиться от Юникода. Это работает прекрасно и легко читается, но хотело бы попробовать использовать что-то более быстрое и эффективное. окра в у: если у [Col] .dtype == 'O': у [Col] = у [Col] .str.encode ( "UTF-8") окра х: если х [Col] .dtype == 'O': х [Col] = х [Col] .str.encode ( "UTF-8") Другие методы я пытался: 1). [у [Col] .str.encode ( "UTF-8" ) окра в у, если у [Col] .dtype == 'O'] 2.) y.columns = [(у [Col] .str.encode ( "UTF-8"), если у [Col] .dtype = = еще у [Col] 'O') окра в г]) 3. y.apply (лямбда х: (у [Col] .str.encode ( "UTF-8") окра в у, если у [Col] .dtype == 'O'
TH14
1

голосов
1

ответ
169

Просмотры

Chrome Rendering of unicode “Heavy Plus/Minus/Division Sign”

Я испытываю странную проблему рендеринга в некоторых версиях Chrome при попытке оказать Юникод U + 2795 THRU U + 2797, тяжелый плюс / минус / Отдел знаки. В некоторых версиях Chrome, знак будет отображаться как уродливые серая с каким-то черным псевдо-контур, который не реагирует на команды CSS цвета. Вот изображение: Для образца того, как он выглядит на любом другом браузере я пробовал, см FileFormat.info - Unicode Character HEAVY Плюсик По некоторым версиям, я имею в виду, я не могу показаться, чтобы сузить ее к конкретному версия Chrome. Та же версия Chrome на двух разных компьютерах, работающих под управлением Win10 будет оказывать по-разному, и я не могу найти, где разница. Является ли это ошибка в Chrome? Я не могу найти где-нибудь еще столкнулся с этой проблемой. Я пытаюсь включить это на веб-сайте, но если некоторые версии Chrome делают это некрасиво, мне нужно найти другое решение. - изменить - XY Задача Моей цель состоит в том, чтобы использовать +/- как «разворачивание / сворачивание» маркеры в складном аккордеоне поле, где фон может быть светлым или темным цветом. Я надеялся, чтобы иметь возможность окрасить их, чтобы соответствовать остальному тексту без необходимости прибегать к изображениям, но, основываясь на комментариях ниже, я начинаю думать, что это может быть легче бросить соединил .svg, перекрасить в CSS и сделать с ней.
user2100826
1

голосов
0

ответ
250

Просмотры

UnicodeDecodeError when filtering then counting a pyspark DataFrame in spark-submit

У меня есть таблица паркета, что мне нужно фильтровать на основе UDF, а затем подсчитать результаты для дальнейшей обработки. Это работает в интерактивном режиме, но не в искровом представить. Я вареные вопрос вниз к простейшим примером. Вот это интерактивный код: В работе [26]: Таблица = table.filter (F.udf (лямбда х: Правда, T.BooleanType ()) ( 'my_field')) В работе [27]: table.count () Выход [ 27]: 819876 Тем не менее, когда я исполняю тот же код, с помощью искры подати (режим кластера пряжи), я получаю следующее: Вызванный: org.apache.spark.api.python.PythonException: Traceback (самый последний вызов последнего) : Файл "{путь} /pyspark/worker.py", строка 137, в главном spark_files_dir = utf8_deserializer.loads (входной_файл) Файл "{путь} /pyspark/serializers.py", строка 549, в нагрузках возврата s.decode ( "UTF-8"), если self.use_unicode ELSE сек UnicodeDecodeError: 'UTF-8' кодек не может декодировать байт 0x80 в позиции 13: неверный старт байт я полностью сбит с толку этим. Любые идеи, для чего может идти неправильно, когда я исполняю выше с помощью искрового представить? версия Python: 3.6.3 искры версия: 2.1.1 Обновление следующих работ в интерактивном режиме: В работе [33]: table.rdd.filter (лямбда х: 'my_term' в x.my_field) .toDF () рассчитывать () Выход [. 33]: 753137 Но когда я пытаюсь работает, что с помощью искрового представить, я получаю следующее сообщение об ошибке: {} some_path /pyspark/serializers.py», строка 547, в грузе с = stream.read (длина) ValueError: чтение длина должна быть положительным или -1
LateCoder
1

голосов
0

ответ
153

Просмотры

how to POST Avro bytes to flask endpoint

Проблема: когда запрос POST отправляется в колбе конечной точку, где поле состоит из необработанных байт (Apache формата Авро), колба автоматически пытается декодировать байты в Unicode, который портит данные. например, когда запрос POST отправляется через тестового клиента питона следующим образом: # часть питона UnitTest данных = { «вкус»: «сладкий»,} схемы = { «имя»: «SimpleData», «тип»: ' запись», '' полей: [{ 'имя': 'вкус', 'тип': 'строка'}]} схемы = json.dumps (схема) avro_bytes = to_avro_files (данные, схемы) simple_data = { 'avro_bytes': avro_bytes, 'погода': 'теплый'} # Обратите внимание, что avro_bytes здесь имеет тип ул и содержание следующим образом (PDB) avro_bytes «Obj \ x01 \ x04 \ x16avro.schema \ XB4 \ x01 { "полей": avro_bytes' получил invalide символы Юникода, как и „\ ufffd“, что делает его невозможным кодировать его обратно к первоначальному avro_bytes. Короче говоря, как предотвратить опоки приложение от попыток расшифровать avro_bytes в Юникод? Спасибо! avro_bytes' получил invalide символы Юникода, как и „\ ufffd“, что делает его невозможным кодировать его обратно к первоначальному avro_bytes. Короче говоря, как предотвратить опоки приложение от попыток расшифровать avro_bytes в Юникод? Спасибо!
732b
1

голосов
0

ответ
306

Просмотры

PowerShell - ошибка преобразования WebRequest результатов в XML

Я хочу, чтобы обрабатывать XML-файл что-то вроде этого: 3463047 2018-02-08T17: 29: 09.3041792 2E47720A-58BC-4AF0-9159-5AD6A40C9792 38d9de5a-dd41-44ca-9ef3-0e404fef4bce A13322D0-CB7F-455B-A7C6-C0CDC2AA4471 AsiiuTimesign Принято в 2018 году -02-08T17: 29: 09,3041792 Документ успешно принят системой на обработку. Что я получаю в результате Invoke-WebRequest: $ URL = "HTTP: // сервер / очереди" $ веб-страница = ([XML] ((Invoke-WebRequest -TimeoutSec 60 $ URL) .content)) Что я получаю это ошибка: не удается преобразовать значение «» набрать «System.Xml.XmlDocument». Ошибка: «Указанный узел не может быть включен в качестве действительного ребенка этого узла, поскольку указанный узел является неправильным типом.» В строке: 5 символов: 1 + $ = Веб-страница ([XML] ((Invoke-WebRequest -TimeoutSec 60 $ URL) .content)) + ~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ + CategoryInfo: InvalidArgument: (:) [], RuntimeException + FullyQualifiedErrorId: InvalidCastToXmlDocument можно ли предположить, почему я не могу преобразовать результаты Invoke-WebRequest к типу XML и как с этим бороться? EDIT Ok, я попытался сохранения содержимого запроса в файл и просматривать его в редакторе HEX, теперь я вижу, что файл начинается с Ф.Ф. fé Ф.Ф. фе. Я также выступал еще один запрос на другой URL, содержание которых РЕЗУЛЬТАТ было литье нормально XML и оказывается, что это был только след фе на старте. Я удалил первый и далее фе из файла, читать его в подлиннике и отливает в XML успешно. Теперь я вижу, что содержимое ответа имеет BOM сам по себе, но когда я бегу ($ ответа). Содержание Я получаю строку с двумя спецификациями. Почему и как я могу получить правильную строку с помощью только одной спецификации?
Viktor Ozerov
1

голосов
0

ответ
193

Просмотры

приложение UnicodeDecodeError Python / Django

Я получаю эту ошибку UnicodeDecodeError в / select_text кодек «UTF-8» не может декодировать байт 0xe7 в позиции 92: недействительный продолжение байт Запрос Метод: POST URL запроса: http://agata.pgie.ufrgs.br/select_text Джанго Версия: 2.0.1 Тип исключения: UnicodeDecodeError Исключение Значение: кодек 'UTF-8' не может декодировать байт 0xe7 в позиции 92: недействительный продолжение байт Exception Расположение: /home/metis/public_html/AGATA/agataenv/lib/python3.4 /codecs.py в декодировании, строка 319 Python Исполняемые: / USR / бен / python3 Python Версия: 3.4.3 Python Путь: [ '/ дом / метис / public_html / AGATA', «/ дом / метис / public_html / AGATA / agataenv /lib/python3.4' , '/home/metis/public_html/AGATA/agataenv/lib/python3.4/plat-x86_64-linux-gnu', «/ дом / метис / public_html / AGATA / agataenv / Библиотека / python3 ,4 / Lib-dynload ' '/usr/lib/python3.4', '/usr/lib/python3.4/plat-x86_64-linux-gnu',' / дом / метис / public_html / AGATA / agataenv / Библиотека /python3.4/site-packages'] Серверное время: чты, 22 февраля 2018 12:29:51 +0000 ошибки Юникода подсказка строки, которая не может быть закодирована / декодированы был: Variaes nvironment: запрос Метод: POST запроса URL: http://agata.pgie.ufrgs.br/select_text Джанго Версия: 2.0.1 Python Версия: 3.4.3 Установленные приложения: [ 'django.contrib.admin', 'django.contrib.auth', «Джанго. contrib.contenttypes', 'django.contrib.sessions', 'django.contrib.messages', 'django.contrib.staticfiles', 'интеллектуальный анализ текста', 'bootstrapform'] установлен Middleware: [ 'django.middleware.security.SecurityMiddleware' «django.contrib.sessions.middleware.SessionMiddleware ' 'django.middleware.common.CommonMiddleware', 'django.middleware.csrf.CsrfViewMiddleware', 'django.contrib.auth.middleware.AuthenticationMiddleware', 'django.contrib.messages.middleware.MessageMiddleware',' Джанго. middleware.clickjacking.XFrameOptionsMiddleware '] Traceback: Файл "/home/metis/public_html/AGATA/agataenv/lib/python3.4/site-packages/django/core/handlers/exception.py" во внутреннем 35. ответ = get_response ( запрос) Файл "/home/metis/public_html/AGATA/agataenv/lib/python3.4/site-packages/django/core/handlers/base.py" в _get_response 128. ответа = self.process_exception_by_middleware (е, запрос) файл "/home/metis/public_html/AGATA/agataenv/lib/python3.4/site-packages/django/core/handlers/base.py"в _get_response 126. ответ = wrapped_callback (запрос, * callback_args, ** callback_kwargs) Файл "/home/metis/public_html/AGATA/textMining/views.py" в select_text 59. text_mining = интеллектуальный анализ текста (file_path, ключевые слова) Файл «/ дома /metis/public_html/AGATA/textMining/TextMining.py»в __init__ 15. self.separete_file_sentences () Файл "/home/metis/public_html/AGATA/textMining/TextMining.py" в separete_file_sentences 31. file_text = text_file.read () .decode ( 'строка-бежать'). декодировать ( "UTF-8") Файл "/home/metis/public_html/AGATA/agataenv/lib/python3.4/codecs.py" в декодировании 319. (результат, потребляются) = self._buffer_decode (данные, self.errors, конечный) Тип: Исключение UnicodeDecodeError в / select_text Exception Значение: кодек 'UTF-8' может»т декодирование байт 0xe7 в позиции 92: недействительное продолжение байты на моем приложении Django, уже на Apache .., не могут понять, что проблема здесь, так как я имею дело с кодировкой (по крайней мере я так думаю ..) Мой код (следуя последовательность): Защита select_text (запрос): book_file = request.FILES [ 'книга'] фс = FileSystemStorage () имя_файл = fs.save (book_file.name, book_file) uploaded_file_url = fs.url (имя_файл) печать (uploaded_file_url ) ключевые слова = [request.POST [ 'keyword_1'], request.POST [ 'keyword_2'], request.POST [ 'keyword_3']] blank_optional_keywords = { 'keyword_2': false, 'keyword_3': Ложные}, если ключевые слова [ 1] == "": blank_optional_keywords [ 'keyword_2'] = True, если ключевые слова [2] == "": blank_optional_keywords [ 'keyword_3'] = True request.session [" blank_optional_keywords "] = blank_optional_keywords #file_name = "LivroMA4_P1_formatado (1) .txt" #file_path = get_file_path (имя_файла 'текст') file_path = get_file_path (uploaded_file_url,«загрузить «) text_mining = интеллектуальный анализ текста (file_path, ключевые слова) text_mining.get_keywords_sentences () предложения = text_mining._keyword_sentences sentences_info = generate_sentences_info (предложения) request.session [ "sentences_info"] = sentences_info возвращения оказывают (запрос, 'интеллектуальный анализ текста / select_text.html', { 'sentences_info': sentences_info}) Функция класса интеллектуального анализа текста: класс интеллектуального анализ текст (объект): Защита __init __ (я, file_path, ключевые слова): самостоятельно._file_path = file_path self._keywords = ключевые слова self._sentences = список () self._keyword_sentences = DICT () self.lower_keywords () self.separete_file_sentences () ... четкости separete_file_sentences (Self): с открытой (self._file_path, «г »кодирование = 'UTF-8'), как text_file: file_text = text_file.read () предложения = nltk.tokenize.sent_tokenize (file_text) для г в диапазоне (LEN (предложений)): если (LEN (предложения [I]) > 0): self._sentences.append (предложения [я]) Я имел дело с этим в течение нескольких дней в настоящее время, пробовал много вещей, но ничего не работает .. urls.py (приложение интеллектуальный анализ текста) urlpatterns = [URL (г '^ $', views.index, 'индекс' имя =), гиперссылка (г '^ select_text', views.select_text, имя = 'select_text '), URL (г' urls.py (TextMiningProject) urlpatterns ^ edit_text», views.edit_text, имя = 'edit_text'), URL (г '^ generate_aiml', views.generate_aiml, имя = 'generate_aiml'),] = [URL (г '^' / администратора, admin.site.urls), URL (г '^', включают в себя ( 'textMining.urls')), статические] + (settings.STATIC_URL, document_root = settings.STATIC_ROOT), если settings.DEBUG является True: urlpatterns + = статическая (settings.MEDIA_URL, document_root = settings.MEDIA_ROOT)] + Статическая (settings.STATIC_URL, document_root = settings.STATIC_ROOT), если settings.DEBUG верно: urlpatterns + = статическая (settings.MEDIA_URL, document_root = settings.MEDIA_ROOT)] + Статическая (settings.STATIC_URL, document_root = settings.STATIC_ROOT), если settings.DEBUG верно: urlpatterns + = статическая (settings.MEDIA_URL, document_root = settings.MEDIA_ROOT)
alvarosps
1

голосов
0

ответ
282

Просмотры

jupyter ноутбук с юникод символов PDF преобразовательных задач

Я делал класс заметки по математике с некоторыми юникод символы (упрощенный китайский, в моем случае) в нем. И когда я пытался преобразовать его в PDF файл, он выскочил ошибку 500. Сообщение об ошибке гласит: ... ****************************************** ******* ( "E: \ Program Files (x86) \ MiKTeX 2,9 \ текс \ латексная \ FontSpec \ fontspec.sty" ( "E: \ Program Files (x86) \ MiKTeX 2,9 \ текс \ латексная \ FontSpec \ FontSpec-xetex.sty "( "E: \ Program Files (x86) \ MiKTeX 2,9 \ текс \ латексная \ база \ fontenc.sty"(" E: \ Program Files (x86) \ MiKTeX 2,9 \ текс \ латексная \ база \ tuenc.def ")) (" E: \ Program Files (x86) \ MiKTeX 2,9 \ текс \ латексная \ FontSpec \ fontspec.cfg ") Неопределенная последовательность управления \ LaTeX3 ошибка:.! Ошибочная переменная \ c__fontspec_shape_n_n_tl используется l.3806 ?!. \ emfontdeclare {\ emshape \ eminnershape} Аварийная остановка \ LaTeX3 ошибка: Ошибочное переменная \ c__fontspec_shape_n_n_tl используется! l.3806 \ emfontdeclare {\ emshape, \ eminnershape} Нет страниц выхода. Стенограмма написано на notebook.log. Я предполагаю, что FontSpec часть пошла не так, но я не знаю, как ее решить. Для информации, вот что я сделал, прежде чем я получил ошибку 500. 1.I've установил pandoc, и у меня уже есть MikTex раньше; 2.I've изменил файл ... \ nbconvert \ Шаблоны \ латексная \ article.tplx переписан класс статьи, чтобы быть ctexart; 3.I've изменил файл ... \ nbconvert \ Шаблоны \ латексная \ экспортеров \ pdf.py переписана команда латексная быть latex_command = List ([и "xelatex", и "{имя файла}"], конфиг = True , помощь = «команда Shell используется для компиляции латекса») 4.I've также попытался это: «https://github.com/ipython/ipython/issues/7150», которая стремится преобразовать файл ipynb в латексной файл, а затем в формат PDF. И это не работает для меня тоже. Основная причина заключается в том, что конфигурационный файл не может быть найден с помощью команды jupyter nbconvert. Для вашей информации, моя ОС Win7 Окончательный x64, с Chrome для Anaconda3 jupyter ноутбука. Спасибо заранее для тех, кто занимает время, чтобы прочитать мой пост. Любая помощь будет оценена.
Pats Chen
1

голосов
2

ответ
56

Просмотры

Преобразование сломанной строки байт из Юникода обратно в соответствующие байты

Следующий код извлекает объект Iterable строк в строках, который содержит поток в формате PDF байт. Строка строка была типом ул. Результирующий файл был формат PDF и может быть открыт. с открытым (имя_файл, «термометр»), как ФД: для строки в строках: fd.write (строка) из-за новые C-библиотекой и изменения в реализации Python НТР изменения в Unicode. И соответствующее содержание изменилось, а поэтому мой файл PDF сломан. Исходные байты первого объекта строки: старая строка [0]: 25 50 44 46 31 2D 2E 33 0D 0A 25 Е2 Е3 CF-D3 0D 0A ... новая строка [0]: 25 50 44 46 31 2D 2E 33 0D 0A 25 C3 A2 C3 A3 C3 8F C3 93 0D 0A ... я регулирую соответствующие позиции байт здесь, так это выглядит как проблема юникода. Я думаю, что это хорошее начало, но я до сих пор юникод строку в качестве входных данных ... >>> «\ xc3 \ XA2» .decode ( «utf8» ) # Но в качестве входных данных у меня есть U «\ xc3 \ xa2» и «\ XE2» Я уже пробовал несколько вызовов кодирования и декодирование, поэтому мне нужен более аналитический способ, чтобы исправить это. Я не могу видеть лес за деревьями. Спасибо.
wenzul
1

голосов
0

ответ
41

Просмотры

область генерирует при получении данных, который кодируется в UTF-8

Я использую область для хранения и извлечения UTF-8 для Непальский (Деванагари) символов, но при получении также генерации, которая не является Непальский (Деванагари) характер и не сохраняются. Как решить эту проблему? Наряду с областью я использовал Gson и переоснащение. Gson gson = новый GsonBuilder () disableHtmlEscaping () создать ()..; Окончательный RealmResults realmObj = realm.where (Information.class) .findAll (); если (realmObj! = NULL) {Список OBJ = realm.copyFromRealm (realmObj); Строка JSON = gson.toJson (OBJ); }, Который генерирует 25 दखि 40 वर्षः
Aaiam Litigoner
1

голосов
0

ответ
222

Просмотры

Тройные кавычки Юникода в соответствии с питоном

Я пытаюсь использовать тройные кавычки, чтобы обозначить большой комментарий, но я получаю новую ошибку, которая говорит SyntaxError: неверная строка (возможно, содержит юникод символ) в строке 2 Вот код. «»»Напишите программу, которая запрашивает у пользователя, сколько имен у них есть. (Если у них есть имя, два отчества и фамилия, например, они типа 4.) Затем, используя для цикла, спросите пользователь для каждого из их имен. И, наконец, распечатать их полное имя «»»Тройные кавычки, что у меня проблемы с теми, в верхней части. С этой информацией из пути, на мой вопрос «тройные кавычки Юникода в соответствии с питоном?» Если это повторение пост, не стесняйтесь, чтобы переместить его.
Caleb Way
1

голосов
0

ответ
20

Просмотры

Unicode столбцы со строками в MonoSpace

Я пишу довольно-печать библиотеку комбинатора, а это значит, что я выложив данные с древовидной структурой в (вероятно) моноширинном шрифте. Для того, чтобы заложить его, мне нужно знать, насколько широко она будет. Я хотел бы сделать это без участия какого-либо конкретного двигателя рендеринга или шрифту шансы есть, это будет сбрасываться на терминал большую часть времени. Есть правильный способ сделать это? Из моего чтения, я имею в виду, что графема кластеры являются одним разумным приближением. Есть ли способ иметь дело с символами, которые, как правило, Полноширинными? Что еще мне нужно беспокоиться?
rieux
1

голосов
0

ответ
280

Просмотры

Создание файла TFRecord вызывает UnicodeDecodeError при считывании

Я следую инструкциям, чтобы создать файл TFRecord в этом примере для обнаружения объекта: https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/using_your_own_dataset.md Я создал ноутбук Jupyter с Python 3.6.4 и 1.6.0 TensorFlow с этими инструкциями. Я изменил назначение значения внутри create_tf_example, чтобы ввести правильную информацию из моего примера (который является PIL изображения): Защита create_tf_example (пример): высота = ширина example.height = example.width имя_файл = tf.compat.as_bytes (example.filename ) # Преобразование изображения в байтах для TF = imgByteArr io.BytesIO () example.save (imgByteArr, формат PNG = '') imgByteArr = imgByteArr.getvalue () encoded_image_data = tf.compat.as_bytes (imgByteArr, кодирование = "UTF-8 «) # кодированное изображение байт image_format = Ь» dataset_util.float_list_feature (ymins), 'изображение / объект / BBOX / утах': dataset_util.float_list_feature (ymaxs), 'изображение / объект / класс / текст': dataset_util.bytes_list_feature (classes_text), 'изображение / объект / класс / метка' : dataset_util.int64_list_feature (классы),})) возвращают tf_example Однако, это создаст файл без проблем и при попытке прочитать его еще раз, я получаю сообщение об ошибке. Это та же ошибка, когда я пытаюсь прочитать файл TFRecord позже с TensorFlow (label_map_util.load_labelmap (PATH_TO_LABELS)):. Открытый ( 'данные / tfrecord / label_map.pbtxt') чтение () --------- -------------------------------------------------- ---------------- UnicodeDecodeError Traceback (самый последний вызов последнего) в () ----> 1 разомкнут ( 'данные / tfrecord / label_map.pbtxt'). прочитать () ~ / Документы / ... /bin/../lib/python3.6/codecs.py в декодировании (сам, вход, заключительный) вход 319 # декодирования (принимая во внимание буфера) 320 данных = self.buffer + входной сигнал -> 321 (результат, потребляемая) = self._buffer_decode (данные, self.errors, окончательные) 322 # держать недекодированная ввод до следующего вызова 323 self.buffer = данные [потребляться:] UnicodeDecodeError: кодек 'UTF-8' не может декодировать байт 0xbe в положении 10: неверный старт байт это не для меня ясно, что я должен делать по-другому из-за tf_example.SerializeToString (), кажется, делает кодировку строки в примере. Вот вывод, если он помогает от открытого ( «данных / tfrecord / label_map.pbtxt», «гь») следующим образом ():. Б»
Chris Butler
1

голосов
0

ответ
487

Просмотры

Как устранить ошибку кодирования json.load в Python? [Дубликат]

This question already has an answer here: UnicodeEncodeError: 'charmap' codec can't encode characters 5 answers Python, Unicode, and the Windows console 13 answers I'm trying to convert a JSON text file into a python object (and also print the text to the console) I'm getting an error to do with encoding characters. I'm using Python 3.6.5 and Windows Powershell to execute the script. The Python code: import json f = open("z.txt", "r", encoding='utf-8') test = f.readline() testa = json.loads(test) print(testa) test = f.readline() testb = json.loads(test) print(testb) f.close() The Powershell code to execute the script: python tweetsentiment.py The text file with JSON test: {"created_at":"Mon Apr 02 18:54:15 +0000 2018","id":980881109440331776,"id_str":"980881109440331776","text":"@MyOtterName @OBrienslife @mikefarb1 Agree. The hate, judgment & self-righteousness was what Jesus preach against m\u2026 https:\/\/t.co\/v40MxsR6Ul","display_text_range":[37,140],"source":"\u003ca href=\"http:\/\/twitter.com\/download\/iphone\" rel=\"nofollow\"\u003eTwitter for iPhone\u003c\/a\u003e","truncated":true,"in_reply_to_status_id":980136581217402880,"in_reply_to_status_id_str":"980136581217402880","in_reply_to_user_id":836670766368219136,"in_reply_to_user_id_str":"836670766368219136","in_reply_to_screen_name":"MyOtterName","user":{"id":4808517884,"id_str":"4808517884","name":"LHAinColorado","screen_name":"LeslieArnoldH2O","location":"Colorado Springs, CO","url":null,"description":"CO Mother of 4 daughters who've turned out amazing & hilarious despite my best attempts! Politics is my porn-I'm a CO St delegate, marketing GOP to Millennials","translator_type":"none","protected":false,"verified":false,"followers_count":488,"friends_count":369,"listed_count":10,"favourites_count":8311,"statuses_count":6498,"created_at":"Sun Jan 24 17:21:46 +0000 2016","utc_offset":null,"time_zone":null,"geo_enabled":true,"lang":"en","contributors_enabled":false,"is_translator":false,"profile_background_color":"F5F8FA","profile_background_image_url":"","profile_background_image_url_https":"","profile_background_tile":false,"profile_link_color":"1DA1F2","profile_sidebar_border_color":"C0DEED","profile_sidebar_fill_color":"DDEEF6","profile_text_color":"333333","profile_use_background_image":true,"profile_image_url":"http:\/\/pbs.twimg.com\/profile_images\/706731508761911296\/W2FcpICp_normal.jpg","profile_image_url_https":"https:\/\/pbs.twimg.com\/profile_images\/706731508761911296\/W2FcpICp_normal.jpg","profile_banner_url":"https:\/\/pbs.twimg.com\/profile_banners\/4808517884\/1457332934","default_profile":true,"default_profile_image":false,"following":null,"follow_request_sent":null,"notifications":null},"geo":null,"coordinates":null,"place":{"id":"adc95f2911133646","url":"https:\/\/api.twitter.com\/1.1\/geo\/id\/adc95f2911133646.json","place_type":"city","name":"Colorado Springs","full_name":"Colorado Springs, CO","country_code":"US","country":"United States","bounding_box":{"type":"Polygon","coordinates":[[[-104.910562,38.741142],[-104.910562,39.035895],[-104.668092,39.035895],[-104.668092,38.741142]]]},"attributes":{}},"contributors":null,"is_quote_status":false,"extended_tweet":{"full_text":"@MyOtterName @OBrienslife @mikefarb1 Agree. The hate, judgment & self-righteousness was what Jesus preach against most, meaning Evangels aren\u2019t following the basics of the faith: to love God, our neighbors & ourselves. To treat ppl how we want to be treated & look @ ppl\u2019s \u201cfruits\u201d to know believers (aka DJT=rotten)","display_text_range":[37,328],"entities":{"hashtags":[],"urls":[],"user_mentions":[{"screen_name":"MyOtterName","name":"Holly in SD","id":836670766368219136,"id_str":"836670766368219136","indices":[0,12]},{"screen_name":"OBrienslife","name":"BlueWave","id":269347200,"id_str":"269347200","indices":[13,25]},{"screen_name":"mikefarb1","name":"MikeFarb","id":111683028,"id_str":"111683028","indices":[26,36]}],"symbols":[]}},"quote_count":0,"reply_count":0,"retweet_count":0,"favorite_count":0,"entities":{"hashtags":[],"urls":[{"url":"https:\/\/t.co\/v40MxsR6Ul","expanded_url":"https:\/\/twitter.com\/i\/web\/status\/980881109440331776","display_url":"twitter.com\/i\/web\/status\/9\u2026","indices":[121,144]}],"user_mentions":[{"screen_name":"MyOtterName","name":"Holly in SD","id":836670766368219136,"id_str":"836670766368219136","indices":[0,12]},{"screen_name":"OBrienslife","name":"BlueWave","id":269347200,"id_str":"269347200","indices":[13,25]},{"screen_name":"mikefarb1","name":"MikeFarb","id":111683028,"id_str":"111683028","indices":[26,36]}],"symbols":[]},"favorited":false,"retweeted":false,"filter_level":"low","lang":"en","timestamp_ms":"1522695255037"} {"created_at":"Mon Apr 02 18:54:15 +0000 2018","id":980881110027636738,"id_str":"980881110027636738","text":"\u00c9 diferente de todas que conquistei, \u00e9 diferente de todas que beije","source":"\u003ca href=\"http:\/\/twitter.com\/download\/android\" rel=\"nofollow\"\u003eTwitter for Android\u003c\/a\u003e","truncated":false,"in_reply_to_status_id":null,"in_reply_to_status_id_str":null,"in_reply_to_user_id":null,"in_reply_to_user_id_str":null,"in_reply_to_screen_name":null,"user":{"id":769872297285062656,"id_str":"769872297285062656","name":"J\u00e3o","screen_name":"jvmo7eira","location":"RJ","url":"https:\/\/www.instagram.com\/jv7_moreira","description":"carioc\u00e3o, cara | @flamengo \u2665\ufe0f\ud83d\udda4","translator_type":"none","protected":false,"verified":false,"followers_count":383,"friends_count":332,"listed_count":0,"favourites_count":4741,"statuses_count":4104,"created_at":"Sun Aug 28 12:20:34 +0000 2016","utc_offset":null,"time_zone":null,"geo_enabled":true,"lang":"pt","contributors_enabled":false,"is_translator":false,"profile_background_color":"F5F8FA","profile_background_image_url":"","profile_background_image_url_https":"","profile_background_tile":false,"profile_link_color":"1DA1F2","profile_sidebar_border_color":"C0DEED","profile_sidebar_fill_color":"DDEEF6","profile_text_color":"333333","profile_use_background_image":true,"profile_image_url":"http:\/\/pbs.twimg.com\/profile_images\/977590186971459584\/YGqLCuG-_normal.jpg","profile_image_url_https":"https:\/\/pbs.twimg.com\/profile_images\/977590186971459584\/YGqLCuG-_normal.jpg","profile_banner_url":"https:\/\/pbs.twimg.com\/profile_banners\/769872297285062656\/1500909230","default_profile":true,"default_profile_image":false,"following":null,"follow_request_sent":null,"notifications":null},"geo":null,"coordinates":null,"place":{"id":"4029837e46e8e369","url":"https:\/\/api.twitter.com\/1.1\/geo\/id\/4029837e46e8e369.json","place_type":"city","name":"Nova Igua\u00e7u","full_name":"Nova Igua\u00e7u, Brasil","country_code":"BR","country":"Brasil","bounding_box":{"type":"Polygon","coordinates":[[[-43.681932,-22.865838],[-43.681932,-22.527218],[-43.366801,-22.527218],[-43.366801,-22.865838]]]},"attributes":{}},"contributors":null,"is_quote_status":false,"quote_count":0,"reply_count":0,"retweet_count":0,"favorite_count":0,"entities":{"hashtags":[],"urls":[],"user_mentions":[],"symbols":[]},"favorited":false,"retweeted":false,"filter_level":"low","lang":"pt","timestamp_ms":"1522695255177"} And the error code returned: python : Traceback (most recent call last): At line:1 char:1 + python tweetsentiment.py + ~~~~~~~~~~~~~~~~~~~~~~~~ + CategoryInfo : NotSpecified: (Traceback (most recent call last)::String) [], RemoteException + FullyQualifiedErrorId : NativeCommandError File "tweetsentiment.py", line 22, in print(testb) File "C:\Program Files (x86)\Python36-32\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 685-687: character maps to The file that I'm opening consists of two lines of json extracted from twitter. The first line loads and prints out just fine to the console, via the "testa" variable. The second line, via "testb", however, fails when converting json, , returning the aforementioned error code. The characters in position 685-687 that the error referrs to (if I'm looking in the right place) appear as "car" when opened up in notepad++ - nothing unusual. I've seen other dozens of posts similar to my sitation and have tried all the solutions - different encodings, no encoding, using "chcp" in command line, adding "-sig" etc - to no avail. Does anyone have any idea what the issue might be here? Edit1: Include JSON text Edit 2: The suggested solution (adding .encode to print) does not solve the issue. The same error occurs.
sytup
1

голосов
2

ответ
88

Просмотры

Как правильно запустить питон скрипт с кодировкой UTF-16BE?

У меня есть исходный файл test.py закодированный в UTF-16BE: # кодирование = UTF-16BE печать «тест UTF-16» Когда я запускаю следующую команду в моем Баш: питон test.py Ничего не распечатывается в моем терминале. Это почему? Как мне с этим бороться? Это зависит от кодирования моего Баша по умолчанию?
VeryLazyBoy
1

голосов
1

ответ
236

Просмотры

Отправить Emoji от EditText к серверу

Я посылаю текст из поля EditText на мой сервер и сохранить его в базе данных Mysql. Он отлично работает. Но когда я пытаюсь отправить Emojis отправляет только текст. Так что Google что-то и выяснить, что единственным решением является преобразование EditText Value. . Я попробовал следующее: String = toServer EditText.getText () GetString (); Строка toServerUnicodeEncoded = StringEscapeUtils.escapeJava (toServer); Теперь Emojis имеют формат Java Юникода. Почти ... К примеру. Это должно быть «\ u2764», но на моем сервере он получает «u2764». Так что не отправить «\». Я попытался отправить строку «\ u2764» на сервер. оно работает. Есть ли кто-нибудь может сказать мне, почему он не послал правильный «\ u2764» и удалить «\» ...
Oliver Schröttle
1

голосов
0

ответ
201

Просмотры

Error decoding byte string in Python3 [TypeError: must be str, not bytes]

Я пытаюсь использовать в Python 3.6 кусок кода, написанного на Python 2.7, и у меня возникают проблемы управления различия в том, как байтовые строки обрабатываются. Код предназначен для чтения .dat файл, который существовал прежде, чем я написал свой код. Запуск нетронутую P2.7 сценарий возвращает следующее сообщение об ошибке: импорт NumPy в н.п. бафф = '' Dt = np.dtype ([( 'var1', np.uint32, 1), ( 'var2', np.uint8, 1) ]) с открытым (имя файла, 'Rb'), как F: для линии в F: = DAT линии ---> положительный эффект + = данные DAT = np.frombuffer (буфер = положительный эффект, DTYPE = дт) Ошибка типа: должен быть Str, не байты Если я правильно, в то время как python2 будет конкатенации считанных байтов в строку нагишом, не жалуясь, python3 заботится о разнице между байтами и строками. Приведение строки к Силе (строка) возвращает следующую ошибку: для линии в F: DAT = Str (линия) баф + = Даты -> данные = np.frombuffer (буфер = любитель, DTYPE = дт) AttributeError: 'ул' объект не имеет атрибута '__buffer__' Как я должен идти об этом? Какой должен быть положительный эффект? Любые решения, которые будут работать на P2.7 и P3.6? EDIT Оказывается, данные в filename.dat не из Юникода строк вообще. Я редактировал вопрос, чтобы удалить упоминание моего ошибочного предположения, и я добавил строки коды я опущенные в попытке показать минимальный пример, который я теперь понимаю, актуальны. Извините за сумбур. 6? EDIT Оказывается, данные в filename.dat не из Юникода строк вообще. Я редактировал вопрос, чтобы удалить упоминание моего ошибочного предположения, и я добавил строки коды я опущенные в попытке показать минимальный пример, который я теперь понимаю, актуальны. Извините за сумбур. 6? EDIT Оказывается, данные в filename.dat не из Юникода строк вообще. Я редактировал вопрос, чтобы удалить упоминание моего ошибочного предположения, и я добавил строки коды я опущенные в попытке показать минимальный пример, который я теперь понимаю, актуальны. Извините за сумбур.
Thiago Gouvea
1

голосов
0

ответ
13

Просмотры

Написать Unicode письма в базу данных через JPQL

У меня есть база данных, которая содержит таблицу, которая имеет столбец с типом данных NVARCHAR2. Это означает, что он может хранить данные в кодировке Юникод. Хорошая вещь, когда я ввожу, например, китайские буквы вручную, я могу читать их через JPQL и напечатать их в моей консоли. Плохо то, когда я вставляю что-то через JPQL в нее, каждый не латинская буква меняется на «¿». Кто-нибудь из вас знает, как я могу решить эту проблему?
Justin Holze
1

голосов
0

ответ
53

Просмотры

python3 pymysql выборки неанглийских данных

Я использую Python 3.4 с pymysql для загрузки данных из MySQL. Проблема в том, что я не могу получить не английские данные. Когда я запускаю следующий код я получаю UnicodeEncodeError: 'ASCII' кодек не может кодировать символы в позиции 146-154: порядковый не в диапазоне (128) # - * - кодирование: UTF-8 - * - импорт pymysql дб = pymysql. подключения (... кодировок = 'utf8', use_unicode = True) дворняжка = db.cursor (pymysql.cursors.DictCursor) cur.execute ( "" "SELECT ..." "") для строки в дворняжка: печать (строка [ «содержание»]) Затем я попытался запустить скрипт с PYTHONIOENCODING = UTF-8, и выводит смешанный выход:
com
1

голосов
0

ответ
508

Просмотры

UnicodeDecodeError: кодек «UTF-8» не может декодировать байт 0x80 в позиции 3131: недопустимый начальный байт в моем коде

Когда я пытаюсь добавить следующий код дает мне ошибку. Я устанавливал каждый модуль питона, включая NLTK. Я добавил LXML nampy, но он не будет работать. Я использую python3 и в этом случае я изменил urllib2 к urllib.requests. Пожалуйста, помогите мне найти решение. Я бегу это как питон index.py Мой индексный файл приведен ниже. Это код: от BS4 импорта BeautifulSoup из urllib.request импорта urlopen импорта повторного импорта SSL импорта ОС импорта NLTK из nltk.corpus импорта из игнорируемых слов nltk.tokenize импорта word_tokenize импорта кодеков DEF checkChar (маркер): для полукокса в знак: если ( 0
1

голосов
1

ответ
127

Просмотры

Что такое реалистичное максимальное количество юникода объединения символов?

Я ищу максимальное число Юникода объединения символов, которые появляются после того, как не-совмещая один в реалистическом естественном тексте. Я знаю, что в юникод текст может быть произвольное количество combinings размещенных в любом месте текста. Тем не менее, я пишу специализированное приложение, которое должны работать в ограниченных ресурсах и из-за этого и другие технические причины, отображая произвольное число сочетающих символов после того, как не-совмещая один не вариант. Однако я все же хотел бы отображать естественные языки должным образом, если это возможно, и поддержка небольшого числа combinings не должно быть проблемой. Моя интуиция, что естественные языкам не нужно больше, чем какой-то два или три combinings после надлежащего полукокса, но я не уверена, и не может найти любой источник по этому номеру.
kralyk
1

голосов
1

ответ
109

Просмотры

SuperScript символы в результате к нежелательным символам в сгенерированном файле CSV при использовании ICsvListWriter

Я пытаюсь писать надстрочный символы в CSV-файле. Я использую метод записи (список столбцов) org.supercsv.io.ICsvListWriter. В генерироваться .csv файл верхнего индекса символа приходит вместе с мусорным характером перед ним. Список столбцов = новый ArrayList (); Строка туЗЬптд = "abcd1"; columns.add (myString.replaceAll ( "1", "¹")); csvWriter.write (колонны); В сгенерированный файл .csv он приходит в abcd¹ я также попытался с Юникода, но это не помогает. columns.add (myString.replaceAll ( "1", "\ u00B9")); Любое предложение здесь, пожалуйста?
Nags
1

голосов
1

ответ
216

Просмотры

Как показать особый характер в UILabel прошивке

Я пытаюсь реализовать приложение, в котором я хотел бы показать текст в испанском формате. Например, я хотел бы показать «España», но в моем лейбле он показывает «Espa√ɬ ± а», а также он изменяет текст некоторых из другого текста. Как избавиться от них. Если кто-то может помочь. Благодарю. Изменить: Когда я получаю мой ответ он записывает, что результат ниже Message = ( "Espa \ U221a \ U00c9 \ U00ac \ U00b1a: 1,3 \ U221a \ U00c7 \ U00ac \ U00a2 / мин"); Но когда я извлечь значение в соответствии с ключом из словаря она показывает Espa√ɬ ± а: 1.3√Ǭ ¢ / мин Это означает, что, когда я получаю значение из словаря наклоняет сделать правильное декодирование. как решить эту проблему. Любая идея..?
Mr. Tann
1

голосов
0

ответ
67

Просмотры

UTF преобразовать байт

Этот код компилируется в Visual Studio 2017, но не компилируется в Visual Studio 2015 Я хочу скомпилировать в Visual Studio .Why Don `T компилировать? показать ошибка вроде как ошибка CS0103 имя «b00001111» не существует в текущем контексте общественности IEnumerable AsUtf8 () {// до 7 бит если (значение 6))); // тег + верхние 5 битов дают возвращение (байт) (0b10000000 | (0b00111111 & Value)); // тег + нижние 6 битов дают перерыв; } // до 16 бит, если (значение> 12))); // тег + верхние 4 бита дают возвращение (байт) (0b10000000 | (0b00111111 & Value (>> 6))); // тег + последующие 6 битов дают возвращение (байт) (0b10000000 | (0b00111111 & Value)); // тег + последние 6 битов дают перерыв; } // до 21 бит, если (значение> 18))); // тег + верхние 3 бита дают возвращение (байт) (0b10000000 | (0b00111111 & (Значение >> 12))); // тег + Следующие 6 битов дают возвращение (байт) (0b10000000 | (0b00111111 & (Value >> 6))); // тег + последующие 6 битов дают возвращение (байт) (0b10000000 | (0b00111111 & Value)); // тег + последние 6 битов дают перерыв; } Певд UnsupportedCodepointException (); }
Huseyn Hesenli
1

голосов
1

ответ
391

Просмотры

PDFBox бросает ошибку при извлечении текста кодируется шрифт DejaVu Sans сокращённого

PDDocument документ = PDDocument.load (файл); если (document.isEncrypted ()) {document.setAllSecurityToBeRemoved (ложь); } PDFTextStripper стриппер = новый PDFTextStripper (); //stripper.setSortByPosition (истина); Строка текста = stripper.getText (документ); System.out.println (текст); OutputStreamWriter писатель = новый OutputStreamWriter (новый FileOutputStream ( "C: \\ preface.txt"), StandardCharsets.UTF_8); writer.write (текст); writer.flush (); writer.close (); Я пытаюсь извлечь текст из PDF-файла, закодированного с Дежавю Sans конденсируется и DejaVu Sans Condensed-Bold, но он выдает ошибку, приведенную ниже: СИЛЬНЫЙ: Не удалось прочитать ToUnicode CMap в шрифт DejaVuSansCondensed java.io.IOException: Ошибка: ожидается конец словарь. на org.apache.fontbox.cmap.CMapParser.parseNextToken (CMapParser. Нет отображения Unicode для CID + 98 (98) в купели DejaVuSansCondensed июн 03, 2018 1:30:59 AM org.apache.pdfbox.pdmodel.font.PDType0Font ToUnicode ПРЕДУПРЕЖДЕНИЕ: отображение Нет Unicode для CID + 105 (105) в шрифте DejaVuSansCondensed Я также считаю, что нет никакого отображения юникода для конкретного набора файлов в формате PDF. Просьба помочь с написанием отображения юникода этой программы PS Я новичок в PDFBox вещи
Praveen Kenny
1

голосов
1

ответ
67

Просмотры

Python колба-успокоительные reqparser JSON со списком JSON

{ "Продукты": [{ "PRODUCT_ID": "123"}, { "PRODUCT_ID": "124"}]} Теперь, как получить доступ к product_ids, как мне нужно, чтобы получить 123,124 Pls помощь. Я получаю в юникоде кроме того от клиента
Srini Akhil
1

голосов
0

ответ
45

Просмотры

Python сохранить в текстовый файл с UTF-8 ивритом показывает, как Юникод \ u05d9 \ u05dc \

Я хочу сохранить объект словаря как JSON, но я не могу прочитать файл с помощью блокнота ++. Все еврейские charcthers преобразуются в \ и .... Это, как я сохранить его: с открытым ( "users.json", "ш", кодировка = 'utf8'), как write_file: json.dump (mydict, write_file) В PyCharm я вижу на иврите правильно.
Sion C
1

голосов
1

ответ
65

Просмотры

Как заставить браузер не показывать мне смайлик и вместо того, чтобы показать мне Юникод смайликов?

Я работаю над хромированной версии 67.0.3396.99 и Mac OS 10.13.5 (17F77). В моем HTML, я не хочу, чтобы преобразовать браузер смайлик в это юникод текст. Я прочитал этот ответ, и это не помогло мне много, даже если я добавил ︎. Как я могу это сделать?
Ajay Gaur
1

голосов
0

ответ
42

Просмотры

Настройка SQL Server для использования Юникода литералов по умолчанию

Мы мигрируем классическое приложение ASP, с помощью SQL Server, чтобы MULtilanguage, и для этого, в качестве первого шага мы должны перейти от ANSI / Windows-1252 кодировки в Unicode. Мы имеем успех двигая программы ASP (экономия, то в UTF-8 с BOM сделать трюк), но теперь перед нами проблемы SQL Server. Мы преобразовали все столбцы CHAR в NCHAR и от VARCHAR к NVARCHAR. Наша проблема возникает в динамических операторах SQL (я знаю, я знаю, мы удалим его в будущем). Когда мы используем Unicode строковый литерал, руководство SQL Server требует, чтобы использовать формат N'MyUnicode»(префикс в верхнем регистре N буквальный). Но это кошмар для нас (мы должны искать код, поиск литералов, но только в операторах SQL Есть ли способ для запроса SQL рассмотреть любые буквальное, как Unicode нашего тестового кода:.? 1 и 3 работы, 2 терпит неудачу Наша тестовая таблица, как этот CREATE TABLE [DBO]. [Тест] ([HTML] [NVARCHAR] (50) NULL, [UNICODE] [NVARCHAR] (50) NULL, [TESTBIT] BIT) ON [PRIMARY] GO INSERT [DBO]. [тест] ([HTML], [UNICODE], TESTBIT) VALUES (n'a 'n'a', 1), (п'е 'п'е', 1), / * Греческий Delta Δ * / (N'Δ 'N'Δ', 0); ИДТИ
Sourcerer
1

голосов
0

ответ
60

Просмотры

PHP7 UTF-8 элемента кода избежать последовательностей с переменным [дубликатом]

Этот вопрос уже есть ответ здесь: PHP Unicode элемент кода для символа 2 ответов PHP: Преобразование Юникода в элемент кода UTF-8 9 ответов PHP 7 введен Unicode элемент кода Бегство Синтаксис, который очень прост в использовании, но я не могу заставить его работать с переменная как элемент кода. эхо "\ и {1f602}"; // отголоски 😂 $ эм = "1f602"; эхо Sprintf ( "\ и {% х}", $ эм); // возвращает ошибку «Invalid UTF-8 последовательность побег элемент кода» Что я делаю неправильно?
crtn-hrd
1

голосов
1

ответ
67

Просмотры

can't get my python script to replace \u codes

I'm processing HTML files in a local directory that originated from a website, doing my development in Notepad++ on Windows 10. These files claim to be 'utf-8' but are heavy with script code in them. When writing to a file, I can get \u#### codes and \x## codes and garbage characters but not the complete human code. Mostly the \u2019 codes aren't being converted, but a handful of others are being left out too. with open(self.srcFilename, 'r', encoding='utf8') as f: self.rawContent = f.read() f.close() soup = BeautifulSoup(self.rawContent, 'lxml') ::::
Meghan M.
1

голосов
1

ответ
117

Просмотры

UTF8 массив символов в StD :: wstring

Я просто пытаюсь получить x11 заголовок окна, и сохранить его в станд :: wstring. Я использую такую ​​команду, чтобы получить название авто req_title = xcb_get_property (Conn, 0, окна, XCB_ATOM_WM_NAME, XCB_GET_PROPERTY_TYPE_ANY, 0, 100); автоматическое res_title = xcb_get_property_reply (Conn, req_title, nullptr); После этого, я могу получить титр, хранящийся в массиве символов. Как я могу преобразовать этот массив в wstring?
1

голосов
0

ответ
42

Просмотры

unicode displayed inconsistently across different programs

I'm working on some library for pretty-printing tables using unicode box-drawing characters, and encountered some strange behaviors in terms of displaying of these characters. Here are some screenshots: In terminal, with noto sans mono font (looks normal): In gvim, with fira code (also normal): In vscode, with noto sans mono: In firefox, force noto sans mono: In firefox, allow github.com choose fonts: In chrome: OS: Ubuntu 18.10 Settings in my .bash_profile: export LANG=en_US.UTF-8 export LC_ALL="en_US.UTF-8" export LC_CTYPE="en_US.UTF-8" export LC_NUMERIC=en_US.UTF-8 export LC_TIME=en_US.UTF-8 export LC_COLLATE="en_US.UTF-8" export LC_MONETARY=en_US.UTF-8 export LC_MESSAGES="en_US.UTF-8" export LC_PAPER=en_US.UTF-8 export LC_NAME=en_US.UTF-8 export LC_ADDRESS=en_US.UTF-8 export LC_TELEPHONE=en_US.UTF-8 export LC_MEASUREMENT=en_US.UTF-8 export LC_IDENTIFICATION=en_US.UTF-8 Could anyone help me understand what is going wrong here? hex dump of the text: 00000000: e295 92e2 9590 e295 90e2 9590 e295 90e2 ................ 00000010: 9590 e295 90e2 9590 e295 90e2 9590 e295 ................ 00000020: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 00000030: e295 90e2 9590 e295 90e2 9590 e295 90e2 ................ 00000040: 9590 e295 90e2 9590 e295 90e2 9590 e295 ................ 00000050: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 00000060: e295 90e2 9590 e295 90e2 9590 e295 90e2 ................ 00000070: 9590 e295 950a e294 8220 4e61 6d65 2020 ......... Name 00000080: 2020 5765 6967 6874 2020 2020 2020 2020 Weight 00000090: 2041 6765 2020 4272 6f74 6865 7220 e294 Age Brother .. 000000a0: 820a e294 9ce2 9480 e294 80e2 9480 e294 ................ 000000b0: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000000c0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 000000d0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 000000e0: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000000f0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 00000100: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000110: 80e2 9480 e294 a40a e294 8220 436f 6479 ........... Cody 00000120: 2020 2020 2020 2020 2020 2020 3138 302e 180. 00000130: 3220 2020 3430 2020 4a6f 686e 2020 2020 2 40 John 00000140: e294 820a e294 8220 4461 7669 6420 2020 ....... David 00000150: 2020 2020 2020 2020 3137 352e 3320 2020 175.3 00000160: 3338 2020 416e 6472 6577 2020 e294 820a 38 Andrew .... 00000170: e294 8220 526f 6265 7274 2020 2020 2020 ... Robert 00000180: 2020 2020 3134 302e 3320 2020 3237 2020 140.3 27 00000190: 4661 6e64 6520 2020 e294 820a e294 94e2 Fande ........ 000001a0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 000001b0: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000001c0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 000001d0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 000001e0: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000001f0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 00000200: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000210: 980a e295 92e2 9590 e295 90e2 9590 e295 ................ 00000220: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 00000230: e295 90e2 9590 e295 90e2 9590 e295 90e2 ................ 00000240: 9590 e295 90e2 9590 e295 90e2 9590 e295 ................ 00000250: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 00000260: e295 90e2 9590 e295 90e2 9590 e295 90e2 ................ 00000270: 9590 e295 90e2 9590 e295 90e2 9590 e295 ................ 00000280: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 00000290: e295 90e2 9590 e295 90e2 9590 e295 90e2 ................ 000002a0: 9590 e295 90e2 9590 e295 90e2 9590 e295 ................ 000002b0: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 000002c0: e295 90e2 9590 e295 90e2 9590 e295 90e2 ................ 000002d0: 9590 e295 90e2 9590 e295 90e2 9590 e295 ................ 000002e0: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 000002f0: e295 90e2 9590 e295 90e2 9590 e295 90e2 ................ 00000300: 9590 e295 90e2 9590 e295 90e2 9590 e295 ................ 00000310: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 00000320: e295 90e2 9590 e295 90e2 9590 e295 90e2 ................ 00000330: 9590 e295 90e2 9590 e295 90e2 9590 e295 ................ 00000340: 90e2 9590 e295 90e2 9590 e295 90e2 9590 ................ 00000350: e295 950a e294 8220 5365 6374 696f 6e2f ....... Section/ 00000360: e983 a8e5 8886 2020 2020 2020 2020 2020 ...... 00000370: 2020 2020 2020 2020 2020 2020 2020 2020 00000380: 2020 2020 2020 2020 2020 2020 2020 2020 00000390: 2020 436f 6c31 2fe7 acac 31e6 a08f 2020 Col1/...1... 000003a0: 2043 6f6c 322f e7ac ac32 e6a0 8f20 2043 Col2/...2... C 000003b0: 6f6c 332f e7ac ac33 e6a0 8f20 2043 6f6c ol3/...3... Col 000003c0: 342f e7ac ac34 e6a0 8f20 e294 820a e294 4/...4... ...... 000003d0: 9ce2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000003e0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 000003f0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000400: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 00000410: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 00000420: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000430: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 00000440: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 00000450: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000460: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 00000470: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 00000480: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000490: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000004a0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 000004b0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 000004c0: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000004d0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 000004e0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 000004f0: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 00000500: e294 80e2 9480 e294 80e2 9480 e294 a40a ................ 00000510: e294 8220 e6a0 b9e7 9bae e5bd 9520 2020 ... ......... 00000520: 2020 2020 2020 2020 2020 2020 2020 2020 00000530: 2020 2020 2020 2020 2020 2020 2020 2020 00000540: 2020 2020 2020 2020 2020 2020 2020 2020 00000550: 2034 2e35 3235 652d 3031 2020 2020 2020 4.525e-01 00000560: 2030 2e30 3532 2020 2020 2020 2020 302e 0.052 0. 00000570: 3036 2020 2020 2020 2d31 2c31 3133 20e2 06 -1,113 . 00000580: 9482 0ae2 9482 20e5 ba94 e794 a83a 3ae5 ...... ......::. 00000590: ae89 e8a3 8520 2020 2020 2020 2020 2020 ..... 000005a0: 2020 2020 2020 2020 2020 2020 2020 2020 000005b0: 2020 2020 2020 2020 2020 2020 2020 2020 000005c0: 2020 2020 2031 2e33 3330 652b 3030 2020 1.330e+00 000005d0: 2020 2020 2030 2e30 3337 2020 2020 2020 0.037 000005e0: 2020 302e 3034 2020 2020 2020 2020 2032 0.04 2 000005f0: 3334 20e2 9482 0ae2 9482 20e5 889d e5a7 34 ....... ..... 00000600: 8be5 8c96 2020 2020 2020 2020 2020 2020 .... 00000610: 2020 2020 2020 2020 2020 2020 2020 2020 00000620: 2020 2020 2020 2020 2020 2020 2020 2020 00000630: 2020 2020 2020 2020 322e 3535 3165 2b30 2.551e+0 00000640: 3020 2020 2020 2020 302e 3030 3220 2020 0 0.002 00000650: 2020 2020 2030 2e30 3020 2020 2020 2037 0.00 7 00000660: 372c 3436 3120 e294 820a e294 8220 5079 7,461 ....... Py 00000670: 7468 6f6e e788 ace5 8f96 e68a 96e9 9fb3 thon............ 00000680: 4150 502c e7ab 9fe7 84b6 e58f aae9 9c80 APP,............ 00000690: e8a6 81e5 8d81 e8a1 8ce4 bba3 e7a0 8120 ............... 000006a0: 2020 2020 2020 2020 2020 2020 2020 2020 000006b0: 2020 2020 2031 2e35 3438 652d 3033 2020 1.548e-03 000006c0: 2020 2020 2030 2e30 3030 2020 2020 2020 0.000 000006d0: 2020 302e 3030 2020 2020 2020 3438 2c30 0.00 48,0 000006e0: 3137 20e2 9482 0ae2 9482 20e5 8d83 e4b8 17 ....... ..... 000006f0: 87e5 88ab e581 9ae8 8081 e69d bfe6 9c80 ................ 00000700: e4b8 8de8 83bd e5ae b9e5 bf8d e79a 84e4 ................ 00000710: b889 e7a7 8de4 baba 207a 2020 2020 2020 ........ z 00000720: 2020 2020 2020 2020 2020 2020 2020 2020 00000730: 2020 2020 352e 3130 3065 2d30 3520 2020 5.100e-05 00000740: 2020 2020 302e 3030 3020 2020 2020 2020 0.000 00000750: 2030 2e30 3020 2020 202d 3438 332c 3436 0.00 -483,46 00000760: 3120 e294 820a e294 8220 e885 bee8 aeaf 1 ....... ...... 00000770: 20e9 98bf e987 8c20 e58d 8ee4 b8ba e79a ...... ........ 00000780: 84e5 b297 e4bd 8de8 96aa e8b5 84e6 8385 ................ 00000790: e586 b5e6 a682 e8bf b020 2020 2020 2020 ......... 000007a0: 2020 2020 2020 2020 2020 2020 2020 2020 000007b0: 2020 2036 2e37 3030 652d 3035 2020 2020 6.700e-05 000007c0: 2020 2030 2e30 3032 2020 2020 2020 2020 0.002 000007d0: 302e 3030 2020 2020 2034 3330 2c30 3631 0.00 430,061 000007e0: 20e2 9482 0ae2 9482 20e7 a88b e5ba 8fe5 ....... ....... 000007f0: 9198 e699 92e5 87ba e5b0 8fe5 ada6 e584 ................ 00000800: bfe5 ad90 e6bb a1e5 8886 e4bd 9ce6 9687 ................ 00000810: e380 8ae6 8891 e79a 84e7 88b8 e788 b8e3 ................ 00000820: 808b efbc 8ce7 9c9f e5ae 9ee7 9a84 e8ae ................ 00000830: a9e4 baba e5bf 83e7 96bc 2020 2020 322e .......... 2. 00000840: 3035 3165 2d30 3320 2020 2020 2020 302e 051e-03 0. 00000850: 3030 3020 2020 2020 2020 2030 2e30 3020 000 0.00 00000860: 2020 2020 2020 362c 3637 3820 e294 820a 6,678 .... 00000870: e294 94e2 9480 e294 80e2 9480 e294 80e2 ................ 00000880: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000890: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000008a0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 000008b0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 000008c0: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 000008d0: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 000008e0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 000008f0: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 00000900: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 00000910: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000920: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 00000930: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 00000940: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000950: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 00000960: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 00000970: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 00000980: 80e2 9480 e294 80e2 9480 e294 80e2 9480 ................ 00000990: e294 80e2 9480 e294 80e2 9480 e294 80e2 ................ 000009a0: 9480 e294 80e2 9480 e294 80e2 9480 e294 ................ 000009b0: 980a ..
qed
1

голосов
0

ответ
104

Просмотры

R: cat() printing out unicode consistently to console, but not to file

Фон у меня есть функция, которая принимает в качестве входного Тиббли (или data.frame, не имеет значения) и производит нестандартную таблицу Markdown в текстовом файле. Данные поступают из RESTful API (AirTable, если вы должны знать); является UTF-8 закодирован; уже содержит символы Юникода (например, ¥ и €); и обрабатываются в Тиббл с помощью функций в HTTR, jsonlite и Тиббли пакеты. Я подтвердил, с помощью функции базового кодирования, что данные в столбцах Тиббли являются UTF-8. Изменить: Я бегу R 3.5.1 на Windows, 10. Проблема При использовании кошки для печати данных в Тиббл в файл, он работает, как ожидалось. Валютные символы и любые другие сумасшедшие вещи в тексте печатаются только штрафом. (Хотя, как ни странно, в результате кодирования файла, кажется, ANSI). Однако ... при создании таблицы Markdown, Я пытаюсь перевести логический столбец как пустую строку, когда FALSE и как ☑ характер, когда TRUE. Этот символ не в данных, так что мне нужно, чтобы написать его там с помощью функции. Тем не менее, он всегда буквально выводит в файл в виде строки. Действительно любопытно, что, если я скажу кошку для печати на консоль вместо файла, не изменяя ничего другого ... это работает. Я сбит с толку. То, что я Пытался Во-первых, я попытался с помощью функции intToUtf8, переходящая в десятичном представлении символа (9745). Я пытался использовать это непосредственно в заявлении кошки, я также попробовал первый сохранение результата в переменной первого и переходя затем, что в заявлении кошки. Затем я попытался просто скопировать непосредственно-вставить символ в строку в файле R. Как и выше, я попытался передать его прямо и косвенно через переменную. И, наконец, я прочитал это: Печать юникод строку символов в R и используется сбежавшего последовательность юникода, чтобы вставить символ. Опять же, я попробовал два пути - непосредственно в отчете кошки и косвенно в качестве переменной - но результат тот же. (Я не пробовал пакет STRINGI, как предложено в ответе выше, но я не имею совершенно один и тот же вопрос, что индивид, имеющий, так что я не уверен, что бы лучше любого тарифа.)
Zelbinian
1

голосов
0

ответ
33

Просмотры

Интерпретация текста символ скопированный с веб-сайта и его формат

Я любопытно, как это работает с точки низкоуровневого зрения. Я понимаю, что компьютеры дело с символами текста с использованием кода ASCII, или Юникода. Например, только сейчас я скопировал символ символ «€» с веб-сайта, чтобы положить в электронной почте, потому что характер не на моей клавиатуре. Как для Windows хранить этот символ? как уникальное целое число, идентифицирующее этот символ? Когда я вставить этот символ в электронной или текстовый документ, даже он сохраняет свой текстовый формат. Как редактор электронной почты или приложение слово знает, как перевести то, что я скопировал с точно таким же форматом? Что делать, если где я скопировал символ из, он использует свой особый тип кодировки символов, будет ли это перевести на неправильный символ, а затем, когда я вставил его в электронной почте.
Engineer999
1

голосов
0

ответ
26

Просмотры

Python колбы MLAB поведение Юникода расслоения плотной Stange

Я пытаюсь получить некоторые данные из MongoDB, размещенного на mlab.com и использовать эти данные в шаблоне в качестве переменной jinja2. Когда я пытаюсь console.log данные Dict отправлены из колбы "символ отображается как« и я не могу найти ключи и значения внутри. Кто-нибудь справочник была такая же проблема? [U'My драгоценные данные „] InstEd из [“ My драгоценные данные '] Backend (колба), если не session.get (' logged_in'): возвращение 'Пожалуйста, войдите' еще: ресторан = mongo.db.restaurant restaurantData = список (restaurant.find ()) logging_wrap1.debug (restaurantData) импорт д = JSON json.dumps (restaurantData [0]) logging_wrap1.debug ( 'Это д:% s', д) возвращение render_template ( 'customer.html', данные = д) FRONTEND console.log ( '{{} данные } ') Консоль вывода [{u'description': и»
Dragos Vasile
1

голосов
1

ответ
95

Просмотры

Невозможно вставить символы Unicode на файловых заглавий

Я испытываю такую ​​же проблему сообщила с этими персонажами здесь Но в моем случае, это происходит в самой системе Windows 10, так что решение не подходит в моем случае. Я больше не могу вставлять эти символы в названия файлов, только в текстовых редакторах, то, что не было очень легко на Windows 10, пока несколько дней назад.
SorryForMyEN
2

голосов
1

ответ
261

Просмотры

Обнаружение одной строки дробь (например: ½) и изменить его на более длинную строку?

например: «32 ½ не очень жарко» х = «Информация: 32, числитель = 1, знаменатель = 2» Примечание: это может быть 3/9, но она не может быть упрощена в 1/3 ака буквально получить то, что находится в строка. Мне нужно, чтобы обнаружить дробную строку в более длинной строки и расширить информацию в более удобной форме. ½ было дано мне декодируются и представляет собой строку длиной один.
Ed Z
1

голосов
0

ответ
37

Просмотры

Import file and change charset to UTF-8

Мне нужна помощь с импортом файла. Я экспортировал .dpl файл, содержащий текст на русском языке, который по умолчанию не отображается. Это показывает случайные символы, как и в примере, приведенном ниже. л: 3 LANG: 10001 "PST просил" LANG: 10027 "PST просил" LANG: 10007 «Đ˘ĐμŃŃ, Đ · Đ ° ĐżŃ € ĐľŃĐμно» Я бегу ниже сценарий, чтобы выбрать и импортировать файл в новый лист , но я понятия не имею, куда вставить код, чтобы изменить Charset = Sub OpenAFile () «файла импорта "UTF-8" Dim FD Как FileDialog Dim homeWorkbook Как Workbook Набор homeWorkbook = ActiveWorkbook Dim targetBook Как Workbook Dim targetSheet Как Worksheet Application.DisplayAlerts = False Набор FD = Application.FileDialog (msoFileDialogOpen) FileWasChosen = fd.Show fd.Execute Набор targetBook = ActiveWorkbook Набор targetSheet = targetBook.Worksheets (1) targetSheet.Copy После того, как:
TadejP

Просмотр дополнительных вопросов