Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.73/11: Рейтинг темы: голосов - 11, средняя оценка - 4.73
 Аватар для Ника))
43 / 43 / 20
Регистрация: 08.12.2010
Сообщений: 342

Прилетают данные UTF-8, как правильно преобразовать в читабельный вид?

06.10.2015, 16:26. Показов 2149. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Как преобразовать вот это:
C++
1
cout << buf<<endl;
Выдает в UTF-8 кодировке:
C++
1
01%3Aasd+%D0%92%D0%B0%D1%81%D0%B8%D0%BB%D0%B8%D0%B9
Закодирована фраза: "01:asd Василий".
в читабельный вид?
Прилетает это все с POST запроса.
Пролазил ссылки по форуму:
из UTF-8 в Windows-1251
Преобразовать кодировку utf-8 в cp1251 и обратно
и т.д.
но что то не получается...
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
06.10.2015, 16:26
Ответы с готовыми решениями:

Как перевести строку в читабельный вид?
Собственно из названия темы. Есть строка символов (к примеру такая: 0430002004370430043904340438) Как перевести ее в читабельный вид, т.е...

Читабельный вид текстового файла
Пишу менеджер crontab. нужно что бы выводило все данные в нормальном, читабельном виде.. Например в текстовом файле записано такое ...

преобразование кода в читабельный вид
получаю с нного ресурса данные в таком виде : на данный момент преобразовываю: function SymbolReplace ($msg) { $msg = strtoupper...

6
19491 / 10097 / 2460
Регистрация: 30.01.2014
Сообщений: 17,805
06.10.2015, 23:25
Цитата Сообщение от Ника)) Посмотреть сообщение
но что то не получается...
Это не просто UTF-8.
Тебе надо сперва это все перевести в коды символов.
Т.е. отбросить процент, D0 перевести в число (например, strtol - она принимает последним параметром систему счисления, надо указать 16) и записать в char. Ну и т.д. А потом уже делать преобразование того, что получилось, в 1251 или еще куда...
0
Эксперт PHP
 Аватар для Kerry_Jr
3106 / 2591 / 1219
Регистрация: 14.05.2014
Сообщений: 7,236
Записей в блоге: 1
06.10.2015, 23:33
Цитата Сообщение от DrOffset Посмотреть сообщение
и записать в char
не поместится в char, точнее поместится, но русские символы 2 байтами кодируются, лучше в whar_t
0
19491 / 10097 / 2460
Регистрация: 30.01.2014
Сообщений: 17,805
07.10.2015, 00:38
Цитата Сообщение от Kerry_Jr Посмотреть сообщение
не поместится в char, точнее поместится, но русские символы 2 байтами кодируются
Правильно, первый байт, затем второй. UTF-8 хранят в char. 8 в названии не смущает?
Суррогатные пары, тройки, чертверки и т.д. UTF-8 подразумевает до 6 байт на символ в зависимости от языка.

Цитата Сообщение от Kerry_Jr Посмотреть сообщение
whar_t
Это UTF-16 или UTF-32 в зависимости от платформы. Не пойдет.

Добавлено через 10 минут
Kerry_Jr, собственно вот простейшая реализация. Как видишь, если консоль выводит char как UTF-8 (мы это можем наблюдать в любом Linux), то раскодирования, которое я предложил, достаточно для получения читаемого текста.
1
2688 / 2260 / 244
Регистрация: 03.07.2012
Сообщений: 8,231
Записей в блоге: 1
07.10.2015, 09:36
Цитата Сообщение от DrOffset Посмотреть сообщение
Суррогатные пары, тройки, чертверки
Нету в UTF-8 суррогатных пар - просто не нужны

Добавлено через 2 часа 18 минут
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
// utf8->char
unsigned char Hex2char(char *p) 
{   unsigned char c;
    if (*p>='a' && *p<='f')
        c=(*p-'a'+10)*16;
    else if (*p>='A' && *p<='F')
        c=(*p-'A'+10)*16;
    else // просто цифра
        c=(*p-'0')*16;
    // второй символ
    ++p;
    if (*p>='a' && *p<='f')
        c+=(*p-'a'+10);
    else if (*p>='A' && *p<='F')
        c+=(*p-'A'+10);
    else // просто цифра
        c+=(*p-'0');
    
    return c;
}
// преобразует строку типа "01%3Aasd+%D0%92%D0%B0" в win1251
char *decode(char *out, char *inp)
{   int c;
    while (*inp) {
        if (*inp=='%')  {
            c=Hex2char(++inp);
            if (c==0xD0 || c==0xD1) {
                // это был 1-й символ кириллицы, читаем 2-й символ
                inp += 2;
                c=(c<<6)&0x7FF;
                c+=Hex2char(++inp)&0x7F; // в c символ utf16
                // переводим в win1251
                if (c==0x401)
                    c=0xA8; // Ё
                else if (c==0x451)
                    c=0xB8; // ё
                else
                    c+=0xC0-0x410; // остальные буквы
            }
            *out++=c;
            inp+=2;
        }
        else *out++=*inp++;
    }
    *out=0;
    return inp; // можно вернуть что-то другое
}
0
7804 / 6568 / 2988
Регистрация: 14.04.2014
Сообщений: 28,705
07.10.2015, 11:16
А зачем 1251? Вот так надо:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
#include <iostream>
#include <sstream>
#include <iomanip>
#include <string>
#include <locale>
#include <codecvt>
#include <cstdlib>
 
std::wstring URLDecode(std::string s)
{
    char c;
    std::string mbs, n;
    n.resize(2);
    std::istringstream iss(s);
 
    while (iss.get(c))
    {
        if (c == '%')
        {
            int i;
            iss >> n[0] >> n[1];
            std::istringstream issn(n);
            issn >> std::hex >> i;
            c = static_cast<char>(i);
        }
        else if (c == '+') c = ' ';
        mbs += c;
    }
 
    std::wstring_convert<std::codecvt_utf8<wchar_t>> cv;
    return cv.from_bytes(mbs);
}
 
int main()
{
    std::wcout.imbue(std::locale("rus_rus.866"));
    std::wcout << URLDecode("01%3Aasd+%D0%92%D0%B0%D1%81%D0%B8%D0%BB%D0%B8%D0%B9") << std::endl;
    
    system("pause");
    return 0;
}
1
2688 / 2260 / 244
Регистрация: 03.07.2012
Сообщений: 8,231
Записей в блоге: 1
07.10.2015, 11:30
Тоже хорошо. Зато мой код даже в простом Си работает
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
07.10.2015, 11:30
Помогаю со студенческими работами здесь

NixTime перевести в читабельный вид
Как перевести на JS nix время 1402833977 в такой вид день-месяц-год На PHP знаю. echo date ('d-m-Y','1402833977'); В JS не силён,...

Вывод из MySQL в читабельный вид
Занимаюсь вынужденно php около месяца, не пинайте сильно. Встала задача - сделать форму для ввода в две таблицы по связи один ко многим...

Как правильно преобразовать данные textbox в datetime?
Здравствуйте. Имеется textbox в который заносится из базы или со вспомогательной формы дата в виде: dd.MM.yyyy (Format = Short). При...

Конвертация таблицы в MS EXCEL в читабельный вид
Добрый день всем. Помогите создать макрос на конвертацию таблицы в MS EXCEL в читабельный вид. Ctrl+C/V убивает очень много времени. ...

Перевести Hex код в читабельный вид
Есть задача перевести Hex код(код черновиковый) в читабельный вид. Есть 2 варианта преобразования hex оба что-то выводят(вопрос не в этом)....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru