如何转换一个实例的std::字符串小写

我想转换一个std::字符串小写。我知道tolower()函数。然而，在过去，我有这个函数的问题，它几乎不是理想的无论如何使用std::string将需要迭代每个字符。

有没有一种替代方案能100%有效?

当前回答

有一种方法可以在不进行if测试的情况下将大写字母转换为小写字母，而且非常简单。isupper()函数/宏对clocale.h的使用应该可以解决与您的位置相关的问题，但如果没有，您可以随时根据自己的需要调整UtoL[]。

假设C语言的字符实际上只是8位整型(暂时忽略宽字符集)，您可以创建一个256字节的数组，保存另一组字符，并在转换函数中使用字符串中的字符作为转换数组的下标。

但是，不是1对1的映射，而是为小写字符赋予大写数组成员BYTE int值。你可能会发现islower()和isupper()在这里很有用。

代码看起来是这样的……

#include <clocale>
static char UtoL[256];
// ----------------------------------------------------------------------------
void InitUtoLMap()  {
    for (int i = 0; i < sizeof(UtoL); i++)  {
        if (isupper(i)) {
            UtoL[i] = (char)(i + 32);
        }   else    {
            UtoL[i] = i;
        }
    }
}
// ----------------------------------------------------------------------------
char *LowerStr(char *szMyStr) {
    char *p = szMyStr;
    // do conversion in-place so as not to require a destination buffer
    while (*p) {        // szMyStr must be null-terminated
        *p = UtoL[*p];  
        p++;
    }
    return szMyStr;
}
// ----------------------------------------------------------------------------
int main() {
    time_t start;
    char *Lowered, Upper[128];
    InitUtoLMap();
    strcpy(Upper, "Every GOOD boy does FINE!");

    Lowered = LowerStr(Upper);
    return 0;
}

与此同时，这种方法允许您重新映射希望更改的任何其他字符。

当在现代处理器上运行时，这种方法有一个巨大的优势，不需要做分支预测，因为没有包含分支的if测试。这为其他循环节省了CPU的分支预测逻辑，并倾向于防止管道停顿。

这里的一些人可能认识到这种方法与将EBCDIC转换为ASCII时使用的方法相同。

2014-01-08 17:48:19

其他回答

复制是因为不允许改进答案。谢谢所以

string test = "Hello World";
for(auto& c : test)
{
   c = tolower(c);
}

解释:

For (auto& c: test)是一个基于范围的For循环，类似于For (range_declaration:range_expression)loop_statement:

Range_declaration: auto& c 这里auto说明符用于自动类型推断。类型从变量初始化式中扣除。 range_expression:测试本例中的范围是字符串test的字符。

字符串test的字符可以在for循环中通过标识符c作为引用。

2018-04-17 12:20:30

看看优秀的c++17 cppp -unicodelib (GitHub)。它是单文件且只包含头文件。


#include <exception>
#include <iostream>
#include <codecvt>

// cpp-unicodelib, downloaded from GitHub
#include "unicodelib.h"
#include "unicodelib_encodings.h"

using namespace std;
using namespace unicode;

// converter that allows displaying a Unicode32 string
wstring_convert<codecvt_utf8<char32_t>, char32_t> converter;

std::u32string  in = U"Je suis là!";
cout << converter.to_bytes(in) << endl;

std::u32string  lc = to_lowercase(in);
cout << converter.to_bytes(lc) << endl;

输出

Je suis là!
je suis là!

2022-04-25 13:18:34

我写了一个模板版本，适用于任何字符串:

#include <type_traits> // std::decay
#include <ctype.h>    // std::toupper & std::tolower


template <class T = void> struct farg_t { using type = T; };
template <template<typename ...> class T1, 
class T2> struct farg_t <T1<T2>> { using type = T2*; };
//---------------

template<class T, class T2 = 
typename std::decay< typename farg_t<T>::type >::type>
void ToUpper(T& str) { T2 t = &str[0]; 
for (; *t; ++t) *t = std::toupper(*t); }


template<class T, class T2 = typename std::decay< typename 
farg_t<T>::type >::type>
void Tolower(T& str) { T2 t = &str[0]; 
for (; *t; ++t) *t = std::tolower(*t); }

用gcc编译器测试:

#include <iostream>
#include "upove_code.h"

int main()
{

    std::string str1 = "hEllo ";
    char str2 [] = "wOrld";

    ToUpper(str1);
    ToUpper(str2);
    std::cout << str1 << str2 << '\n'; 
    Tolower(str1);
    Tolower(str2);
    std::cout << str1 << str2 << '\n'; 
    return 0;
}

输出:

>HELLO WORLD
>
>hello world

2022-02-03 10:11:16

博士tl;

使用ICU图书馆。如果您不这样做，您的转换例程将在您可能甚至没有意识到存在的情况下无声地中断。

首先你必须回答一个问题:std::string的编码是什么?是ISO-8859-1吗?或者ISO-8859-8?或者Windows Codepage 1252?不管你用什么来转换大写字母还是小写字母，你知道吗?(或者对于0x7f以上的字符会失败吗?)

如果您使用UTF-8(8位编码中唯一明智的选择)和std::string作为容器，如果您认为您仍然在控制事情，那么您已经欺骗了自己。您正在将一个多字节字符序列存储在一个不知道多字节概念的容器中，您可以对其执行的大多数操作也不知道多字节的概念!即使是像.substr()这样简单的东西也可能导致无效的(子)字符串，因为您在多字节序列中间进行了分割。

As soon as you try something like std::toupper( 'ß' ), or std::tolower( 'Σ' ) in any encoding, you are in trouble. Because 1), the standard only ever operates on one character at a time, so it simply cannot turn ß into SS as would be correct. And 2), the standard only ever operates on one character at a time, so it cannot decide whether Σ is in the middle of a word (where σ would be correct), or at the end (ς). Another example would be std::tolower( 'I' ), which should yield different results depending on the locale -- virtually everywhere you would expect i, but in Turkey ı (LATIN SMALL LETTER DOTLESS I) is the correct answer (which, again, is more than one byte in UTF-8 encoding).

因此，任何一次处理一个字符的大小写转换，或者更糟，一次处理一个字节的大小写转换，都在设计上被破坏了。这包括目前存在的所有std::变体。

还有一点，标准库能够做什么，取决于运行软件的机器支持哪些地区…如果您的目标区域位于客户机上不支持的区域之一，该怎么办?

因此，您真正要寻找的是一个能够正确处理所有这些问题的字符串类，而不是std::basic_string<>变量。

(c++ 11注:std::u16string和std::u32string较好，但仍不完美。c++ 20带来了std::u8string，但所有这些都是指定编码。在许多其他方面，他们仍然对Unicode机制一无所知，比如标准化、排序……)

虽然Boost看起来不错，API方面，Boost。Locale基本上是ICU的包装器。如果Boost是使用ICU支持编译的……如果不是，Boost。区域设置仅限于为标准库编译的区域设置支持。

相信我，让Boost与ICU一起编译有时真的很痛苦。(Windows中没有包含ICU的预编译二进制文件，所以你必须在应用程序中提供它们，这就打开了一个全新的蠕虫…)

所以我个人建议直接从马的嘴里获得完整的Unicode支持，并直接使用ICU库:

#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>

#include <iostream>

int main()
{
    /*                          "Odysseus" */
    char const * someString = u8"ΟΔΥΣΣΕΥΣ";
    icu::UnicodeString someUString( someString, "UTF-8" );
    // Setting the locale explicitly here for completeness.
    // Usually you would use the user-specified system locale,
    // which *does* make a difference (see ı vs. i above).
    std::cout << someUString.toLower( "el_GR" ) << "\n";
    std::cout << someUString.toUpper( "el_GR" ) << "\n";
    return 0;
}

编译(本例中使用g++):

g++ -Wall example.cpp -licuuc -licuio

这给:

ὀδυσσεύς

注意，单词中间的Σ<-> Σ转换，单词末尾的Σ<->ς转换。没有<算法>的解决方案可以给你。

2014-06-05 15:06:39

试试这个函数吧。

string toLowerCase(string str) {

    int str_len = str.length();

    string final_str = "";

    for(int i=0; i<str_len; i++) {

        char character = str[i];

        if(character>=65 && character<=92) {

            final_str += (character+32);

        } else {

            final_str += character;

        }

    }

    return final_str;

}

2020-03-19 01:12:35

如何转换一个实例的std::字符串小写

推荐文章

最新文章

标签