解析C#中不一样的大小写转换
作者:
假设有一个string “BaSiC”,需要将它转变为大小写,那么该如何转换?
最简单的方式:调用api:
string str = "BaSiC";
string strUpper = str.ToUpper();
string strLower = str.ToLower();
第二种方法:调用Char.ToUpper(),Char.ToLower()方法,同样是调用api
第三种方法:使用for循环来判断,如果是大写就,如果是小写就..
首先观察大写字母和小写字母的异同:
打印上面的代码如下,有兴趣的可以自己试试打印这样的表格出来:
Console.WriteLine("{0,-3} | {1,-6} | {2,-8} | {3,-3} | {4,-6} | {5,-8}",
"小写", "ascil", "2进制", "大写", "ascil", "2进制");
IEnumerable<char> chars = Enumerable.Range('a', 'z' - 'a' + 1).Select(i => (char)i);
foreach (char c in chars)
{
char upperC = char.ToUpper(c);
Console.WriteLine("{0,-5} | {1,-6} | {2,-10} | {3,-5} | {4,-6} | {5,-10}",
c, (int)c, Convert.ToString(c, 2),
upperC, (int)upperC, Convert.ToString(upperC, 2));
}
从上面很容易看的出来'a' 比大写的'A' 的ascil多32,从这点出发就可以得到下面的代码:
private static char[] GetUpperChars(string str)
{
char[] chars = str.ToCharArray();
for (int i = 0; i < chars.Length; i++)
{
if (char.IsLower(chars[i]))
{
chars[i] = (char)(chars[i] - 32);
}
}
return chars;
}
这段代码使用for循环并加入判断,如果是小写,则将其值减去32,调用也比较简单:
string strUpper2 = new string(GetUpperChars(str));
这段代码唯一的缺点是进行了IsLower的判断,可不可以在没有判断的情况下来修改chars使其变成大写呢?
如果从Ascii 的角度来解决这个问题,那么我们就必须使用大小写的判断,我在汇编语言的书上看到了这句话:
如果一个问题的解决方案,使我们陷入一种矛盾之中,那么很可能是我们考虑问题的出发点有了问题,或者说我们起初运用的规律并不适合。
这段话的意思是,可能我们应该从其他角度来观察,而不应该从Ascii的角度来观察。
如果不从Ascii的角度来观察,那还能从哪里来观察呢?
可以从2进制的角度来观察。
还是这幅图,只是我们的观察角度变成了2进制。
a 的2进制:1100001, b的2进制1100010,..
A 的2进制: 1000001, B的2进制1000010,..
可以知道a的第5位是1,而A的第5位是0,(从右边往左边数,0开始,后面得第几位都这样数)
b的第5位是1,而B的第5位是0,
..
所以如果要将一个字符串变成大写,只需要将字符串的所有字符的第5位全部变成1就可以了。
而如何将一个字符的第5位变成1呢?
答案是使用And(位运算)操作.
首先a 是个7位字符,只所以是7位,是因为在制定Ascii的时候位比较贵,8位比较浪费,而6位又不够,所以ascii码是7位的,这点从
a 是1100001 就可以看出了,总共7位。
它可以和0101-1111 或者是1101-1111,进行And
在C#中And 是&
所以你可能会将函数修改为:
for (int i = 0; i < chars.Length; i++)
{
chars[i] = (char)(chars[i] & 11011111);
}
先停一下,你认为上面的写法正确吗?
然后运行,结果却发现:
为什么?
这是因为C#中的& 默认操作的是十进制的数字,所以11011111,
就会变成一千一百零一万一千一百一十一
所以要将2进制的11011111 变成10进制,如何转变?
int value = Convert.ToInt32("11011111", 2);
value的值是223.所以代码修改为:
for (int i = 0; i < chars.Length; i++)
{
chars[i] = (char)(chars[i] & 223);
}
运行可以得到正确的结果:
或者使用16进制来表示:1101-1111 ,的16进制是:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 1 2 3 4 5 6 7 8 9 A B C D E F
1101=2^3+2^2+1=8+4+1=13 = D
1111=2^3+2^2+2^1+2^0=8+4+2+1=15 = F
所以可以将上面的代码修改为:
chars[i] = (char)(chars[i] & 0xdf);
同样因为只是第5位不同,而第7位会被忽略。所以和 0101-1111进行and操作也可以得到正确的答案:
而0101-1111 的16进制是0x5f.所以代码可以变成:
chars[i] = (char)(chars[i] & 0x5f);