R语言因子型数值转数值型的操作
作者:记录本
一直觉得只要是数字,不管是什么类型的,都可以通过as.numeric()函数转换为对应的numeric类型的数字,例如
x<-“123”,x为character类型,而as.numeric(x)则为numeric类型的123。
但是因子(factor)类型却不一样。
a<-factor(c(100,200,300,301,302,400,10)),它们的值分别为100 200 300 301 302 400 10,然而
as.numeric(a)对应的值并非100 200 300 301 302 400 10,而是2 3 4 5 6 7 1。
因子(factor)转换成数值型(numeric)的规则是这样的:
一共有n个数,那么转换后的数字就会在1——n中取值,数字最小的取一,次小的取二,以此类推。
那么如何让因子(factor)类型里的数值转换对应的数值型呢?
mean(as.numeric(as.character(factorname))) mean(as.numeric(levels(factorname)[factorname]))
以上代码都可以实现将因子(factor)类型里的数值转换对应的数值型,思路都是先转换成字符型然后再转换成数值型。
补充:R_as.numeric()函数在转换小数时返回无意义结果的解决
本文重点解决as.numeric()函数将factor转为数值时得出的无意义结果的解决
假设有数据框aaa
x | y | value ------------------------------------------ a1 b2 0.510665432157769 a2 b3 0.887655678543227 .. .. ...
运行as.numeric(aaa[1,3]),返回的结果居然是123?当然,这只是个栗子,为了表达问题所在。真正运行时不一定得到的结果是123
在R help中找到如下参考
Warning
If x is a factor, as.numeric will return the underlying numeric (integer) representation, which is often meaningless as it may not correspond to the factor levels, see the ‘Warning' section in factor (and the 2nd example below).
看到meaningless这个词了吗,意思是如果使用as.numeric转换一个因子,则通常会返回一个无意义的结果,是因子的一个“整型数字象征”,因为R为了节省内存提高速度,因子类型底层是用C语言中的int实现的,因子的值与该整型数值的“转换表格”存储在内存中。
那么我们如何解决呢?
嵌套使用
as.numeric(as.character(aaa[1,3]))
这样返回的就是正常应转化的数值,而不是一个无意义的结果如一百二十三。
但上面的方法有一个问题,在小数点后位数太大时输出结果会四舍五入。
对于这个,我们可以使用print()函数中的参数digit,print(as.numeric(as.character(aaa[1,3])),digits = 16),输出的就是不带四舍五入的完整值
理论上format(xx, digits = 16)也可以保证长度,但我没在这种情况下试。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。