应用线性回归预测医疗费用

晏晓东Sid
更新于 2017-10-19 10:17:51 杨泽宇 分享 1219
线性回归 费用预测 非线性
包含数据集1个 收起
  • insurance.csv 53.02 K
只有登录了才能参与评论,现在登录!
157****7139

2019-01-20 11:07:12

把非数值型的数据特征用数字型特征来表示难道不可以直接使用One-Hot编码吗?
雨小风

2018-09-21 10:02:41

good
1502_宁宁

2018-03-15 15:19:41

为什么把东北吸烟女性删掉了就是把她们当作参照变量了?
晏晓东Sid 回复 1502_宁宁 2018-04-20 11:24:30
是的,这样做才是真正意义上的哑变量编码,而非one-hot编码。这样编码后,各个二元特征的系数实际上就是相对于东北地区的。 其他吸烟与否与性别也是如此。
王九州

2017-11-29 16:53:38

请问R语言的那一篇在哪里呢?想学习一下,谢谢
杨云杰

2017-11-13 22:03:54

删除多个变量值可以合并成一句操作:insurance_lm_X=insurance_lm.drop(['sex_female','region_northeast','smoker_no'],axis=1)
数据酷客 回复 杨云杰 2017-11-14 15:53:01
是的。还有区分数值型和名义型变量其实用 df.select_dtypes(include=['numerical']) 或者df.select_dtypes(include=['object']) 直接就得到了。
晏晓东Sid 回复 数据酷客 2017-11-14 15:53:58
6666666
晏晓东Sid 回复 杨云杰 2017-11-14 15:54:50
哈哈,以前的写法太僵硬了

第1页,共1页