We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
1 parent 2c98e3a commit dab9aeaCopy full SHA for dab9aea
D11_pandas_nan/homework.py
@@ -0,0 +1,23 @@
1
+import pandas as pd
2
+# 運用編碼處理類別資料
3
+# 補缺失值
4
+# 作業重點:
5
+
6
+# 類別編碼有多種方法,需分辨使用方法與時機
7
+# 補缺失值須因應情境決定如何補值
8
+# 題目 : 將以下問卷資料的職業(Profession)欄位缺失值填入字串'others',更進一步將字串做編碼。 此時用什麼方式做編碼比較適合?為什麼?
9
+q_df = pd.DataFrame([['male', 'teacher'],
10
+ ['male', 'engineer'],
11
+ ['female', None],
12
+ ['female', 'engineer']],columns=['Sex','Profession'])
13
14
15
+#缺失值填入字串'others'
16
+print(q_df.fillna('others'))
17
18
+#更進一步將字串做編碼。 此時用什麼方式做編碼比較適合?為什麼?
19
+print( 'one-hot \n %s' % pd.get_dummies(q_df))
20
+data_le=pd.DataFrame(q_df)
21
+print('Label encoding \n%s' % data_le)
22
23
+print('取值之間沒有大小的意義, 使用 one-hot 編碼比較好')
0 commit comments