Skip to content

Commit dab9aea

Browse files
committedJan 27, 2021
add day11 homework
1 parent 2c98e3a commit dab9aea

File tree

1 file changed

+23
-0
lines changed

1 file changed

+23
-0
lines changed
 

‎D11_pandas_nan/homework.py

+23
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,23 @@
1+
import pandas as pd
2+
# 運用編碼處理類別資料
3+
# 補缺失值
4+
# 作業重點:
5+
6+
# 類別編碼有多種方法,需分辨使用方法與時機
7+
# 補缺失值須因應情境決定如何補值
8+
# 題目 : 將以下問卷資料的職業(Profession)欄位缺失值填入字串'others',更進一步將字串做編碼。 此時用什麼方式做編碼比較適合?為什麼?
9+
q_df = pd.DataFrame([['male', 'teacher'],
10+
['male', 'engineer'],
11+
['female', None],
12+
['female', 'engineer']],columns=['Sex','Profession'])
13+
14+
15+
#缺失值填入字串'others'
16+
print(q_df.fillna('others'))
17+
18+
#更進一步將字串做編碼。 此時用什麼方式做編碼比較適合?為什麼?
19+
print( 'one-hot \n %s' % pd.get_dummies(q_df))
20+
data_le=pd.DataFrame(q_df)
21+
print('Label encoding \n%s' % data_le)
22+
23+
print('取值之間沒有大小的意義, 使用 one-hot 編碼比較好')

0 commit comments

Comments
 (0)
Please sign in to comment.