Skip to content

Latest commit

 

History

History
78 lines (65 loc) · 5.01 KB

File metadata and controls

78 lines (65 loc) · 5.01 KB

Dataset Information

Raw Data

# Content
醫師你有做超音波嘛那我們來看報告有些部分有紅字耶民眾紅字是甚麼意思醫師就是肝功能有比較高肝功能68就是這個ALP是68這樣比較高正常應是50以下另外就是你之前說你有B肝但是你B肝已經好了耶民眾它會自動修復阿醫師你有抗體了阿所以你B肝已經沒帶原了耶民眾我以前被關的時候就有在固定驗血那時候說有B肝。......

article_id	start_position	end_position	entity_text	entity_type
0	69	71	前天	time
0	75	77	前天	time
0	738	740	85	med_exam
0	741	744	102	med_exam
0	2817	2819	美國	location
0	2844	2846	紐約	location
0	2854	2856	紐約	location
0	2993	2996	賈伯斯	name

Processed Data

程式中的 loadInputFile() 會回傳以下的資料結構:

# trainingset (a list)
[Content, Content, ...]

# position (👎 not a nested array)
[0, 55, 57, "68", "med_exam",
 0, 1264 , 1271, "10.78公分", "med_exam",
 0, 1358, 1361, "三多路", "location",
 ...
 ...
]

# mentions (a dict)
{
    "68": "med_exam",
    "10.78公分": "med_exam",
    "三多路": "location",
    ...
    ...
}

Labels

一共有 18 種類別需要分類:

Field Description
名字(name) 所有的姓名、綽號、社群/通訊軟體使用者名稱、個人於團體中的代號等。
地點(location) 所有地址、商店名、建築物名稱、景點等。
時間(time) 所有日期、時間、年齡等,例如:出生年月日、看診時間。
聯絡方式(contact) 所有電話號碼、傳真號碼、信箱、IP 位址、網址、網站名稱(例如成大醫院掛號系統)等。
編號(id) 所有跟個人有關的編號,例如:身分證號碼、證件號碼、卡號、病歷號等。
職業(profession) 所有任職公司名稱、任職單位等。
個人生物標誌(biomarker) 所有個人的特殊身體或生理特徵,例如:胎記/疤痕/刺青部位或形狀、植入物(例如人工髖關節、心導管)等。
家庭成員(family) 所有個人的家庭成員關係,例如:爸爸、姊姊、兒子等。
有名的臨床事件(clinical_event) 所有廣為人知的臨床事件,例如:八仙塵爆、COVID-19。
特殊專業或技能(special_skills) 所有個人獨特的專業或技能,例如:手繪電影看板。
獨家或聞名的治療方法(unique_treatment) 所有特別或廣為人知的治療方法,例如:台大醫院葉克膜、長庚醫院甲狀腺射頻消融手術。
帳號(account) 所有帳號,例如:社群/通訊軟體帳號或 ID、郵局銀行帳號。
所屬團體(organization) 所有個人參與的組織、團體、社團等等的名稱,例如:歡樂無法黨、成大教職男籃隊。
就學經歷或學歷(education) 所有個人的就學經歷或學歷,如系所、程度,例如:讀成大資工、成大資工所碩士畢業。
金額(money) 所有金額,例如:看診金額、個人負擔金額、自費金額。
所屬品的特殊標誌(belonging_mark) 所有個人的所屬品特殊標誌,例如:汽車貼膜圖案、產品序列號、手機殼圖案、顏色。
報告數值(med_exam) 醫療檢查報告、影像報告的數值,例如:肝功能 67、紅血球值 5.8、超音波影像的脾藏 10.67 公分、體溫 36.7 度。
其他(others) 其他跟個人隱私有關,可以關聯到當事人的內容。