# Content
醫師:你有做超音波嘛,那我們來看報告,有些部分有紅字耶。民眾:紅字是甚麼意思?
醫師:就是肝功能有比較高,肝功能68,就是這個ALP是68,這樣比較高,正常應是50以下,
另外就是你之前說你有B肝,但是你B肝已經好了耶。民眾:它會自動修復阿。
醫師:你有抗體了阿,所以你B肝已經沒帶原了耶。民眾:我以前被關的時候,就有在固定驗血,那時候說有B肝。......
article_id start_position end_position entity_text entity_type
0 69 71 前天 time
0 75 77 前天 time
0 738 740 85 med_exam
0 741 744 102 med_exam
0 2817 2819 美國 location
0 2844 2846 紐約 location
0 2854 2856 紐約 location
0 2993 2996 賈伯斯 name
程式中的 loadInputFile()
會回傳以下的資料結構:
# trainingset (a list)
[Content, Content, ...]
# position (👎 not a nested array)
[0, 55, 57, "68", "med_exam",
0, 1264 , 1271, "10.78公分", "med_exam",
0, 1358, 1361, "三多路", "location",
...
...
]
# mentions (a dict)
{
"68": "med_exam",
"10.78公分": "med_exam",
"三多路": "location",
...
...
}
一共有 18 種類別需要分類:
Field | Description |
---|---|
名字(name) | 所有的姓名、綽號、社群/通訊軟體使用者名稱、個人於團體中的代號等。 |
地點(location) | 所有地址、商店名、建築物名稱、景點等。 |
時間(time) | 所有日期、時間、年齡等,例如:出生年月日、看診時間。 |
聯絡方式(contact) | 所有電話號碼、傳真號碼、信箱、IP 位址、網址、網站名稱(例如成大醫院掛號系統)等。 |
編號(id) | 所有跟個人有關的編號,例如:身分證號碼、證件號碼、卡號、病歷號等。 |
職業(profession) | 所有任職公司名稱、任職單位等。 |
個人生物標誌(biomarker) | 所有個人的特殊身體或生理特徵,例如:胎記/疤痕/刺青部位或形狀、植入物(例如人工髖關節、心導管)等。 |
家庭成員(family) | 所有個人的家庭成員關係,例如:爸爸、姊姊、兒子等。 |
有名的臨床事件(clinical_event) | 所有廣為人知的臨床事件,例如:八仙塵爆、COVID-19。 |
特殊專業或技能(special_skills) | 所有個人獨特的專業或技能,例如:手繪電影看板。 |
獨家或聞名的治療方法(unique_treatment) | 所有特別或廣為人知的治療方法,例如:台大醫院葉克膜、長庚醫院甲狀腺射頻消融手術。 |
帳號(account) | 所有帳號,例如:社群/通訊軟體帳號或 ID、郵局銀行帳號。 |
所屬團體(organization) | 所有個人參與的組織、團體、社團等等的名稱,例如:歡樂無法黨、成大教職男籃隊。 |
就學經歷或學歷(education) | 所有個人的就學經歷或學歷,如系所、程度,例如:讀成大資工、成大資工所碩士畢業。 |
金額(money) | 所有金額,例如:看診金額、個人負擔金額、自費金額。 |
所屬品的特殊標誌(belonging_mark) | 所有個人的所屬品特殊標誌,例如:汽車貼膜圖案、產品序列號、手機殼圖案、顏色。 |
報告數值(med_exam) | 醫療檢查報告、影像報告的數值,例如:肝功能 67、紅血球值 5.8、超音波影像的脾藏 10.67 公分、體溫 36.7 度。 |
其他(others) | 其他跟個人隱私有關,可以關聯到當事人的內容。 |