图片
科研选题通常有三大来源:临床实践、文献阅读和数据库挖掘。图片
对于一些还没有太多自己数据、没有太多临床经验、没有大量文献阅读的年轻医生来说,或是对于一些资深的临床专家来说,做好公共数据库挖掘无疑是非常省心的一个选题来源。
常用的免费公共数据库主要有中国健康与营养调查(China Health and Nutrition Survey, CHNS)、中国健康与养老追踪调查(China Health and Retirement Longitudinal Study,CHARLS)、美国国家健康与营养调查(National Health and Nutrition Examination Suivey,NHANES)、MIMIC重症系列(Medical Information Mart for Intensive Care)、美国SEER数据库(Surveillance, Epidemiology, and End Results)、BioLINCC数据库、Dryad公开数据平台、癌症基因组图谱(The Cancer Genome Atlas,TCGA),常用的收费公共数据库包括英国生物样本数据库(UK biobank)。下面简单介绍各个数据库情况和网址获取途径。一、中国CHNS数据库图片
网址:https://www.cpc.unc.edu/projects/china中国健康与营养调查(CHNS)是由美国北卡罗来纳大学人口中心与中国疾控中心联合进行的大规模的社会健康调查的队列研究。旨在研究健康、营养、以及国家和地方政府实施的计划生育政策和项目,并了解中国社会的社会和经济转型如何影响其人口的健康和营养状况。调查的内容涉及健康学、营养学、社会学、人口学、经济学、公共政策等多个学科,数据内容包括社区调查、家庭户调查、个人调查、健康调查、营养和体质测验、食品市场调查及健康和计划生育调查。项目分别于1989年、1991年、1993年、1997年、2000年、2004年、2006年、2009年、2011年、2015年开展项目调研和数据整理及发布。CHNS网站于2018年6月12日更新了数据集内容,更新后的数据集涵盖了1989年~2015年共10次调研数据。二、中国CHARLS数据库图片
网址:http://charls.pku.edu.cn/中国健康与养老追踪调查(CHARLS)是由北京大学国家发展研究院主持、中国社会科学调查中心执行的一项大型跨学科调查项目。该调查旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,以分析我国人口老龄化问题,推动老龄化问题的跨学科研究。CHARLS全国基线调查于2011年开展,约1万户家庭中的1.7万人。这些样本每两到三年追踪一次。CHARLS内容包括:个人基本信息,家庭结构和经济支持,健康状况, 民丰县嘉南土特产有限公司体格测量, 企业-展航纳咖啡有限公司医疗服务利用和医疗保险,湖北联智网络科技有限公司工作、退休和养老金、收入、消费、资产,及社区基本情况等。三、美国NHANS数据库图片
网址:https://www.cdc.gov/nchs/nhanes/index.htm美国国家健康与营养调查(NHANES)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。项目每年调查一个全国代表性的样本,约5000人,这些人群位于全国各县。(1)访谈部分:包括人口统计学、社会经济学、饮食和健康相关问题。(2)体检部分:包括生理测量、实验室检查等内容。NHANES采用分层多阶段抽样设计,收集了全国有关健康和营养状况的代表性数据。同时调查了风险因素,一个人的生活方式、体质、遗传或环境可能会增加患某种疾病或病症的机会。研究吸烟、饮酒、性行为、吸毒、身体健康和活动、体重和饮食摄入量。还收集了关于生殖健康某些方面的数据,如使用口服避孕药和母乳喂养做法。研究的疾病和健康指标包括:贫血、心血管疾病、糖尿病、环境暴露眼疾、听力损失、传染性疾病、肾脏疾病、营养、肥胖、口腔健康、骨质疏松、生育史和性行为、呼吸系统疾病(哮喘,新闻资讯慢性支气管炎,肺气肿)、性病、视力等。图片
四、MIMIC重症系列图片
网址:https://mimic.physionet.org/使用较多的是MIMIC-II数据库。该数据库可以免费申请使用,包括2001-2012年之间重症监护室超过40000患者的相关数据。数据库包含信息如人口统计学特征、床边生命体征的测量,实验室测试结果,各种操作、药物、影像报告和死亡指标。五、美国SEER肿瘤数据库图片
网址:https//seer.cancer.gov/SEER肿瘤数据库是北美最具代表性的大型肿瘤登记注册数据库之一,收集了大量医学的相关原始数据。数据库中的肿瘤可分为9类:乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其它尚未确定的类型。临床数据记录中包括患者注册编号、人口统计学特征、肿瘤特征、治疗方案、死亡原因等信息。六、BioLINCC数据库图片
网址:https://biolincc.nhlbi.nih.gov/home/生物标本和数据采集信息中心数据库包含两类数据,一类是NHBLI生物标本数据,这类数据自1975年开始由血液疾病部门管理,一类是NHBLI数据。NHBLI临床研究数据主要来源于最近70多年以来的流行病学研究和临床研究,包含来自于145家中心临床注册研究和观察性研究的数十万患者数据。临床注册研究的数据包含患者基线资料、中期随访信息、辅助研究以及预后资料(包含实验室检查);流行病学研究数据包含在整个观察周期内获得的所有监测结果。七、Dryad公开数据平台图片
网址:https://datadryad.org/stashDryad数据库受美国国家科学基金会资助,于2008年9月成立,是一家非营利性会员制组织。Dryad数据库中储存医学、生物学、生态学领域的研究数据,向全球开放,可免费下载其中的数据资源并可再次使用。八、UK biobank(英国生物样本数据库)图片
网址:https://www.ukbiobank.ac.uk/2006—2010年英国22个评估中心招募了大约50万40~69岁志愿者,收集疾病和生活方式信息及基因型数据,将电子医疗记录与遗传数据联系起来,是目前已建成的最大规模的人类遗传队列生物样本库。数据收集主要包括:一、Baseline assessment触摸屏问卷调查;口头采访和血压测量;身体测量;生物样本采集;饮食问卷/online。二、Repeat assessment2012-2013,通过电子邮件或信件邀请参与者进行第一次重复评估,2万名参与者参与。通过触摸屏问卷和简短的口头访谈收集参与者的健康和生活方式、听力和认知功能的信息,还进行了一系列身体测量和生物样本采集。计划随后每2-3年进行一次随访。三、Linked health data包含死亡登记、住院患者、癌症登记、初级卫生保健和COVID-19检测结果。数据查找主要通过首页中Browse按钮查询:图片
公共数据库是笔宝贵的资源,要想利用好它们,还得根据个体需求进行深度挖掘,进而进行科研成果的转化,最终服务于临床,以期为促进人类健康作贡献。后期会重点对常用的单个数据库进行详细介绍,敬请期待!图片
【特别声明】
本公众号文章注重原创企业文化,非原创文章会注明出处。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。