欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
医学论文
当前位置:首页 > 医学论文
基于文本挖掘的精子发生各阶段的相关基因
来源:一起赢论文网     日期:2015-04-20     浏览数:3849     【 字体:

 摘   要   精子发生是雄性哺乳动物生命活动中一个重要的生物学过程, 该过程的每一个阶段都有众多基因 ? 蛋白参与并发挥功能. 相关基因 ? 蛋白出现异常是导致男性不育症的主要诱因, 但这些基因 ? 蛋白的信息大都分散在科研文献中, 而人工从海量文献中提取这些基因 ? 蛋白名称费时费力, 因此, 基于文本挖掘技术, 提出了自动提取精子发生过程各个阶段中发挥作用的基因 ? 蛋白名称的策略. 首先比较了3种不同算法在不同词条数目下的分类效果, 并确定用支持向量机(s u p p o r t  v e c t o r  m a c h i n e , S VM ) 算法对相关文本按照精子发生过程的3阶段分类, 然后建立适当的信息提取和筛选方法, 从文献摘要中提取每个阶段中的基因 ? 蛋白名称. 最后, 通过与人工提取的基因 ? 蛋白名称进行比较验证, 提取结果的正确率为7 1 . 9% , 证明了提取策略的可行性.

关键词   文本挖掘; 精子发生; 男性不育症; 文本分类; 
      基因 ? 蛋白名称提取随着生活节奏的加快、 环境污染日益加重, 越来越多的男性开始遭受不育症(i n f e r t i l i t y ) 的困扰. 据统计大约有1 5%的夫妻遭受着不育症的困扰 [1 ], 其中,5 0% 的案例是由男性的原因造成的, 已达生育年龄的男性中, 约有8%的男性因生殖障碍需要医药治疗 [2 ] . 并且, 这一数字正呈逐年上升趋势. 对于男性不育症的研究已成为时下生物医学领域的重点研究课题. 男性不育症的产生在很大程度上是由于男性精子发生过程中出现异常情况而造成的 . 精子发生(s p e r m a t o g e n e s i s ) 是指精原细胞经过连续的增殖分化最后形成精子的过程, 是雄性哺乳动物生殖过程中必要的阶段 . 精子发生过程可分为 3 个阶段: 有丝分裂阶段( m i t o s i s ) 、 减数分裂阶段(m e i o s i s ) 和精子形成阶段(s p e r m i o g e n e s i s ) . 精子发生对于哺乳动物的种族延续发挥着至关重要的作用, 因此, 该过程的每一个阶段都有众多基因 ? 蛋白参与并精细调控精子形成过程 . 所以, 鉴定精子发生每个阶段的相关基因 ? 蛋白能在很大程度上帮助我们理解精子发生和人类生殖的生物学过程, 从而寻找到从根本上治愈男性不育的方法 .过去的 2 0 多年中, 精子发生作为生物医学领域的研 究热点, 其相 关 研究 论文 数 量 快速增 长. 以“s p e r m a t o g e n e s i s ” 为关键词搜索 ME D L I N E 得到文本摘要高达2万多篇, 并且每年的相关文献都在增加. 精子发生相关基因 ? 蛋白的信息均分散在这些自由文本中 . 精子发生过程的每个阶段( 有丝分裂阶段、 减数分裂阶段和精子形成阶段) 都有众多基因 ?蛋白参与, 用纯人工的办法从文献中获取每个阶段发挥作用的基因 ? 蛋白名称要付出较高的人力代价.
      事实上, 生物医学的其他研究领域同样面临着海量信息淹没于文献库而无法得到有效分析利用的问题, 这使得近年来以生物医学文献为主要研究对象的文本挖掘技术得到了广泛的关注和发展. 但是据我们所知, 目前尚没有工作通过文本挖掘的方式获取文献中精子发生每个阶段相关的基因 ? 蛋白, 已有的工作也仅仅只基于少量文献进行人工阅读整理.与我们的研究目的相关的文本挖掘技术主要涉及信息检索和信息提取. 其中, 随着 P u b M e d等生物医学数据库的发展, 信息检索已经有了长足的进步, 这使得准确、 高效的信息提取成为主要任务. 信息提取(i n f o r m a t i o n  e x t r a c t i o n ) 致力于生物实体的识别和这些实体之间的关系 [3 ] . 根据不同的目标, 有关生物分子的信息提取方法通常可分为3类:1) 自动识别文本中的基因或蛋白 [4 - 5 ] ;2 ) 基于文本的基因和蛋白功能注释 [6 ] ;3 ) 生物分子之间的关系信息提取, 例如蛋白与蛋白间的相互作用等 [7 - 8 ] .在本文中,我们主要关注前两个方面, 识别与精子发生相关的基因并根据功能将其与精子发生的不同阶段关联起来 . 要达到我们的目标, 还需要通过文本分类技术,将对应于精子发生不同阶段的文献区分开来 .
      与我们的研究密切相关的工作主要包括: W a n g等人 [9 ] 基于机器学习算法和文本挖掘技术, 从相关文本中提取与血管再生(a n g i o g e n e s i s ) 相关的生物过程; T h a n h 等人 [1 0 ] 从文献中挖掘了宿主和病原体的蛋白相互作用, 并比较了基于特征的机器学习方法和基于语言处理方法的效果.在本文中, 我们提出了基于文本挖掘的精子发生各阶段相关基因 ? 蛋白的提取策略, 结合机器学习算法和专家领域知识, 从原始文本中分别识别出精子发生每一个阶段的相关基因 ? 蛋白名称. 最后, 同人工提取的结果进行比较验证, 取得了较高的正确率.
      1  方    法
      为了从生物医学文本中提取精子发生每个阶段相关的基因 ? 蛋白, 我们采用了以下4个步骤( 如图1所示) : 首先, 选取从 ME D L I N E下载的部分文本按照精子发生的3个阶段进行人工标注; 然后, 对文本进行预处理, 将文本表示成多维向量; 接着, 将文本特征向量作为输入, 用于训练分类器并对文本进行分类; 最后, 选取每一类中分类置信度较高的文本进行基因 ? 蛋白名称提取.
      1. 1  文本获取与类标注我们 以 “ s p e r m a t o g e n e s i s ”作 为 主 题 词 搜 索ME D L I N E数据库得到2  3 6 1篇与精子发生相关的文本.从中随机选择 4 0 0 篇文本, 让两名从事精子发生生物学实验研究的研究生各自独立地阅读这些文本, 并按照精子发生的 3 个过程进行人工标注 . 然后我们选择两者标注一致的文本作为训练集 . 最终, 我们得到了 2 9 9 篇标注一致的文本, 其中属于第 1 类( 有丝分裂阶段) 的文本有8 0篇, 第2类( 减数分裂阶段) 的文本有1 0 8篇, 第3类( 精子形成阶段) 的文本有1 1 1 篇, 如表 1所示:
      1. 2  文本向量表示基于向量空间模型 [1 1 ] (v e c t o r  s p a c e  m o d e l ) 的文本分类, 首要任务就是将文本表示成权重词条向量( w e i g h t e d  t e r m  v e c t o r ). 向量空间模型将每一个文本 d 用一个数值特征向量 w ( d ) = ( t1 , t 2 , t 3 , …,t m ) 进行描述, 其中, t i ( i =1 , 2 , 3 , …, m ) 表示文本中每一个词条的权重, 这样就可以将文本的分类转换成对简单多维向量的分类 . 具体步骤如下.1 )词 条 定 义 . 我 们 选 择 以 单 个 单 词 ( s i n g l ew o r d ) 作为词条, 即将文本分成单个单词, 每一个单词作为特征空间中的一个维度.2 )词条预处理. 我们对每一个单词都进行了去词尾变化处理, 包括去除 - i n g ,- e d , - s , - e s等. 具体处理过程中, 我们用到了 S P E C I A L I S T  l e x i c a l  t o o l s工具集中的 N o r m[ 1 2 ] 工具. N o r m 工具是美国生物医学信息中心为处理生物医学领域文本词汇变体所开发的J a v a应用程序, 能将同一单词的不同变体(v a r i a n t s ) 处理成相同的标准形式, 同时能去除禁用词和稀有词. 另外, 对于 N o r m工具没能处理的精子发生领域专业词汇, 我们手工建立了一个词典, 将这些单词还原成其词根形式, 例如, 我们将s p e r m a t o g o n i a l通过词典查询的方式还原成 s p e r m a t o g o n i a .3 )特征选择. 在文档集出现的不同词条多达数千个, 并非所有单词对于分类效果都有贡献 . 过多的词条不但会造成数据处理时间消耗, 还会影响分类器的分类效果 . 这里, 我们采用了 χ2统计量 [1 3 - 1 4 ] 来从总的词条中选择出 χ2统计量值最高的部分词条用于构成特征空间 .4 )权重表示. 参照S h a t k a y 等人[ 1 5 ] 的文本权重表示办法, 我们采用布尔权重来表示每一个文本, 即某一词条在文本中出现, 则该维权值就用 1 表示, 不出现就用 0 表示, 这样每一文本转换成用 0 , 1 表示的向量 .
      1. 3  分类器训练用于文本分类的机器学习算法有很多, 常见的有朴素贝叶斯、 多项贝叶斯、 支持向量机等. 针对精子发生相关文本, 我们比较了 3 种算法在训练集的分类效果, 选择其中最佳的算法应用于精子发生文本 的 分 类 . 在 具 体 比 较 过 程 中,我 们 采 用 了WE KA[ 1 6 ] 和 l i b s v m [ 1 7 ] 的分类器实现 .结果显示, 支持向量机(s u p p o r t  v e c t o r  m a c h i n e , S VM ) 算法在处理本问题时的分类效果较优( 结果参见 2. 1 节) . 在实际 S VM 分类器的应用中, 我们选择的核函数为高斯径向核函数( G a u s s i a n  r a d i a l  r a s i s  f u n c t i o n ) , 并对该核函数的两个重要参数进行了优化. 在训练和应用分类器时, 我们都加入了概率参数, 让分类器为每一个分类文本都附上概率置信度.
      1. 4  基因提取为了从文本中比较准确地提取参与精子发生每一阶段的基因 ? 蛋白, 我们选择了分类置信度大于一定阈值的文本进行基因 ? 蛋白的名称提取. 首先要完成命名实体识别( n a m e d  e n t i t y r e c o g n i t i o n ) , 即从文本中识别出那些表示基因 ? 蛋白名称的单词. 在本文中我们采用了 G e n i a t a g g e r[ 1 8 ] 工具来完成命名实体识别. G e n i a t a g g e r处理每一篇文本会标注出文中出现的所有基因 ? 蛋白名称, 但一篇文本中通过生物学实验验证的一般只有一种基因 ? 蛋白同精子发生相关, 其他的基因 ? 蛋白虽然在摘要中提及, 但并不一定是文章的研究对象.由于我们关注的是精子发生各阶段的相关基因, 因此我们建立如下步骤来完成各类( 阶段) 文本中与精子发生相关的基因 ? 蛋白的提取.
      1 )否定文本去除. 部分文本的内容是说明某些基因 ? 蛋白在精子发生过程中不起作用, 这些文本应当排除 . 我们利用 N e g S c o p e[ 1 9 ] 对文本的标题(t i t l e )进行否定识别. 对于识别出的带否定标题的文本进行人工判断, 将描述不在精子发生过程中起作用的文本排除 .
      2 )精 子 发 生 相 关 基 因 ? 蛋 白 识 别. 首 先 利 用S P E C I A L I S T  t e x t  t o o l s[ 2 0 ] 将摘要切分成单个句子.对每一个句子用 G e n i a t a g g e r进行处理, 识别出每个句子中的基因 ? 蛋白. 然后, 我们应用了共现( c o -o c c u r a n c e ) 规则, 即如果基因 ? 蛋白与精子发生主题词出现在同一个句子中, 那么我们就认为该基因 ? 蛋白与精子发生过程相关 . 精子发生主题词是我们手工建立的与精子发生过程密切相关的生物学专业词汇, 主要包括 s p e r m a t o g e n e s i s , s p e r m , t e s t i s , i n f e r t i l i t y ,f e r t i l i t y 等 .
      3 )精子发生相关基因 ? 蛋白筛选 . 通过以上处理, 从摘要中识别出的基因 ? 蛋白名称有多种, 不是每一个基因或蛋白都是文章通过实验或其他方式进行过验证, 因此, 我们有必要过滤掉其中的假阳性数据 . 在本文中, 我们应用了一条简单的规则: 在文本中出现次数最多的基因 ? 蛋白就是该文章研究的对象 . 因此, 在文本中与精子发生主题词共现且出现次数最多的基因 ? 蛋白, 就为我们要提取的与精子发生相关的基因 ?蛋白.
      2  实验结果
      2. 1  不同维数下分类效果比较及评价对于文本的分类算法, 我们采用 1 0 倍交叉验证的方法, 比较了常用的3类算法— — —朴素贝叶斯、 多项贝叶斯和支持向量机在不同维数下的分类效果( 如表2所示) . 词条数量(t e r m  n u m b e r ) 在一定程度上能影响分类效果, 合适的特征空间维数能使分类器的分类效果更好. 因此, 我们在不同的特征空间维数( 词条数量) 下比较了3类算法的分类效果. 评价标准包括: 正确率(a c c u r a c y ) 、 精确度( p r e c i s i o n ) 、召回率(r e c a l l) 和F 值 .评价方法在形式上可进行如下描述 [2 1 ] :| D | 表示文档集, 对每一类 c , 我们令 T P c 表示真阳性( 正确分类成 c 类的文档数) 、 F P c 表示假阳性( 错误分类成 c 类的文档数) 、 FN c 表示假阴性( 属于 c 类但分类器并没将其分到 c 类) . 评价标准定义为p r e c i s i o n =T P cT P c + F P c ;r e c a l l =T P cT P c + F N c ;a c c u r a c y =∑c ∈ CT P c| D |.   F 值的计算公式为F = 2× p r e c i s i o n ×r e c a l lp r e c i s i o n + r e c a l l.如表 2 所示, 在不同的维数上, 从分类正确率、精确度、 召回率和 F 值方面进行比较, S VM 算法的性能最优 . 同时, 通过比较我们发现, 在维数为 4 0时, S VM 算法表现出的分类效果比其他维数的效果更好, 正确率和 F 值都大于0 . 9. 根据以上结果, 我们在实际的分类器训练过程中选择了 S VM 算法,并选择了 χ2统计量值最高的4 0个单词构成特征空间 . 同时我们分析了这 4 0 个单词, 其中大部分单词,例 如 r e n e w , h a p l o i d , l e p t o t e n e , m e t a p h a s e , m o t i l i t y ,p a c h y t e n e , s t e m 等, 都是表示或描述了精子发生不同阶段生命活动的关键词, 这些单词能很好地暗示精 子发生所处的具体阶段 . 4 0 维较 3 0 维多出的单词分别为e l e m e n t , r e c o m b i n a t i o n , r o u n d ,h e a d等,虽然它们并非精子发生过程中的关键词, 但在描述精子发生过程时往往也会用到, 例如, 在精子变性阶段, 原先球状的精子细胞会变形形成头部(h e a d ) 和尾部. 5 0维较4 0维多出的单词为c u l t u r e , d a m a g e ,d i s p l a y , t r a n s p l a n t a t i o n等, 这些单词对于区分精子发生的3个阶段没有明显的贡献.
      2. 2  分类器参数优化及分类结果基于 S VM 算法分类器的分类正确率取决于一系列的参数优化. 本文中我们优化了其中主要的两个参数:C 和 γ . 比较了 C 和 γ 在各种不同取值下的分类正确率 . C 的取值范围为 2~2 0 ,γ 的取值范围为 2-1 0 ~2 1. 当C取2,γ 取0 . 1 2 5时, 分类正确率最高达到9 1 . 3%. 因此, 在实际训练 S VM 分类器时,我们设定 C =2 ,γ =0 . 1 2 5. 同时, 我们选择了概率估计参数 B 用于输出文本分类的置信度, 部分分类结果如表3 所示 .
      2. 3  基因 ? 蛋白提取结果及评价我们 随 机 选 择 6 0 篇 精 子 发 生 相 关 文 本, 用S VM 分类器对其进行分类 . 我们人工分析了这 6 0篇文本, 其中分类置信度小于 0 . 8 5 的文本中, 存在人工无法准确确定其类别的情况, 或者存在文本同时 属于两类的情况, 即某些基因 ? 蛋白在精子发生的两个阶段中都发挥作用 . 而置信度大于 0 . 8 5 的文本可准确确定其类别 . 因此, 我们对概率置信度大于0 . 8 5 的 3 2 篇文本( 8 篇属于第 1 类、 1 3 篇属于第 2类、1 1 篇属于第 3 类) 应用 1. 4 节的方法进行了基因 ? 蛋白提取, 同时, 我们将识别得到的结果同人工提取结果进行比较, 有2 3篇文本的识别结果一致,正确率为7 1 . 9% ( 结果表4所示)
      3  结束语
      本文尝试了将文本挖掘技术应用到精子发生相关基因 ? 蛋白研究中, 提出了从文本中提取精子发生各阶段 相 关 基 因 ? 蛋 白 的 策 略. 通 过 建 立 合 适 的S VM 分类器, 将文本按照精子发生的 3 个阶段分类, 并对置信度较高的文本采用一定的提取策略, 得到了初步研究成果.为了提取到可信的精子发生每个阶段的基因 ?蛋白, 我们根据经验限定对分类概率置信度大于0 . 8 5的文本进行基因 ? 蛋白的提取, 这样虽然有利于提高所提取基因 ? 蛋白的真阳性率( t r u e  p o s i t i v e ) , 但也同时也提高了假阴性率(f a l s e  n e g a t i v e ) , 未来的工作应就概率置信度的选择进行研究 . 另外, 我们提出的基因 ? 蛋白提取规则虽然能正确地提取出大部分文本中与精子发生各阶段相关的基因 ? 蛋白, 但提取结果的正确率还有待进一步提高, 我们将在未来的工作中深入探究这一问题.
      参 考 文 献[ 1 ] T h o n n e a u  P. I n c i d e n c e  a n d  m a i n  c a u s e s  o f  i n f e r t i l i t y   i n  ar e s i d e n t  p o p u l a t i o n ( 1  8 5 0  0 0 0 ) o f  t h r e e  F r e n c h  r e g i o n s( 1 9 8 8 - 1 9 8 9 ) [ J ] .H u m a n  R e p r o d u c t i o n , 1 9 9 1 , 6 ( 6 ) : 8 1 1 -8 1 6[ 2 ] M a r t i n e z  G M , C h a n d r a  A , A b m a  J  C , e t  a l .F e r t i l i t y ,c o n t r a c e p t i o n  a n d  f a t h e r h o o d : D a t a  o n  m e n  a n d  w o m e n  f r o mc y c l e  6 ( 2 0 0 2 ) o f  t h e  2 0 0 2n a t i o n a l  s u r v e y   o f  f a m i l y  g r o w t h[ J ] .V i t a l  a n d  H e a l t h  S t a t i s t i c s , 2 0 0 6 , 2 6 ( 2 6 ) : 1 - 5[ 3 ] Y o s h i m a s a  T , J u n i c h i  T , S o p h i a  A. F A C TA : A  t e x t  s e a r c he n g i n e  f o r  f i n d i n g   a s s o c i a t e d  b i o m e d i c a l  c o n c e p t s[ J ] .B i o i n f o r m a t i c s , 2 0 0 8 , 2 4 ( 2 1 ) : 2 5 5 9 - 2 5 6 0[ 4 ] K a z u h i r o  S , J a v e d  M.A  h y b r i d  a p p r o a c h  t o  p r o t e i n  n a m ei d e n t i f i c a t i o n  i n  b i o m e d i c a l  t e x t s [ J ] . I n f o r m a t i o n  P r o c e s s i n ga n d  M a n a g e m e n t , 2 0 0 5 , 4 1 ( 4 ) : 7 2 3 - 7 4 2[ 5 ] T a n a b e  L , X i e  N , T h o m  L H , e t  a l . G E N E TAG : A  t a g g e dc o r p u s  f o r  g e n e ? p r o t e i n  n a m e d  e n t i t y   r e c o g n i t i o n [ J ] .BMCB i o i n f o r m a t i c s , 2 0 0 5 , 6 ( 1 ) : 6 7 1 - 6 7 5[ 6 ] C h a g o y e n  M , C a r m o n a - S a e z  P , S h a t k a y   H , e t  a l .D i s c o v e r i n g   s e m a n t i c  f e a t u r e  i n  t h e  l i t e r a t u r e: A  f o u n d a t i o nf o r  b u i l d i n g   f u n c t i o n a l  a s s o c i a t i o n s [J ] . BMC  B i o i n f o r m a t i c s ,2 0 0 6 , 7 ( 4 1 ) : 5 7 8 - 5 8 3[ 7 ] S h t k a y   H , H o g l u n d  A , B r a d y   S , e t  a l .S h e r L o c : H i g h -a c c u r a c y  p r e d i c t i o n  o f  p r o t e i n  s u b c e l l u l a r  l o c a l i z a t i o n  b yi n t e r g r a t i n g   t e x t  a n d  p r o t e i n  s e q e n c e  d a t a[ J ] .B i o i n f o r m a t i c s , 2 0 0 7 , 2 3 ( 1 1 ) : 1 4 1 0 - 1 4 1 7[ 8 ] H o d o n g   L , Gw a n  S  Y ,J o n g C  P.E 3M i n e r : A  t e x t  m i n i n gt o o l  f o r  u b i q u i t i n - p r o t e i n  l i g a s e s [ J ] . N u c l e i c  A c i d sR e s e a r c h , 2 0 0 8 , 3 6 ( 2 ) : 4 1 6 - 4 2 2[ 9 ] W a n g   X , M c k e n d r i c k  I , B a r r e t t  I , e t  a l . A u t o m a t i ce x t r a c t i o n  o f  a n g i o g e n e s i s  b i o p r o c e s s  f r o m  t e x t [ J ] .B i o i n f o r m a t i c s , 2 0 1 1 , 2 7 ( 1 9 ) : 2 7 3 0 - 2 7 3 7[ 1 0 ] T h a n h  T , S n e h a  J , S a m a n t h a  W , e t  a l . L i t e r a t u r e  m i n i n g   o fh o s t - p a t h o g e n  i n t e r a c t i o n s : C o m p a r i n g   f e a t u r e - b a s e ds u p e r v i s e d  l e a r n i n g   a n d  l a n g u a g e - b a s e d  a p p r o a c h e s[ J ] .B i o i n f o r m a t i c s , 2 0 1 2 , 2 8 ( 6 ) : 8 6 7 - 8 7 5[ 1 1 ] S a l t o n  G , Y a n g   S , W o n g   A.A  v e c t o r  s p a c e  m o d e l  f o ra u t o m a t i c  i n d e x i n g [ J ] . C o mm u n i c a t i o n s  o f  t h e  A CM , 1 9 7 5 ,1 8 ( 1 1 ) : 6 1 3 - 6 2 0[ 1 2 ] S P E C I A L I S T N L P  T o o l s [ O L ] . [ 2 0 1 2 - 0 7 - 1 0 ] .h t t p :? ?l e x s r v 3. n l m. n i h. g o v ? S p e c i a l i s t ? S u mm a r y ? l e x i c a l T o o l s . h t m l[ 1 3 ] Y a n g   Y O.P e d e r s o n  J .A  c o m p a r a t i v e  s t u d y   o n  f e a t u r es e l e c t i o n  i n  t e x t  c a t e g o r i z a t i o n [ C ] ? ? P r o c  o f  t h e  1 4 t h  I n tC o n f  o n  M a c h i n e  L e a r n i n g .P i s c a t a w a y , N J : I E E E , 1 9 9 7 :4 1 2 - 4 2 0[ 1 4 ] Q i u  Y u n f e i , W a n g  W e i , L i u  D a y o u , e t  a l .CH I  f e a t u r es e l e c t i o n  m e t h o d  b a s e d  o n  v a r i a n c e [ J ] . A p p l i c a t i o n  R e s e a r c ho f  C o m p u t e r s , 2 0 1 2 , 2 9 ( 4 ) : 1 3 0 4 - 1 3 0 6 ( i n  C h i n e s e )( 邱云飞,王威,刘大有,等 . 基于方差的 CH I 特征选择方法[ J ] .计算机应用研究, 2 0 1 2 , 2 9 ( 4 ) : 1 3 0 4 - 1 3 0 6 )[ 1 5 ] S h a t k a y   H , P a n  F , R z h e t s k y   A , e t  a l .M u l t i- d i m e n s i o n a lc l a s s i f i c a t i o n  o f  b i o m e d i c a l  t e x t : T o w a r d  a u t o m a t e d ,p r a c t i c a l  p r o v i s i o n  o f  h i g h -u t i l i t y   t e x t  t o  d i v e r s e  u s e r s [J ] .B i o i n f o r m a t i c s , 2 0 0 8 , 2 4 ( 1 8 ) : 2 0 8 6 - 2 0 9 3[ 1 6 ] H o l m e s  G , D o n k i n  A , W i t t e n  I  H.WE KA : A m a c h i n el e a r n i n g   w o r k b e n c h [ C ] ? ? P r o c  o f  t h e  2 n d  A u s t r a l i a  a n d  N e wZ e a l a n d  C o n f  o n  I n t e l l i g e n t  I n f o r m a t i o n  S y s t e m s .P i s c a t a w a y , N J : I E E E , 1 9 9 4 : 3 5 7 - 3 6 1[ 1 7 ] C h a n g   C  C , L i n  C  J . L I B S VM : A  l i b r a r y   f o r  s u p p o r t  v e c t o rm a c h i n e s [ J ] . A CM T r a n s  o n  I n t e l l i g e n t  S y s t e m sT e c h n o l o g y , 2 0 1 1 , 2 ( 3 ) : 2 7 - 2 9[ 1 8 ] T s u r u o k a  Y.D e v e l o p i n g   A R o b u s t  P a r t - o f- s p e e c h  T a g g e rF o r  B i o m e d i c a l  T e x t [ M ] . B e r l i n : S p r i n g e r , 2 0 0 5 : 3 8 2 - 3 9 2[ 1 9 ] S h a s h a n k  A , H o n g   Y.B i o m e d i c a l  n e g a t i o n  s c o p e  d e t e c t i o nw i t h  c o n d i t i o n a l  r a n d o m  f i e l d s [ J ] . J o u r n a l  o f  t h e  Am e r i c a nM e d i c a l  I n f o r m a t i c s  A s s o c i a t i o n , 2 0 1 0 , 1 7 ( 6 ) : 6 9 6 - 7 0 1[ 2 0 ] S P E C I A L I S T N L P  T o o l s [ O L ] . [ 2 0 1 2 - 0 7 - 2 0 ] .h t t p :? ?l e x s r v 3. n l m. n i h. g o v ? L e x S y s G r o u p ? P r o j e c t s ? t e x t T o o l s ? v 2. 4.C ? i n d e x. h t m l[ 2 1 ] O n o  T , H i s h i g a k i  H , T a n i g a m i  A , e t  a l . A u t o m a t e de x t r a c t i o n  o f  i n f o r m a t i o n  o n  p r o t e i n - p r o t e i n  i n t e r a c t i o n s  f r o mt h e  b i o l o g i c a l  l i t e r a t u r e [ J ] .B i o i n f o r m a t i c s , 2 0 0 1 , 1 7 ( 2 ) :1 5 5 - 1 6 1
 
[返回]
上一篇:生物信息学中的文本挖掘方法
下一篇:医学生物学SCI经典英文表达参考