脾虚证诊断信息数据挖掘的初步探讨

jz066520 · 发表于 2014-6-1 22:22:00

【摘要】  中医辨证时所要运用的证候信息复杂繁多，而数据挖掘能从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识。将数据挖掘技术运用于脾虚证的诊断研究当中，计算1564例病人证候及证候组对脾虚证诊断的贡献率，在此基础上，根据参数建立一个自变量证候(x)和应变量证(y)的数学模型，为今后辨证的现代化、计量化、智能化提供了方法。

【关键词】  脾虚证; 数据挖掘; 中医现代化

　　1 理论基础

　　随着Internet的产生和应用，展现在人们面前的是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来，但同时人们也会感到面对信息海洋像大海捞针一样束手无策。在这样一个人类正被数据淹没，却饥渴于知识的时代，从数据库中发现知识及其核心技术数据挖掘(DM, Data Mining)便应运而生了[1]。

　　数据挖掘能从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识[2]。将数据挖掘技术运用于中医药的辨证诊断的研究当中，为今后辨证的现代化、计量化、智能化提供了方法。

　　2 病例和方法

　　病例来源于我院中西医结合科一年度门诊首次就诊的年满18周岁的1564例患者。诊断标准采用全国中西医结合大会沈自尹、王文健整理的《中医虚证辨证参考标准》[3]。所有入选病例用调查表进行登记，内容包括依照上述中医诊断标准中涉及的脾虚证的22个证候(S1～ S22)以及患者的一般资料如年龄、性别等。共1564例入选，其中男533例，女1031例。用数据库软件Microsoft Visual Foxpro 8.0建立数据库文件patient.dbf,方便进行统计和计算。

　　因为中医的辨证是一个信息过程，病人是信息源(X)，医生是信息的接受者(Y) 。病人提供给医生的一切信息即证候，医生根据这些证候信息来诊断出证(证型)设辨证是在 m个互相排斥的证型D1，D2，…，Dm中作出鉴别，各证型的事前概率分别为P(D1)，P(D2)，…，P(Dm)，则医生在辨证前对病人证型的不肯定大小，就是信息源的熵：

　　H(X)=-mi=1P(Di)logP(Di)(1)

　　辨证过程中信息源的熵就是在辨证前对病人所属中医证型的不肯定性的大小,每获知一个证候表现，对病人证型的不肯定性即熵就减少。每一个证候所带的信息量是不同的，证候所带的信息量越大，该证候的辨证价值就越大，每个证候对辨证的贡献率就不同。

　　辨证时获得的n 个互斥的证候s1，s2，…，sn，医生在获知病人证候表现sj 的情况下，推断病人证型的不肯定性，便有H(X) 降为H(X|sj) ：

　　H(X|sj)=-mi=1P(Di/sj)logP(Di/sj)(2)

　　于是证候sj 带给医生的信息量为：

　　T(X,sj)=H(X)-H(X|sj) (3)

　　假定s1，s2，…，sn出现的概率分别为P(s1)，P(s2)，…，P(sn)，那么平均说来，获得证候S ，可使病人证型的熵有H(X) 降为H(X|S) ：

　　H(X|S)=nj=1P(sj)H(X|sj)(4)

　　而证候S 带给医生的平均信息量为：

　　T(X,S)=H(X)-H(X|S)(5)

　　这样，我们可以求出各个证候对证型的贡献率为：　λi=T(X,S)H(X) (6)

　　在计算了每一个证的证候的诊断贡献率λi 后，找出当中诊断贡献率最大的证候作为原始生成元，然后分别求出其他证候与此生成元的条件概率即P(sj|si)i=N(sj∩si)N(si) ，在这里的条件概率就是共同出现证候sj和si的病例数与出现证候si的病例数的比值。如果两个证候共同出现的概率大，则它们共同的信息贡献率就不会大，不妨剔除条件概率大于0.5的证候，其余证候按诊断贡献率的大小排列，每次选出一个证候与原始生成元作为证候组，按照计算单个证候对证的诊断贡献率的方法计算出此时证候组对证的诊断贡献率。

　　3 结果

　　依据上述公式(1)～(6)式求出各证候或证候组对脾虚证的诊断贡献率λi ,见表1,2。

　　4 结果

　　我们计算了脾虚证各个证候和证候组的诊断贡献率，如S21食欲减退对脾虚证的诊断贡献率最大(22.74%),绝大多数证候的诊断贡献率小于10%，说明中医在辨证中如果只有单个证候几乎没有可能作出对证型的诊断，也即没有西医所说的金标准。中医的辨证需要一定证候的组合才能作出正确的证型诊断。作为原始生成元的S21 食欲减退和 S19食后腹胀喜按所组成的证候组对于脾虚证的诊断贡献率最大(75%)，并不是两者诊断贡献率相加之和，证候组的诊断贡献率不是单个证候的简单相加，说明中医证候内部存在复杂关系，相互影响和作用的。表1 各个证候对脾虚证的诊断贡献率表2 证候组对脾虚证的诊断贡献率

　　中医辨证是一个复杂的过程，由于辨证过程中要运用的信息复杂繁多，同时中医许多证候信息的表达本身就具有不确定性和模糊性的特点,证候信息所体现出的客观不完整和描述疾病的主观不确切,形成了中医证候信息的复杂性。辨证是中医学中最富有特色的科学精华，而中医辨证标准的研究，对于发展中医理论及提高临床诊治水平，具有极其重要的意义。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识的过程。将数据挖掘技术运用于脾虚证的诊断研究当中，在此基础上，根据参数建立一个自变量证候(x)和应变量-证(y)的数学模型，为今后辨证的现代化、计量化、智能化提供了方法。

【参考文献】
  　1 李雄飞，等.数据挖掘与知识发现.高等教育出版社,2003,11.

　　2 Richard J. Roiger, Michael W. Geatz, Data ming a tutorialbased primer.清华大学出版社,2003,11.

　　3 沈自尹.中医虚证辨证参考标准.中西医结合杂志,1983,3(2):117.

		自动登录	找回密码
密码			立即注册

[临床医学] 脾虚证诊断信息数据挖掘的初步探讨