數學建模數據可視化范例6篇

前言:中文期刊網精心挑選了數學建模數據可視化范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

數學建模數據可視化

數學建模數據可視化范文1

關鍵詞 : 三維建模 ; 立體測圖 ; 真正射影像

Abstract: The 3D model of city is a city terrain, over ground and underground artificial built (structure) three-dimensional expression of the building, to reflect the spatial position, city of object geometry, texture and attribute information. This paper introduces the basic principle, 3D city modeling technology, production process, technical characteristics of the content.

Key words: 3D modeling; stereo mapping; true orthophoto

中圖分類號:P25 文獻標識碼:文章編號:

引言:城市三維建模旨在綜合運用“3S”技術、三維建模與可視化技術,以多尺度遙感對地觀測技術為手段、以1:1000標準分幅和行政單元為基礎作業單元,設計一套人機交互方式的城市三維建模技術流程,利用DEM、DOM、TDOM、DLG構建城市建筑物的幾何模型,實現從DOM、TDOM和帶有定向參數的原始影像上提取建筑物各個面的紋理,并對紋理信息進行處理,最后在建筑物幾何模型上粘貼紋理生成城市三維模型。從而以較低的建設成本,較高的建模效率滿足城市三維建模的要求,實現對城市現狀的三維模型快速建立,滿足不同用戶的需求,為城市管理提供可視化的手段。

一、城市三維建?;緶蕜t

1)分幅建模

為了便于數據庫存儲和系統調用,以1:1000標準分幅為單位作為建模的基本單位,DLG、DOM、DEM和TDOM也相應的以此單位分幅。

2)地物取舍

在城市三維模型中需要反映出城市的主體結構,對較大型建筑物要反映出其真實形狀,對于小型建筑物,對全局影響不大的地物可以進行綜合,以紋理影像代替細節。通過對地物的綜合取舍可以有效地提高建模的效率。

3)特殊建筑物

由于地表存在大量的非規則建筑物,例如鏤空建筑物(涼亭、加油站等)這種有頂部,而下面為空的建筑物,利用航空攝影方法進行建模只能表現建筑物的頂部結構,而不能構建出內部結構,因此需要對這類建筑物進行單獨建模。

4)模型優化

建模場景中單個物體的面數不能太多,可以首先在二維矢量圖中對建筑物的邊線進行綜合,將距離較近的線進行綜合,使建筑物的形狀盡量規則、簡單,這樣可以降低整個場景的面數,在紋理貼圖時也可以節省時間,同時還可以提高交互場景的運行速度。

5)建模效率

需要采用高效的建模方法來構建地物模型。針對復雜地物,盡量把模型做成是可以組裝的;對于需要手動建模的地物,選擇建模軟件(3DSMax、Maya、Sketchup、Mudbox、VirtuoZo、Photoshop等)進行建模。

二.三維模型制作技術路線

三維模型數據既應滿足數字城市又應滿足數字規劃兩方面的需求,將同時保證數據精度和美觀度。因此建模方法以影像作參考依據,對測區范圍內航空攝影的高重疊率遙感影像進行處理,并產生出建模過程中所需要的DSM、DEM、DOM和TDOM數據。通過全數字攝影測量系統采集到的矢量數據,基于DSM、DEM進行立面處理得到建筑物的幾何模型,然后將建筑物幾何模型投影到帶有定向參數的航空攝影遙感影像和TDOM上,自動提取建筑物的紋理信息,最終生成建筑物完整的三維模型。三維模型制作技術路線如圖1。

圖1 三維模型制作技術路線

1)立體攝影測量技術

基于航空攝影測量和空三加密技術快速搭建三維城市模塊,能夠獲取高精度的建筑高程信息,保障數字城市業務對高精度城市模型的需要。同時其高效、真實、精準的特性為業務應用快速提供準確的數據源,方便用戶盡快開展行業應用。

2)真正射影像(TDOM)處理技術

與普通數字正射影像產品的區別是:三維建模區所用的背景圖對所有建筑物都進行了中心投影糾正,從而保證建筑物無投影差。

利用全數字攝影測量系統,在立體環境下采集建筑物幾何特征信息。攝影測量系統所采集的建筑物矢量數據,是制作三維建模區背景圖的數學基礎,利用此數據對正射影像數據進行再次精糾正,即可消除建筑物投影差。

正射影像數據精糾正之后,利用專業的正射影像鑲嵌軟件,為任何來源的正射影像提供完全自動的整塊的色彩平衡和無縫鑲嵌。

三.城市三維模型數據生產

1)矢量采集

利用全數字攝影測量系統,在立體環境下采集建筑物幾何特征信息(圖2)。

圖2 建筑物矢量采集

2)三維模型生成

利用專業三維建筑物制作軟件自動生成建筑物三維模型(圖3)。

圖3 自動生成三維模型數據

3)頂部紋理貼圖

由于真正射影像已經消除了建筑物投影差,使得矢量信息與影像信息能夠完美疊加,由此可以對影像頂部紋理信息進行準確裁切,并自動提取,附著在建筑物三維模型數據上(圖4)。

圖4 頂部紋理自動提取

4)建筑物側面紋理貼圖

a.影像貼圖模型側面紋理

本項目城市建筑物影像貼圖模型側面紋理部分采用影像貼圖,提取正射影像作為建筑模型的側面紋理(圖5)。

圖5 影像紋理模型

b.照片貼圖模型側面紋理

照片貼圖模型采用實地采集照片作為側面紋理(圖6)。

圖6 照片紋理模型

四.三維模型制作技術特點

1)利用數字微分糾正技術,改正原始影像的幾何變形,對影像進行重采樣,使影像視角被糾正為垂直視角而形成的影像圖。而傳統正射影像并不是完全消除了投影差的所謂“真正射”。

2)避免了高大建筑的傾斜對其它地物的遮擋。

3)圖上的所有人造三維物體,例如建筑物和橋梁等,都被安放在它們真正的位置上,沒有產生由高度的起伏而引起的位移。

4)利用真正射影像和數字地表模型進行疊加可以很方便地生成三維城市地面模型。由于建筑物等已經被糾正到垂直視角,所以三維建筑等的頂部影像能夠和數字地表模型完美疊加。

5)在高架橋、立交橋等人工修建的橋梁處,因采用三維建模制作,故在真正射影像上我們采用還原原始地面的方式,使其在三維場景中顯示地更真實。

五.結論

城市三維建模是以立體測量三維建模為主要工作內容,建模要求模型結構完整、平面和高程精度高、重點道路和市中心區域模型效果精美。最終建模成果可配置于三維地理信息平臺上,用于展示及輔助決策,未來成果的應用將延伸到地下管線、數字城管、規劃等,初步構建以三維仿真為技術基石,城市綜合管理為目標的數字虛擬城市。

參考文獻:

[1] 熊祖強.工程地質三維建模及可視化技術研究[D] 武漢:中國科學院武漢巖土力學研究所,2007.

[2] 高山.三維城市模型若干關鍵技術的研究[D].武漢:武漢大學,2004

數學建模數據可視化范文2

Abstract: Planetary gear system is one of the important transmission parts of mine winch. On the basis of the research on objective function, constraint conditions and design variables, this paper programs optimization design program with Matlab, optimizes the planetary gear system design, determines the size of each structure part of planetary gear more accurately, and then reaches the goal of reducing the weight of the device, saving materials and reducing the cost.

關鍵詞: 行星輪系;優化設計;MATLAB

Key words: planetary gear system;optimization design;Matlab

中圖分類號:TH122 文獻標識碼:A 文章編號:1006-4311(2013)12-0040-02

1 概述

礦用絞車主要用于礦井井下及裝載站調度編組礦車、中間巷道中拖運礦車及完成其他輔助搬運工作,它在煤礦上使用非常廣泛,其產業已經成為煤礦設備方面一個非常重要的分支。礦用絞車的規格和品種繁多,產品的體積、性能等差異也很大。

JY型絞車是一種新型的礦用絞車,該絞車的使用范圍廣,在井下工作的適應性強,在操作等方面也具有較人性化的設計。絞車為了能夠適應工作的性質和環境,其結構應該緊湊、輕便,本文以JY60型礦用絞車為例,對絞車中的行星齒輪機構進行優化設計,在保證使用性能的前提下,盡量減小其體積,從而可以減輕重量、節約材料、降低成本。

2 Matlab優化設計

機械優化設計是以機械設計的理論為依據,建立相應的數學模型,通過此模型反映出工程設計中存在的問題,并通過計算技術找出設計中可以采用的最優方案。

MATLAB主要面對可視化、交互式程序設計以及科學計算等工作環境。它將數值分析、矩陣計算、非線性動態系統的建模和仿真等諸多強大功能集于一身,為科學研究、工程設計、有效數值計算等眾多科學領域提供了一種方便、快捷的解決模式。

其中優化工具箱的功能非常強大,不僅可以求解線性、非線性規劃問題,同時可以針對多目標規劃問題進行分析。

本次優化設計利用Matlab優化工具箱進行優化設計,通過序列二次規劃法進行數據計算,求得設計中的最優數據,并可確保線性收斂具有較好的效果。

本文研究礦用絞車中行星齒輪機構的設計,利用fmincon函數,尋求此機構的優化設計方案,具體算法如下:

列舉出相關約束條件:

C(x)≤0Ceq(x)=0A?X≤bAeq?X=beqlb≤X≤ub

求解minf(x)

函數語法為:

[R, fval, exitflag, output]=fmincon(@objective, R0, A, b,Aeq, beq, max, min,@constraint)

式中R為通過優化設計后得到的最優解;fval為目標函數在R點得到的函數值;exitflag為優化結果的標志; output為返回信息的數據結構;objective為實現目標函數的M文件;R0為優化變量初始值;max為優化變量上限值;min為優化變量下限值;constraint為實現約束函數的M文件。

3 行星齒輪機構的數學模型

礦用絞車中的行星輪系是絞車中重要的傳動機構之一,其設計相對比較復雜,本文以JY60型絞車為例,對絞車中的行星輪系進行分析,以最小體積為目標函數進行優化設計。行星輪系機構簡圖如圖1所示。

3.1 明確設計變量 JY60型絞車的相關參數如下:主動輪工作轉矩T=879N.m,行星輪的個數F=2,行星輪系傳動比i=3.91,太陽輪齒數z3=23,齒輪齒寬b=92,模數m=8。

要計算行星輪系體積大小,需選擇齒輪的3個主要參數:齒數、齒寬、模數,將z3、b、m作為三個變量,X=[z3 b m]=[x1 x2 x3]。

3.2 建立目標函數 根據前面的分析可知,機構的體積大小會影響到絞車整體結構大小,因此本優化設計以行星輪系體積作為目標函數,具體公式如下:

f(x)=V3+FV2=■m2b(z■■+Fz■■)

式中V3――太陽輪體積

V2――行星輪體積

Z2――行星輪齒數

根據行星輪系的同心條件可知

z2=■=■×z3

由上兩式可得f(x)=■m2bz■■[4+F(i-1)2]

將已知數值帶入,得f(x)=4.08z■■bm2

代入設計變量x1、x2、x3,則該優化問題的目標函數即可寫成:

f(x)=4.08x■■bx■■ (1)

3.3 確定約束條件

根據行星輪系齒寬、相鄰條件、輪齒接觸強度條件和輪齒彎曲強度可設計以下的約束條件:

①根據太陽輪齒數的約束條件,17≤z3≤40

②根據模數的約束條件,2≤m≤10

③根據齒寬限制,0.7mz3≤b≤1.15mz3

④根據行星輪系的相鄰條件,

(z3+z2)sin■>z2+2ha*

即: z3>1

⑤齒輪的材料為40Cr,根據齒輪輪齒接觸強度的要求:

d3≥800■

式中K■――工況系數

Kβ――載荷分布系數

φ■――齒寬系數

[σ■]――接觸疲勞許用應力

經計算得2529822≤z■■m2b

⑥根據齒輪彎曲強度的要求:

m≥13■

式中YF――齒形系數

[σ■]――彎曲疲勞許用應力

經計算得z3m2b≥12582z■■

將以上計算所得結果整理得約束條件:

17-x■≤0;x1-40?燮0 2-x■≤0;x■-10≤0 1-x1≤0 x2-1.15x1x3≤0 0.7x1x3-x2≤0 2529822-x■■x■■x2≤0 12582x■■-x1x2x■■≤0

4 MATLAB優化算法

該行星齒輪機構的數學模型屬于非線性規劃問題,在進行優化設計時,選用Matlab優化工具箱中的有約束多元函數極小值fmincon函數來實現。

4.1 實現目標函數 根據公式(1)建立M文件,以實現目標函數,命名為objective.m,程序如下:

function b=objective(x)

b=4.08*x(1)^2*x(2)*x(3)^2;

4.2 明確約束條件

根據公式(5)-(8)建立M文件,以實現約束函數,命名為constraint.m,程序如下:

function[y,ceq]=constraint(x)

y=[x(2)-1.15*x(1)*x(3);

0.7*x(1)*x(3)-x(2);

2529822-x(1)^2*x(3)^2*x(2);

12585*x(1)^(-0.159189)-x(1)*x(2)*x(3)^2];

ceq=[];

4.3 編寫優化程序 由式(2)(3)確定變量X的上下界,建立M文件,以調用優化方法,命名為jiaoche.m,程序如下:

R0=[23,92,8];

min=[17;0;2];

max=[40;120;10];

[R, fval, exitflag, output]=fmincon(@objective, R0, [], [],[], [],min,max,@constraint)

5 優化結果及分析

建立三個M文件后,運行結果如下:

R=22.5816 107.4225 6.7958

fval=1.0322e+007

exitflag=4

根據工程設計要求,所有參數要進行標準化或者圓整。

優化前后的參數對比見表1。

從結果反饋,優化后的行星輪系體積比優化前節約了近11.1%。優化后的行星輪系在保證礦用絞車使用性能的前提下,減小了體積,更適應礦用絞車的工作環境,另外還可以達到減輕重量、節約材料、降低成本等目的。

利用Matlab軟件對此類產品進行優化設計,程序簡單易懂,設計精度較高,還可以減輕設計者的勞動力,縮短產品設計的周期,實現了機械設計與軟件的有效結合。

參考文獻:

[1]饒振綱.行星傳動機構設計[M].北京:化學工業出版社,2003.

[2]汪浩,王洪謙.礦井提升機減速器的選用與優化[J].煤礦機械,2011,32(10):192-193.

[3]王海艷.JY60型運輸絞車傳動系統動態特性研究[D].中國礦業大學,2008.

數學建模數據可視化范文3

關鍵詞:大數據 大數據分析方法 情報研究 適用性

中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大數據分析(Big Data Analytics,BDA)是以“深度的發現分析、引領行動”作為目標的工作[1-2],它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具,以便讓海量數據的處理及分析變得更加容易,從數據中提取有用信息并形成結論,用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領域中的情報研究(也稱情報分析)在本質上是一致的,兩者至少在方法與技術(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關問題。因此,本文首先概略總結BDA的方法體系,然后探討BDA方法在情報研究中的適用性。

1 大數據分析的方法分類

到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現有的相關研究,并以此為基礎提出我們的分類體系。

1.1 相關研究

不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。

(1)面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據,從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。

Power[5]依據分析需求將數值型數據的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析,可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件,可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6],包括:①基本統計(如一般統計及多維數分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數計算(Linear Algebraic Computations);⑤優化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數據匹配(如隱馬爾可夫模型等)。

針對非純粹的數值型數據,Li、Han[7]梳理了面向“時空數據”(Spatiotemporal Data)的BDA方法,通過對動態數據挖掘出主體的預測性,如運用物理工程領域的傅立葉變換(Fourier Transform)及自相關匹配(Autocorrelation)偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律,也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例,梳理了面向學生與學習環境的“學習分析方法”(Learning Analytics),此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法,從中挖掘學習的各種語義關系,并回答“誰在學、學什么、怎么學、學的結果如何”等問題,為教學與優化學習提供參考。

Mohanty等人[3]從數據獲?。―ata Ingestion)角度,依照處理的數據量從小至大的順序,區分出八種分析方法:①流分析(Streaming Analytics),以預定模式及時處理數據流;②高速的數據采集(High Velocity Data Ingestion),不轉換任何格式,可稍晚處理; ③鏈結分析(Linkage Analysis),構建不同數據源的關系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數據集中尋找特定模式;⑤數據聚合(Data Mash-Ups),需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網絡分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論(Data Forensic),用于數據科學家探索大規模數據集。

Chen等人[9]認為,在商業智能分析發展的過程中,商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展,涵蓋了五類核心的分析方法:①數據分析,涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術,可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析,涉及信息檢索、查詢處理、相關反饋等分析技術,可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析,涉及信息檢索、網絡爬蟲、日志分析等分析技術,可應用在云計算、社會網絡分析、網站可視化等;④網絡分析,涉及信息計量、引用網絡、數學網絡模式等分析技術,可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析,可應用在移動通訊服務、個性化分析、游戲營銷分析等。

(2)面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。

美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數據獲取及記錄,從各種感知工具中獲取的數據通常與空間時空相關,需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗,從異構數據源抽取有用信息,并轉換為結構化的格式;③數據整合及表示,將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析,從數據中挖掘出潛在規律及知識,涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋,為了讓用戶容易解讀分析結果,可視化分析技術變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數據的關鍵技術,包括:遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。

(3)面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術,將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。

孟小峰、慈祥[11]著眼于大數據處理框架,梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法,在數據抽取與集成方面,可區分為基于物化(Materialization)或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面,傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難,需進一步發展;在數據解釋方面,引入可視化技術或交互式的數據分析過程,有助于用戶理解分析結果。覃雄派等人[12]認為,非關系數據管理(如MapReduce)擴展了數據分析的多維視角,使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。

2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應用、社交媒體數據挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數據降維分析(如主成分分析、因子分析、經典相關分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會,BDA結合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分類――面向層次的BDA方法框架

上述三種視角的BDA分類各有特點,都有一定的道理。從面向數據的視角來看,BDA方法正從統計(Statistics)轉向挖掘(Mining),并提升到發現(Discovery)和預測(Prediction)?;诹鞒痰腂DA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務時,需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出,這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新,同時更重視新型系統架構與分析方法的集成,例如,各種數據挖掘算法的MapReduce化,就是這方面的典型實例。

本文認為,如果綜合上述三種分類體系中體現的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向層次的BDA分類框架,將BDA方法分為統計、挖掘、發現、預測及集成五個層次,并初步歸納出17種BDA相關方法(見表1)。

2 BDA方法在情報研究中的適用性探討

如前所述,BDA與情報研究在本質上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。

2.1 可直接移植的方法

可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究,用來對情報研究的數據源(如科技文獻、網絡資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中,數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經有多年的應用歷史。

(1)數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發現技術,文本挖掘屬于基于計算機語言學及統計方法的發現技術,用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎,用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中,數據挖掘多應用在圖書館自動化技術與服務方面,例如,館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題,提出引文內容分析,先建立基于規則的引文內容抽取來識別引用句,再通過基于C-value多詞術語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關系。

(2)知識發現。情報研究中所說的知識發現,主要是指基于文獻的知識發現,例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上,提出了“基于文獻的知識發現”,包括:基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現,完整揭示文獻的知識結構與演化情況。在網絡環境下,李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境,為知識發現提供了新的研究潛力,包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之,知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律,甚至可對未來進行預測。

(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務:情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20],例如,黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態度及觀點,再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別,并根據文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內容演化,從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。

(4)多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統計規律,后者則是基于隨機過程理論和數理統計學方法,研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化,評價事物現狀或預測事物未來的發展。

(5)海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是,專家們普遍認為,在現有硬件技術條件下要開發一個海量數據分析系統的難度過高,且高性能計算領域也面臨許多困難,因而轉向尋找共通的基礎性計算方法來幫助運算[6],同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說,處理的數據量不及高性能計算領域的海量數據,因此可以容易地應用這些基本統計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內的定量分析方法,仍然要經常借鑒基礎性的計算方法,并進行公式改進。

(6)高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音,通過線性(如主成分分析、典型相關分析等)或非線性(如投影尋蹤、核方法等)映射可以將數據樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽?。ㄈ鏟CA、LSI、NMF等),轉換成一個低維的特征集來提高訓練效果,是非常必要的[29]。

(7)多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法,例如,為了解決不同研究階段產生的各類科學數據集成問題,白如江、冷伏海[30]認為解決關鍵在于中間件構建,例如,通過基于XML模型將異構數據源的元數據映射到全局視圖,解決了不同數據源的關系描述問題,并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合,為了提供數據在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎上生成邏輯規則,揭示隱含在科學數據中的語義信息。此外,也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系,再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務,對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質異構信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。

2.2 調整后移植的方法

調整后移植的方法是指其在原本的領域已經成功應用,但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點,若移植到情報研究時,需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。

(1)數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性,為了提高數據可用性及數據質量,李建中及劉顯敏[32]梳理了數種數據可用性的相關方法,包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等,分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33],其中,情報素材的質量對后續的情報分析成敗存在著至關重要的作用,當數據或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人,如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。

(2)時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]?,F有研究的多數做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現對象可能沒有周期、時間點分布不一定呈現周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法,但并沒有呈現出其中的周期性規律,特別是文本中的規律特征較難發現,如果能引入此類方法,將有助于找出情報演化的周期模式。

2.3 不適用的方法

考慮學科領域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。

(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據特定目的整合多數據源及促進領域知識的有效利用,其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系,通過翻譯生物信息學分析,可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說,考慮到數據源的特殊性(如DNA編碼數據、蛋白質結構等)、分析視角、工具構建及使用等因素,并不符合情報學的學科研究特色。

(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容,包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法,但學習分析方法的結果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境,離開了學習語境,方法的內涵和外延可能就會產生變化,因此,難以移植到情報研究。

2.4 需要繼續關注的方法

基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續發展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規范,同樣地,對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術,又例如,商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統,通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識,涉及數據的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構。

因此,本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數據)積累到了一定程度,成為傳統關系數據庫處理不了的大數據,那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務智能分析可理解為一套集成系統,可應用在情報機構的知識庫或機構典藏,找出組織的知識缺口等方面。

3 結語

大數據時代就是一個數據分析的時代,學界和業界提出了很多大數據分析的方法與技術,這些方法與技術對情報研究產生了積極的借鑒作用,本文總結了大數據分析的方法,提出面向層次的BDA方法框架,歸納總結了其中的17種BDA方法,并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關方法提供參考,促進情報研究的理論與實踐發展。

參考文獻:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏順平. 學習分析技術:挖掘大數據時代下教育數據的價值[J]. 現代教育技術,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]嚴霄鳳,張德馨. 大數據研究[J].計算機技術與發展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013, 50(1): 146-169.

[12]覃雄派,王會舉,杜小勇,等. 大數據分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文內容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.

[18]張樹良,冷伏海. 基于文獻的知識發現的應用進展研究[J]. 情報學報,2006, 25(6): 700-712.

[19]李楠,張學福. 基于關聯數據的知識發現應用體系研究[J]. 圖書情報工作,2013,(6):127-133.

[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應用研究,2009,26(1):25-29.

[21]黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學,2009:(1): 94-99.

[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.

[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.

[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現代圖書情報技術,2012,(4): 61-67.

[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡潔. 高維數據特征降維研究綜述[J]. 計算機應用研究,2008,(9): 2601-2606.

[28]吳曉婷,閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究,2009,(8):2832-2835.

[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.

[30]白如江,冷伏海. “大數據”時代科學數據整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.

[32]李建中,劉顯敏. 大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.

[33]王延飛,王林蘭. 論情報研究質量[J].圖書情報工作,2010,54(10):35-39.

[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.

[35]孟志青,樓婷淵,胡強.多粒度時間文本數據的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.

數學建模數據可視化范文4

【關鍵詞】 計算機 生物學研究 生物信息學 交叉學科

一 前言

什么是生物科學?在古時候,人們對生物學的認識是很有局限性的:對生物學的認識往往停留在觀察上,到了19世紀,達爾文發表《物種起源》之后,生物學第一次總結出一個有重大哲學意義的普遍規律。此后,孟德爾發現了遺傳學的規律,沃森和克里克發現的DNA雙螺旋結構以及核酸是生命本質的一系列重大發現,為生物學發展奠定了堅實的基礎,從而生物學正式擺脫了那種僅靠觀察,比較的方法,發展成為一門實驗科學。

傳統的生物學是一門實驗科學,生物學的研究主要依靠的是對實驗所得的數據進行處理和分析。生物學還是一門發現科學,通過對在實驗中發現的新現象,新的生物規律進行分析、歸納和總結,提煉出新的生物學知識。進入到20世紀以來,人類已經進入了信息化的社會。作為信息社會中最為重要的工具,計算機在人們生活中發揮著日益重要的作用。隨著網絡技術和通信技術以及半導體技術的發展,計算機的功能越來越強大。計算機科學是對社會各個層面影響最大,滲透力最強的高新技術。

回顧20世紀人類所取得的科學成就,以計算機技術為代表的信息技術得到高速的發展和應用。在以計算機科學為代表的信息科學取得快速發展的同時,現代生物科學研究也取得了極大的成功。

二 進展

計算機在生物學研究中的應用并不是一個很新的話題,作為一門學科,它是新的,但實際上它的研究工作的開展已經有了一段歷史。

(一)計算機在國內生物學研究中應用的情況

我國的科研人員在20世紀60-70年代就開始利用計算機在生物學研究中進行數據的統計分析,但是應用的層次低,多用于教學和實驗數據分析處理。我國的生物信息工作是逐步發展起來的,20世紀80年代初僅在個別單位開展了一些計算分子生物學的工作,如核酸序列統計分析、生物大分子二級結構預測、分子動力學等。雖然我國在1993年就在中國人類基因組計劃中加入了生物信息學的相關研究內容,但是真正的開始是在1995年。目前,我國所用到的生物數據庫和生物系列軟件多半來自于國外,基礎力量還比較薄弱。

1997年,香山會議專題討論了我國生物信息學的發展。1999年,國家自然科學委員會生命科學部、信息科學部、數理科學部、材料科學部在北京召開了“生命科學中的信息科學問題”論壇,提出了建立國家生物醫學數據庫與服務系統,同時開展基因組及功能基因組信息分析工作。2000年國家自然科學基金委員會主持召開的“生物信息學前沿方向”研討會上,與會專家提出了我國生物信息學發展的方向是:建立國家生物醫學數據庫與服務系統、人類基因組信息結構分析、功能基因組相關信息分析和研究遺傳密碼起源與生物進化(尤其是分子進化)的過程與機制。

近幾年來,我國對生物學中的計算機應用工作越來越重視,研究的層次也不斷提高。在“HGP1%的測序工作”、“中華民族基因組中若干位點基因結構的研究”和“重大疾病相關基因的定位、克隆、結構與功能研究”等項目中,計算機都起到了重要的作用。

北京大學于1997年3月成立了生物信息學中心,中科院上海生命科學研究院也于2000年3月成立了生物信息學中心,分別維護著國內兩個專業水平相對較高的生物信息學網站。

2003年8月18日,“作為國內服務器品牌三甲之一” 的曙光信息產業(北京)有限公司(以下簡稱曙光公司)與國內著名的基因組、生物信息研究中心華大基因聯合推出國內第一款完全擁有自主知識產權的生物信息專用計算機,采用先進的基因數據庫架構技術、數據定制可視化技術、數據密集技術、網格使能技術、在線擴展技術及機群系統等技術,為國內用戶搭建了一套與國際生物信息研究主流趨勢相接軌的系統平臺。該系統是建立在華大基因和曙光公司在生物信息研究領域長期合作成果的基礎之上,通過運用曙光公司每秒3萬億次浮點峰值運算能力的Linux超級服務器,以支持數據密集應用為主,為國內大量致力于基因組研究的科研工作者們提供方便、快捷的服務?!吧镄畔S糜嬎銠C” 采用機群結構,系統中節點根據功能劃分為計算節點、數據庫節點、服務節點三種類型,為生物信息學研究提供了一個基于硬件、軟件和數據庫集成環境下的統一運行平臺,為各個分析軟件、子數據庫模塊提供一致的運行和管理環境。同時用戶可以根據需要選擇軟件和數據庫模塊,無縫集成到平臺上。平臺提供ORACLE數據庫和軟件的集成接口和管理工具。生物信息專用計算機以模塊化的方式提供大量基因組學、生物信息學研究的常用分析工具, 并能實現分布式高性能計算。用戶也可以根據需要定制分析軟件,添加到該專用計算機應用平臺中。

對于我國來說,生物信息學人才的培養是當務之急。生物信息學是一個交叉學科研究領域,這對生物信息學研究人員在知識結構上提出了非常高的要求,特別是對于來自數學或計算機專業的研究人員,不僅要掌握生物學的基礎知識,還要求深入了解生物學中的相關問題,這樣的人才不是單一學科能夠培養出來的,要求跨學科地培養生物學和信息科學的復合型人才。目前中國科學院和國內一些著名大學已經開始較大規模地培養生物信息學專業人才,這為我國今后生物信息學的發展奠定了良好的基礎??梢韵嘈?,我國未來計算機在生物學中的應用一定會有著很大的進步與發展。

(二)福建省“計算機在生物學研究中應用”學科發展簡介

福建省計算機在生物學研究中的應用雖然起步較早,但是發展一直相對較慢,目前還沒有形成較大的研究規模和較完整的研究體系。但是,福建省對計算機在生物學研究中的應用十分重視,福建農林大學、廈門大學等多所高校開辦了計算機在生物學研究中的相關專業或研究團隊并舉辦了幾場相關的學術會議。

福建省的廈門大學生命科學學院和福建農林大學的生命科學學院已經開辦了生物信息學本科專業,為我省培養生物信息科學人才提供了一個很好的平臺。該專業整合了生物和計算機的相關資源,有望為我省培養出更多的精通于計算機在生物學研究中的應用人才。福建省的其它院校如福建醫科大學、福建師范大學、福建中醫學院、國立華僑大學、集美大學等多所高校也有不少的教學和科研工作者在這方面進行了一定的研究工作,福建省農科院也開展了一些生物信息學的研究工作。

例如:福建省廈門大學生命科學院的紀志梁博士主要從事生物信息學、功能基因組和蛋白組學、計算機輔助藥物設計、生物數據庫和生物信息軟件的開發及應用、數據挖掘、分子進化、生命起源與進化等方面的研究,主持了生物信息輔助藥物不良反應(ADRs)的分子機理研究及預測的國家自然科學基金項目。

福建農林大學借助于其在生物學特別是農林學科上的優勢,聯合校內的計算機與信息學院一起開辦生物信息學專業,計算機與信息學院還成立了生物信息研究團隊,以期望借助于兩個學院的實力,更好地為我省培養相關的人才。

目前福建省在發展該學科時面臨的主要問題是相關人才的缺乏和研究硬件設備的不齊全。目前,福建省尚未能在“計算機在生物學研究”的學科發展中形成一個理想的研究梯隊,從而導致了在相關的科研上以應用研究為主,缺少理論上的創新性,而應用的研究多集中于特定的領域:如福建農林大學的相關研究主要在于農業領域;華僑大學的方柏山教授所做的工作多集中于工業微生物的優化控制等方面。全方位,多角度的研究格局還沒有形成。

從學科建設的硬件平臺來看,雖然有了較大的發展,但是距離科研的要求還有較大的距離。因為“計算機在生物學研究中的應用”學科是一門交叉學科,需要用到許多方面的儀器設備,而目前福建省內的這方面的投入與科研所需要的設備還有一定的距離。

(三)計算機在生物科學研究中的學科現狀

自20世紀80年代,IBM公司制造出第一臺PC機以來,計算機迅速得到了普及。而且近二十年來,計算機與信息科學已經成為發展最為迅速的學科領域,也為生物學的研究提供了更多的技術支持。在這個時期,生物學與計算機科學相結合的學科――生物信息學產生了,是當今生命科學和自然科學的重大前沿領域之一,也是21世紀自然科學的核心領域之一。從國外近幾年的應用情況來看,生物信息學在理論上促進了生物學研究(特別是分子生物學)研究的發展,使人類對生命本質的認識更加深刻。生物信息學已經改變了傳統生物學的研究方法,提高了生物學實驗的科學性和研究的效率。

在這個階段,計算機在生物學研究中的應用更為廣泛與深遠,這一時期在生物學研究中用到的計算機技術大體有以下幾個方面:

(1)數據庫技術、數據挖掘技術與海量存儲技術:生物信息數據庫具有數據結構和組織方式復雜、數據量增長十分迅速等特點?!逗怂嵫芯俊罚∟ucleic Acids Research)雜志連續七年在其每年的第一期中詳細介紹最新版本的各種生物學數據庫。在2000年1月1日出版的28卷第一期中詳細地介紹了115種通用和專用數據庫,包括其詳盡描述和訪問網址。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白質一級結構方面有SWISS-PROT、PIR和MIPS等。在蛋白質和其它生物大分子的結構方面有PDB等。在蛋白質結構分類方面有SCOP和CATH等。

很多數據庫涉及非結構化的數據,例如:PDB中的蛋白質三級結構等。利用傳統的關系數據庫對這些非結構化的數據進行管理就顯得有些力不從心了,所以,必須要采用面向對象等數據庫新技術來處理復雜結構的生物數據。生物信息數據庫具有種類繁多的特點,目前各種生物信息數據庫大至有600種左右,分布在全球各個數據庫服務器中。

隨著數據庫技術、計算機網絡和人工智能等技術的發展,出現了一種新的信息管理技術,即:數據倉庫技術(data warehouse)。隨著當代生物學實驗的手段不斷的進步,所產生的實驗數據的信息量是十分龐大的。如何在如此浩渺的信息海洋中發現潛在的規律呢?而數據倉庫技術中提供了一個解決方案,就是數據挖掘技術。數據挖掘技術一般分成四個基本步驟:數據選擇,數據轉換,數據挖掘和結果分析。數據挖掘與聚類分析的方法在蛋白質的結構預測中也有廣闊的應用空間:數據挖掘可用于分析基因表達數據相似性度量,從中發現基因表達數據相似性和波動相似性類似,從而提出以波動相似性為依據的相似性度量函數。

(2)機器學習與模式識別技術:機器學習算法(machine-learning methods),抽象的統稱,實質是一種統計學的方法,它自動地從一個樣本的訓練(train- ing)過程中獲得數據信息,這種方法適用于有大量數據但缺乏相應理論的情況。如BRNNs(Bidirectional Recurrent Neural Networks,雙向重復神經網絡)算法即屬于機器學習算法,它的訓練過程即通過對樣本進行有效編碼,輸入網絡,訓練網絡各權值參數和閾值參數,使網絡達到基本穩定。目前機器學習方法包括:神經網絡法、決策樹法、基于事例學習法、符號性知識優化法及基于邏輯的歸納學習法。

數據是機器學習的基礎,對于生物學實驗數據也一樣。在大多數情況下,生物學中的知識和數據可以用序列的模式或序列的特征來概括。

隨著人工智能研究不斷取得進展,人們逐漸發現研究人工智能的最好方法是向人類自身學習。因此引進了一些模擬進化的方法來解決復雜優化問題。其中較有代表性的是:進化主義思想和聯接主義思想。近年來,許多科學家致力于這兩種方法的研究。

模式識別是機器學習的一個主要任務。所謂模式,指的是對感興趣客體定量的或者結構的描述,而模式識別就是利用計算機對客體進行鑒別,將相同或者相似的客體歸入同種類別中。模式識別的關鍵是通過數據分析,提取分類對象的本質特征,建立分類特征模型。在此基礎上設計模式分類規則和分類器,判別待識別模式的分類情況。分類特征模型描述各種目標對象的特征,以便于工作于利用特征進行識別。模式識別主要有兩種方法:一種是根據對象統計特征進行識別,另一種是根據對象的結構特征進行識別。利用機器學習的方法可以應用于蛋白質結構的預測,但現在的問題是從蛋白質一級結構序列預測蛋白質二級結構和三級結構的準確率低,還有許多現實的問題需要解決。

(3)人工心智和心腦科學在生物學中的應用:了解腦及其全部功能是2l世紀重大挑戰之一,人類腦計劃開始于1993年,這項行動的主要目標:創立以web為基礎的神經科學所有數據的數據庫,并提供數據分析、整合、合成、建模與模擬的先進工具,有助于實現了解健康與有病神經系統功能的最終目標。腦是生物體內結構和功能最復雜的組織,人腦內有上千億個神經細胞,神經突觸超過1014個,是生物體接受外界信號、產生感覺、形成意識、進行邏輯思維、發出指令產生行為的指揮部,但它的功能目前還不為人們所了解。

在人類腦科學計劃提出后,產生了一門新的交叉學科――神經信息學。神經信息學產生的先進的信息學解決方案,將加速對腦的了解,并能將基礎研究轉化為診斷、監視、處理和預防腦疾病的更好手段。反過來,關于數據與信息的獲得、存儲、提取、分析、合成及可見的生物學機制的闡述,將更加清楚地解釋信息學技術,以至隨著時間的推移,計算機將能超過人腦的工作。

人腦的結構和功能極其復雜,需要從不同的層次對其進行研究,包括:從DNA、RNA、蛋白、神經元、神經網絡到全腦。其中對神經網絡和全腦功能的研究近年來發展很快,成為神經信息學研究的重點。神經信息學主要從信息和信息處理的觀點來研究人腦,研究神經系統信息的載體形式,神經信息的產生、傳輸與加工,以及神經信息的編碼、存儲與提取機理等,并從系統和信息的觀點建立以生物學實際為基礎的神經網絡模型。

(4)生物分子的計算機模擬技術:傳統的生物分子研究主要是能過生物學實驗來分析和表征生物分子,如利用測序技術確定DNA或RNA分子的序列;能過分子遺傳學方法確定基因的多態性;能過X射線衍射技術來確定蛋白質等生物大分子的結構;通過生物化學實驗來研究生物大分子之間的相互作用、藥物分子和靶分子的結合等。

現代對生物分子的研究也可有采用計算機模擬生物分子的技術。所謂生物分子的計算機模擬就是從分子或者原子水平上的相互作用出發,建立分子體系的數學模型,利用計算機進行模擬實驗,預測生物分子的結構和功能??梢阅M生物大分子與大分子之間的相互作用、模擬生物大分子與具有活性的小分子之間的相互作用、研究分子之間的識別與及分子間的特異性結合。

(5)網絡技術:隨著人類進入了信息社會,網絡已成為社會的基礎設施,對人們的生活起著重要的影響。電子郵件和新聞組已經成為生物學科研中的最要交流工具。而且網絡提供的各種服務,如:FTP服務,WEB服務等也為科研人員提供了重要的服務。

目前,Internet上有著巨大的生物學資源和生物學的相關數據庫與知識庫。使用者可以通過網絡查詢或搜索所需要的生物學信息,使用各個網絡站點提供的分析工具對生物實難進行分析。生物信息的研究者能夠下載大量的數據,但如何集成這些數據不是一件容易的事。

而Web Services技術由于使用標準的Web協議(http 、SMTP等)和一系列標準協議(XML、SOAP、WSDL等)為生物信息集成提供了一種嶄新的方法。當把Web Services應用到生物數據庫中時,所有生物數據庫系統都成了一個松散結構中的組件,系統接口、應用通信、數據轉換和目錄信息都是建立在開放的、被廣為接受的標準之上,用戶能迅速地訪問到他們所需要的信息。

(6)高速計算能力與網格計算技術:生物學研究需要對大量的樣本進行分析計算或統計,這就為為高性能計算提供了一個大的應用領域。生物學研究中的計算面臨巨大的計算量與海量的數據,如:利用分子動力學模擬一個蛋白質的折疊就需要一個巨型機幾個星期的運算。這給高性能計算、并行計算和網格計算提出了挑戰。

(7)專家系統:專家系統(exepert system)是一種基于知識的智能系統,它將領域專家的知識用知識表現的方法表示出來,并放入知識庫中,供推理機使用。專家系統利用知識和推理機解決那些需要特殊的、重要的人類專家知識才能解決的復雜問題。一般的專家系統是由六大部份:知識庫、數據庫、知識獲取部份、推理機、解釋機構和使用界面組成的。知識庫中的知識也可以分成事實性知識和啟發性知識兩大類。生物學研究中已經有了不少的專家系統。

(8)計算機圖形學:眾所周知,DNA序列是兩條堿基互補的脫氧核糖核酸形成的雙螺旋結構。一般認為,它們可以用一條序列來進行表示。根據文獻按照某種規則,人們可以把DNA序列轉換為一條z型曲線,該z曲線與所表示的DNA序列的關系是一一對應的,即:一個特定的DNA序列,有唯一的一條z型曲線與它對應;反之,對任意一條給定的z曲線,可找到唯一的一個DNA序列與之對應。也就是說,z曲線包含了DNA序列的全部信息。z曲線是與符號DNA等價的另一種表示形式。這樣就可將復雜的DNA序列轉換為一條空間中的曲線。對z曲線曲率和撓率的計算和分析,可用于識別DNA序列的不同的功能區等。DNA序列的幾何學研究是建立在計算機圖形學的基礎上的,對DNA序列幾何學的研究必將為計算機圖形學的研究提出一些新的課題。

三 計算機在生物學中的應用研究展望

雖然計算機在生物學應用中取得了不小的成果,但還有許多的問題擺在人們面前。目前計算機在生物學研究中的應用面臨著許多的挑戰:

(1)需要建立交互性好的生物學應用軟件,生物學數據庫及相關的數據挖掘技術?,F有的生物學軟件種類繁多,功能也不盡相同,但是,大部份軟件都要求用戶有較強的計算機基礎,甚至還有一些軟件是基于linux或windws控制臺的,起特殊的命令語法不是一般的科研人員所能掌握的。而且,有些軟件的源代碼不是公開的,特定用戶就不能根據自己的需要對程序進行修改,進而適應自己研究的需求。尋求一種好的方法來開發出交互性好、操作方便而功能強大的生物學研究軟件是今后一個重要的目標。

(2)需要能提示大規模數據集合中不同組分之間關系的統計分析方法及優化算法。在生物學研究中,獲取所得的實驗數據往往可以根據其數據特征的不同分成若干組分,這些組分之間的關系是怎樣的?如何在實驗數據中確定分組的標準?如何用更快的算法更有效率的確定數據的分組標準等等都讓科研人員十分困惑。例如:不同物種間可能包含了同源或非同源的數據基因,而不同基因可能在DNA或蛋白質序列上具有較高的異質性。因而,在基因組水平上比較不同物種或不同基因之間的相似性,有助于揭示整個基因組進化與物種進化的規律。

(3)需要開發適合于微陣列和基因芯片等新技術的數據分析工具。微點陣雜交中涉及上萬個寡核苷酸,并依雜交信號強弱、探針位置和序定靶DNA的表達及多態性等。目前,迫切需要提高檢測的自動化程度和數據的并行處理能力。

四 小結

綜上所述,盡管福建省的計算機在生物學研究的應用學科目前發展還比較滯后,但只要能夠抓住計算機在生物學科發展的契機,整合各方面的優勢,進行協作式的研究,就能夠更好地促進該學科的發展。

參考文獻

[1]寧正元編著,計算機在生物科學研究中的應用,廈門大學出版社,

2006.11.

[2]H.M.erman,J.Westbrook,Z.Feng,et al. The protein Data Bank[J]. Nucleic Acids Research,(28):235-242.

[3]D.R.Westhead,J.H.Prish,R.M.Twyman.Instant Notes in Bioinformatics[M].United Kingdom:Bios Scientific Pub Ltd,2002.

[4]SCRATCH servers,hpdb.省略/thesis/2005/yht/principle/principle.asp[EB/OL].

[5]盧美律.蛋白質結構預測與機器學習[J],科學,1996,46(5):22-27.

[6]沈均賢人類腦計劃與神經信息學[J],生物物理學報,2001.12(17):607-612.

[7]Ligeng Ma,Jinming Li,LiJin qu,et al.Light control of Arabidopsis development entails coordinated regulation of genome expression and cellcular pathways[J].Plant Cell,2001,13912):2589-2607.

[8]生物信息學對計算機科學發展的機遇與挑戰[J],生物信息學,2001 (3):37-41.

[9]BSML Organization.Bioinformatic Sequence Markup Language Version 3.1[EB/OL]. 省略/resource/, 2003.

[10]Fenyo ,The biopolymer Markup Language[J],Bioinformatics,1999,(15):339-340.

[11]Lichun wang.XEMBL:distributing EMBL,data in XML format[J].Bioinformatics,2002,(18):1147-1148.

[12]郝柏林,劉寄星,理論物理與生命科學[M],上海:上??茖W技術出版社,1997.

[13]Hang C T,Pickover C A,et al.Viusalizing Biological Informatin[M].Singapore.World Science Pub co,1993.

[14]鐘揚,張亮等,簡明生物信息學[M],北京:高等教育出版社,2001.

[15]趙青,黃小兵,生物信息研究的加速劑[J],互聯網天地,76-77.

[16]廈門大學生命科學院:life.xmu.省略[EB/OL].

[17]方柏山教授主頁:clxy.hqu.省略/clxy/informations/layout.mht/

亚洲精品一二三区-久久