前言:中文期刊網精心挑選了生物信息學范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
生物信息學范文1
一、正在出現的技術
klingler(lncyte pharmaceuticals,paloalto,ca,usa)強調基因組學正推動制藥業進入信息時代。隨著不斷增加的序列、表達和作圖數據的產生,描述和開發這些數據的信息工具變得對實現基因組研究的任務至關重要。他談到了incyte pharmaceuticals對大規?;蚪M數據和生物信息學的貢獻。
lipshutz(affymetrix,santa clara,ca,usa)描述了一種利用dna探針陣列進行基因組研究的方法,其原理是通過更有效有作圖、表達檢測和多態性篩選方法,可以實現對人類基因組的測序。光介導的化學合成法被應用于制造小型化的高密度寡核苷酸探針的陣列,這種通過軟件包件設計的寡核苷酸探針陣列可用于多態性篩查、基因分型和表達檢測。然后這些陣列就可以直接用于并行dna雜交分析,以獲得序列、表達和基因分型信息。milosavljevic(curagen, branford, ct, usa)介紹了一種新的基于專用定量表達分析方法的基因表達檢測系統,以及一種發現基因的系統genescape。為了有效地抽樣表達,特意制作片段模式以了解特定基因的子序列的發生和冗余程度。他在酵母差異基因表達的大規模研究中對該技術的性能進行了驗證,并論述了技術在基因的表達、生物學功能以及疾病的基礎研究中的應用。
二、基因的功能分析
overton(university of pennsylvania school of medicine,philadelphia,pa,usa)論述了人類基因組計劃的下一階段的任務——基因組水平的基因功能分析。這一階段產生的數據的分析、管理和可視性將毫無疑問地比第一階段更為復雜。他介紹了一種用于脊椎動物造血系統紅系發生的功能分析的原型系統e-podb,它包括了用于集成數據資源的kleisli系統和建立internet或intranet上視覺化工具的biowidget圖形用戶界面。epodb有可能指導實驗人員發現不可能用傳統實驗方法得到的紅系發育的新的藥物靶,制藥業所感興趣的是全新的藥物靶,epodb提供了這樣一個機會,這可能是它最令人激動的地方。
sali(rockefeller university,new york,ny,usa)討論了同源蛋白質結構模建。比較蛋白質模建(comparative protein modeling)也稱為同源模建(homology modeling),即利用實驗確定的蛋白質結構為模式(模型)來預測另一種具有相似氨基酸序列的蛋白質(靶)的構象。此方法現在已經具有了足夠的精確性,并且被認為效果良好,因為蛋白質序列的一個微小變化通常僅僅導致其三維結構的細微改變。
babbitt(university of california,san francisco,ca,usa)討論了通過數據庫搜索來識別遠緣蛋白質的方法。對蛋白質超家族的結構和功能的相互依賴性的理解,要求了解自然所塑造的一個特定結構模板的隱含限制。蛋白質結構之間的最有趣的關系經常在分歧的序列中得以表現,因而區分得分低(low-scoring)但生物學關系顯著的序列與得分高而生物學關系較不顯著的序列 是重要的。babbit證明了通過使用blast檢索,可以在數據庫搜索所得的低得分區識別遠緣關系(distant relationship)。levitt(stanford univeersity,palo alto,ca,usa)討論了蛋白質結構預測和一種僅從序列數據對功能自動模建的方法?;蚬δ苋Q于基因編碼的蛋白質的三級結構,但數據庫中蛋白質序列的數目每18個月翻一番。為了確定這些序列的功能,結構必須確定。同源模建和從頭折疊(ab initio folding)方法是兩種現有的互為補充的蛋白質結構預測方法;同源模建是通過片段匹配(segment matching)來完成的,計算機程棄segmod就是基于同源模建方法的。
三、新的數據工具
letovsky(johns hopkins university,baltimore,md,usa)介紹了gdb數據庫,它由每條人類染色體的許多不同圖譜組成,包括細胞遺傳學、遺傳學、放射雜交和序列標簽位點(sts)的內容,以及由不同研究者用同種方法得到的圖譜。就位置查詢而言,如果不論其類型(type)和來源(source),或者是否它們正好包含用以批定感興趣的區域的標志(markers),能夠搜索所有圖譜是有用的。為此目的,該數據庫使用了一種公用坐標系統(common coordinate system)來排列這些圖譜。數據庫還提供了一張高分辨率的和與其他圖譜共享許多標志的圖譜作為標準。共享標志的標之間的對應性容許同等于所有其它圖譜的標準圖譜的分配。
markowitz(lawrence berkeley laboratory,berkeley,ca,usa)討論了分布式數據庫與局部管理的關系,以及用基于工具的方法開發分子生物學數據庫(mdbs)的問題。許多方案當前正在促進搜索多種不同來源mdbs的數據,包括建立數據倉庫;這要求對各種mdbs的組合有一種全局觀,并從成員mdbs中裝填數據入中心數據庫。這些方案的主要問題是開發整體視圖(global views),構建巨大的數據倉庫并使集成的數據庫與不斷發展中的成員mdbs同步化的復雜性。markowitz還討論了對象協議模型(object protocol model,opm),并介紹了支持以下用途的工具:建立用于文本文件或者關系mdbs的opm視圖;將mdbs作成一個數據庫目錄,提供mdb名稱、定位、主題、獲取信息和mdb間鏈接等信息;說明、處理和解釋多數據庫查詢。karp(sri international,menlo park,ca,usa)解釋了ocelot,一種能滿足管理生物學信息需求的面向對象知識陳述系統(一種面向對象系統的人工智能版)。ocelot支持略圖展開(schema evolution)并采用一種新的最優化并行控制機制(同時進行多項訪問數據的過程),其略圖驅動圖形編輯器提供了交互式瀏覽和編輯功能,其注釋系統支持數據庫開發者之間的結構通訊。
riley(marine biological laboratory,woods hole,ma,usa)在討論大腸桿菌蛋白質的功能同時,特別提到了gpec數據庫,它包括了由實驗確定的所有e.coli基因的功能的信息。該數據庫中最大比例的蛋白質是酶,其次則為轉運和調控蛋白。
candlin(pe applied biosystems,foster city,ca,usa)介紹了一種新的存儲直接來自abⅰprism dna測序儀的數據的關系數據庫系統biolims。該系統可以與其它測序儀的數據集成,并可方便地與其它軟件包自動調用,為測序儀與序列數據的集成提供了一種開放的、可擴展的生物信息學平臺。
glynais(netgenics,cleveland,oh,usa)認為生物信息學中最關鍵的問題之一是軟件工具和數據庫缺乏靈活性。但是,軟件技術的發展已得到了其它領域如金融業和制造業的發展經驗的借鑒,可以使來自不同軟件商的運行于各種硬件系統的軟件共同工作。這種系統的國際標準是corba,一種由250多個主要軟件和硬件公司共同合作開發的軟件體系。聯合使 用corba和java可以開發各種通過一個公用用戶界面訪問任何種類的數據或軟件工具的網絡應用軟件,也包括生物信息學應用軟件。overton不同意glynias的這種想法,他強調說corba僅對軟件集成有用,不兼容的數據庫軟件可能是計算生物學所面臨的最困難問題,一些制藥公司和數據庫倉庫最近資助了一項用ocrba鏈接不同的數據庫的計劃[2,3]。
四、制藥先導的發現
burgess(sturctural bioinformatics,san diego,ca,usa)討論了填補基因組學和藥物設計之間鴻溝的蛋白質結構中的計算問題。在缺乏主要疾病基因或藥物靶的精確描述數據的情況下,藥物設計者們不得不采用大規模表達蛋白質篩選方法;而結構生物信息學則采用一種更為實用有效的計算方法直接從序列數據中確定靶蛋白質的活性位點的精細結構特征,它利用一種集成專家系統從現實的或虛擬的化學文庫中進行迅速的計算篩選,可以達到一個很大的規模。
elliston(gene logic,columbia,md,usa)討論了治療藥物開發中發現新的分子靶的過程,著重討論了基因發現方法。他認為,隨著日益臨近的人類基因組測序的完成,幾乎全部基因的特征將在序列水平得到揭示。但是,對基因的認識將有賴于更多的信息而不僅僅是序列,需要考慮的第一類信息是轉錄表達水平信息,而gene logic 公司的geneexpress就是一個由mrna表達譜、轉錄因子位點、新基因和表達序列標簽組成的數據庫。
liebman(vysis,downess grove,il,usa)介紹了vysis公司開發的計算和實驗方法,這些主法不僅用于管理序列數據,而且被用于以下用途:分析臨床數據庫和自然—突變數據庫;開發新的算法以建立功能同源性(區別于序列同源性)模擬生物學通路以進行風險評估;藥物設計的靶評估;聯系復雜的通路特性以便識別副作用;開發疾病發展的定性模型并解釋臨床后果。
隨著發現的新基因的日益增多,這個問題顯得格外重要:基因的功能是什么?escobedo(chiron technologies,emeryville,ca,usa)提出了這個問題的一種方法:將分泌蛋白質的基因的功能克隆與篩選這些克?。赡艿乃幬锇校┙Y合起來。在這種方法中,在微粒體cdna文庫池中進行體外翻譯避免了勞動密集的克隆、表達和純化步聚,對文庫池中的翻譯產物在細胞水平進行篩選,測試其在細胞增殖和分化中的作用。例如,在用這種方法識別的111個克隆中,56個屬于已知的分泌蛋白質,25個為膜相關蛋白,另外30個功能未知,可能是新的蛋白質。一種相似的方法在轉移到小鼠模型系統中的基因傳導載體中構建分泌蛋白質的cdna文庫來克隆特定的功能基因。
ffuchs(glaxo wellcome ,research triangle park,nc,usa)討論了生物信息學更為廣義的影響:它不僅影響到新藥物靶基的發現,還對改善藥物開發的臨床前期和臨床期的現狀極具重要性。眾所周知,涉汲數以千計病人的臨床試驗(可能是藥物開發最為花錢的部分)的設計不論多么仔細,也不能為正確的藥物選擇正確的病人。而在基因組水平劃分病人群體的方法可以大大改善發現新藥的效率。fuchs介紹了一種將病人的基因型和表型標志結合起來以改善臨床前期和臨床期藥物開發過程的系統genetic information system.他強調將遺傳學和生物信息學數據同化學、生物化學、藥理學和醫學數據連接起來的集成信息管理和分析方法是極其重要的。
green (human genome sciences,rockville,md,usa)介紹了他的測序工作中采用的數據管理工具。基于est的測序方法所面臨的挑戰是,在對幾百個cdna克復測序之后,產生的數據堆積如山。由于大多數人類基因都是用這種方法發現并在么有數據庫中分類編排的,面臨的識別開放讀框、重疊序列的重疊圖譜、組織特異表達和低豐度mrna基因的任務是令人生畏的。human genome sciences公司開發了一些可用戶化數據庫工具,在同一個數據庫中可包括以下功能:/kaoshiruanjian/" target="_blank" title="">軟件工具,極其可望從一種基于基因組知識的藥物發現方法中得到新的藥物靶。
summer-smith(base4 bioinformatics,mississauga,ontario,canada)描述了一種相關的策略。藥物發現階段中所要求的軟件工具的任務是多樣化的,要能注釋基因,并闡明它的生理和病理功能及其商業潛質。對這樣多種來源的信息的集成與分析,在派生的、項目取向的數據庫(project-specific database,psd)中可以很好完成。由于項目貫穿于發現到開發全過程,其間又不斷加入背景的成員,psd在項目的管理與發展中成為一種關鍵性的資源。
按照smith(boston university,boston,ma,usa)的觀點[2],我們并不需要更快捷的計算機或更多的計算機科學家,而是需要更的生物學家和生物化學家來解釋序列的功能。這對有些軟件或硬件專家來說是個打擊,但生物學系統的復雜性是令人生畏的,并且對基因功能的認識可能需要生物學方法和計算方法的結合。探索基因的功能很可能要花費生物學家們數十年的時間,本次會議表明沒有任何單一的方法可以得出一個答案;但是,將計算生物學同大規模篩先結合起來識別一種化學靶物(hit)是一種產生化學工具來探索基因功能的方法,這些化學工具接下來就可以用作理解基因功能的“探針”。這種方法在butt(gene transcription technologies, philadelphia, pa, usa)的描述中,既是一種檢查基因功能的簡單方法,也是為潛在的藥物靶發現化學先導物的簡單方法,他描述了一種可以在酵母中重建人類基因功能的酵母大規模篩選系統。在此系統中,可以迅捷地在一個化學文庫中發現配基。這種技術的重要特征是它不僅僅是發現一種藥物靶的配基的篩板(screen),相反,由于該系統的高速度,它也是發現先導靶基因的一種篩板。過去,世界上的制藥公司通常在某一時間內僅能對有限數目(約20多個)的藥物靶基因進行工作,鑒于此,我們需要根本不同的方法如基因組學來打開通向“新”生物學的通路。由于機器人和合成化學的進步,藥物發現中最關鍵的問題不再是得到一種先導化合物(lead compound),而是得到導向靶基因。此次會議為從計算和實驗方法中發展出的新生物學邁出很好的一步。
參考文獻
1 lim ha,batt tr.tibtech,1998;16(3)):104
生物信息學范文2
關鍵詞: 生物信息學, 信息處理,模式識別
Information Processing in the Bioinformatics
Abstract: Bioinformatics, the anagram which incorporates information science into the biology and with its concept takes shape, is a newly developed multi-disciplinary field which has sprung up vigorously since the late 80’s. In this paper, the main research topics of bioinformatics were reviewed, including the coding of genetic information, gene recognition, complexity of nucleotide sequence, correlation structure and fractal characteristic of nucleotide sequence, and the simulation and analysis of genomic regulation model. The information analysis and processing scenarios involved are also included, together with their many successful applications and open problems appearing in the literature. It is believed that the combination of information science and life science will greatly accelerate the progress of study for life science per se.
Keywords: Bioinformatics, Information processing, Pattern recognition
:10000多字
有參考文獻
200元
備注:此文版權歸本站所有;。
生物信息學范文3
關鍵詞:生物信息學;教學模式;探索
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2014)20-0214-02
生物信息學是一門由生命科學、數學和計算機科學相互滲透形成的新型交叉學科,它利用各種計算機軟件、生物學工具及互聯網技術對生命科學研究中產生的各種生物數據進行存儲、加工及分析,從而達到理解數據中的生物學含義的目標[1-3]。當前,生物信息學已經成為生物、醫學、農學、遺傳學、細胞學等生命領域各學科發展的強大推動力量,已成為生命科學研究者強有力的輔助工具。近年來,隨著分子生物學在動物植物育種、遺傳資源創新、品種改良、病蟲害防治等農業方面的應用,生物信息學作為一種實用、高效的手段被充分利用?!渡镄畔W》課程也相應地被列入各農業院校大學生教學計劃。新疆農業大學根據學校專業發展現狀及學生培養需求于2010年將《生物信息學》課程作為生物技術專業的必修專業課,通過三年來的教學實踐,針對課程教學中存在的無合適教材、網絡資料繁雜、教學內容陳舊、教學手段單一、考核模式簡單等問題[4-5],筆者在課程的教學內容、教學方法、考核辦法等方面進行了初步探索,本文現就該課程教學模式作一論述。
一、教學目標及內容
由于生物信息學是一門新興學科,其理論及相關分析工具發展迅速、不斷更新,在課程教學目標和教學內容上也在不斷變化。我認為對于當前農業院校生物技術專業的培養目標和要求是讓學生理解掌握生物信息學相關的一些基本理論、實驗技術及實踐操作,以核酸序列及蛋白質序列的實際分析為主要側重點,著重培養學生的實踐能力,使他們能適應今后工作學習的需要。據此,確定了以下的教學內容:教學內容共36學時,分為理論基礎和上機實踐兩部分,理論課中穿插實例示范,共24學時。理論教學內容包括:生物信息學緒論、生物信息學的生物學基礎、生物信息數據庫及其檢索、序列的基本信息分析及比對、分子系統發育分析、蛋白質結構預測及分析、組學技術及信息學分析;上機實踐共12學時,內容包括:常用生物數據庫的查詢與搜索、核酸序列的分析方法實踐、多序列比對和系統發育分析、蛋白質序列分析及空間結構預測、DNA序列中基因結構預測分析。在理論授課中介紹與農業相關生物信息數據庫及應用,在實例分析中選用本校教師相關研究結果作為數據來源,拉近學生與知識點的距離,提高學習興趣,使學生認識到學習本課程的意義,通過講練結合使學生掌握相關實踐分析能力。
二、教學材料
1.教材的選擇。生物信息學目前仍處速發展時期,尤其是隨著各種新技術、新理論及組學的發展,涉及到的學科越來越多。當前生物信息學專著及教材層出不窮,但中文版書籍中影印國外原版教科書和翻譯書籍仍占很大比例,這類書籍中,專著專業性過強,而教材又多是針對生物信息學專業的學生或“一本”的學生編寫的,難度較大,并且各自側重點不同,并不適合作為一般的農業院校的生物信息學教材。筆者在教學過程中先后使用了由鐘揚等編寫、高等教育出版社出版的《簡明生物信息學》及由肖浪濤主編、中國農業出版社出版的全國高等農林院?!笆晃濉币巹澖滩摹渡镄畔W》作為主要的參考教材。但是,在教學實踐中筆者感到《簡明生物信息學》由于出版時間較早(2001年)已不能滿足實際教學工作的需要,書中的很多內容都已更新,很多網站頁面也已重組或失效,而近年被廣泛使用的一些著名生物信息學軟件亦未涉及。而《生物信息學》一書偏重理論知識介紹,實例分析及操作應用偏少。因此,筆者根據本校專業建設需要及學生水平編寫了適用于本校學生使用的簡明教材。教材中理論部分主要參考上述兩本教材,并進行了簡化,降低難度,舍去算法、模型等專業性較強的章節;實踐部分參考薛慶中等主編、科學出版社出版的DNA和蛋白質序列數據分析工具(第2版,2010年)一書,并附具體實例,最終形成理論部分簡明易懂,實踐部分易學易用的實用型教材。
2.生物信息學相關數據庫及軟件的選擇。生物信息學發展迅速,相關生物信息數據庫及生物信息軟件數量不斷增加,版本不斷更新,這為生命科學相關研究提供了極大便利,但同時也為《生物信息學》課程實踐部分的教學帶來了挑戰與壓力。例如要分析一條蛋白質序列的分子量、等電點、氨基酸組成等信息,我們可以使用DNAMAN、Bioedit、DNAStar、Vector NTI等本地軟件分析,也可以使用ProtParam、SAPS等網絡在線程序分析。在有限的教學時間內,如何選擇數據庫及高效易用的生物信息學分析軟件也是教學中一個重要的問題。通過參考相關生物信息學分析的書籍及近年文獻,綜合考慮數據庫及軟件的通用型、易用性及本校學生的英語水平、計算機操作水平,結合教學目標及內容,我們選擇常用的核酸序列數據庫GenBank、蛋白質數據庫PDB等,軟件方面選擇DNAMAN、Bioedit、Clustal W、MEGA、Primer Premier、RasMol等常見的生物信息學離線分析軟件及整合于NCBI、EXPASY、PDB等網站上的在線分析軟件開展實踐教學,而其他軟件在課堂上只做簡單介紹,具體操作方法作為輔助資料供學生自學。這樣學生在有限的學時內可掌握更多的分析內容,達到“高效”的教學目的。
三、教學方法
1.及時更新完善多媒體教學資料。生物信息學課程理論知識較抽象,實踐操作多,與計算機、互聯網聯系緊密,內容更新快,當代大學生已習慣并樂于使用各種多媒體途徑獲取信息,這些特點決定了其非常適于進行多媒體教學。為此,我們根據教學內容開發制作了一套多媒體教學資料并及時更新完善。教學多媒體資料包括Power Point課件和Flas,課件注重知識的層次性、聯系性,將理論基礎、實驗技術操作流程等較抽象的生物信息學知識通過大量圖片形象地展示給學生,從而提高學生的學習興趣并加快學生對抽象知識的理解;動畫的內容是利用屏幕錄像軟件將實例分析過程錄像并配音,最后轉為Flash格式,穿插在理論教學及實踐教學過程中使用,從而使學生在自己實踐操作前先有一個形象的認識,將理論知識與實踐操作有機聯系在一起。
2.充分利用網絡教學平臺輔助教學。生物信息學是一門以互聯網為媒介、計算機為工具的學科。在教學中,網絡教學平臺的使用在提高學生學習興趣、增強師生互動、強化教學效果等方面起到了很好的輔助作用。利用網絡教學平臺,教師可將課程課件、動畫、分析工具、實踐教學內容等共享給學生并及時了解學生學習動態,學生可將實驗報告、作業、學習問題及意見反饋給教師,師生可以通過網絡教學平臺的論壇版塊在課余就學習或實踐中的問題進行討論,達到“教學相長”的教學目的。此外,利用網絡教學平臺還可將課堂中未詳細講述的大量數據庫、軟件的使用過程及相關電子參考書、文獻共享給學生,有利于提高學生學習自主性并拓寬課程外延。
3.邊講邊練,理論知識密切聯系實踐操作。德國心理學家艾賓浩斯研究發現,在學習和記憶過程中,最初階段遺忘速度最快,隨著時間推延,遺忘越來越慢。因此,為了讓學生能牢固掌握所學知識及實踐技能,我們在教學中采取邊講邊練的形式。對于理論知識,我們采取課前提問、課中提問、小測驗及實踐操作過程中知識點重現等方式,使重要理論知識在整個教學過程中多次出現,增強學生對課程知識體系的系統認知并強化其對理論知識的記憶。對于實踐操作,我們采取案例式教學,直接將實例分析穿插在理論授課過程中,并在理論課后及時安排學生在計算機房上機聯網操作,如在講授序列比對理論課時,實例演示使用DNAMAN、Blast等軟件進行序列比對的過程,并在理論課后緊跟DNAMAN軟件使用、數據庫搜索的實踐操作,這樣既加深學生對理論知識的理解,還有利于學生掌握實踐操作能力。
4.布置實踐任務,加強綜合能力培養。生物信息學教學強調學生的實踐能力培養。因此,在教學設計上,我們將學生按4~5人分成小組,通過學生自選或制定的方式布置特定實踐任務,要求學生以小組為單位,利用本課程所學知識及技能完成任務并提交任務報告。例如,在課程一開始講授數據庫時,要求學生通過查文獻、了解本校相關分子生物學研究內容并結合自己的興趣選擇特定基因,圍繞該基因,在后續整個課程的學習過程中利用掌握的各種生物信息學分析方法對其進行序列查詢、引物設計、序列比對、編碼區分析、蛋白理化性質預測、保守結構域預測、結構預測、分子系統發育分析等操作,過程中學生互相討論、取長補短,最終協作完成實踐任務。這樣既使學生較全面地掌握了課程內容,同時又加強了學生分析問題、解決問題的綜合能力。
四、考核辦法
在課程考核方面,本著生物信息學課程培養實踐應用能力的教學原則,為使學生真正掌握生物信息學的基本理論及實踐操作,我們改變了過去閉卷考試占主體或寫課程論文的簡單考核方式,采取了過程考核、實踐考核并結合考試考核的方式對學生的學習效果進行綜合評價??记诩翱陬^提問占考核成績的10%,4次隨堂測驗占考核成績的20%,上機操作占考核成績的20%,實踐任務作業占考核成績的20%,期末閉卷考試占考核成績的30%。這樣考核雖然過程復雜,對學生及教師都帶來更大壓力,但杜絕了學生平時不學,期末突擊,忽視實踐的現象,學生必須注重平時的學習及實踐操作才能順利通過課程考核。這樣的考核辦法能夠更客觀準確地評價一個學生對課程的實際掌握情況。
隨著生物信息學在農業各研究領域的廣泛應用,掌握生物信息學知識及分析能力已成為農業院校相關專業畢業生的必備要求,生物信息學課程也必將在農業院校各相關專業建設中占據越來越重要的地位。通過本課程的教學實踐探索,學生學習主動性、實踐操作能力、最終學習效果均得到提高,筆者也積累了一定經驗,取得了一定的教學成效,找到了一些適合農業院校的切入點,但是課程教學中還有很多需要進一步完善改進的地方。生物信息學學科的快速發展,也決定了本課程的教學模式必將是一個動態發展的過程,相信隨著對生物信息學學科的深入認識,生物信息學課程教學模式也將不斷完善,形成自己的獨特體系。
參考文獻:
[1]鐘揚,張亮,趙瓊.簡明生物信息學[M].北京:高等教育出版社,2001.
[2]肖浪濤.生物信息學[M].北京:中國農業出版社,2006.
[3]王祿山,高培基.生物信息學應用技術[M].北京:化學工業出版社,2008.
[4]胡娜,常軍,徐玲.生物信息學教學改革與探索[J].安徽農業科學,2010,38(3):1588-1589.
[5]梁琛,張建海.農科類生物信息學課程教學中存在的問題及對策[J].農業與技術,2010,30(5):136-137.
生物信息學范文4
關鍵詞: 生物信息學 農業研究領域 應用
“生物信息學”是英文單詞“bioinformatics”的中文譯名,其概念是1956年在美國田納西州gatlinburg召開的“生物學中的信息理論”討論會上首次被提出的[1],由美國學者lim在1991年發表的文章中首次使用。生物信息學自產生以來,大致經歷了前基因組時代、基因組時代和后基因組時代三個發展階段[2]。2003年4月14日,美國人類基因組研究項目首席科學家collins f博士在華盛頓隆重宣布人類基因組計劃(human genome project,hgp)的所有目標全部實現[3]。這標志著后基因組時代(post genome era,pge)的來臨,是生命科學史中又一個里程碑。生物信息學作為21世紀生物技術的核心,已經成為現代生命科學研究中重要的組成部分。研究基因、蛋白質和生命,其研究成果必將深刻地影響農業。本文重點闡述生物信息學在農業模式植物、種質資源優化、農藥的設計開發、作物遺傳育種、生態環境改善等方面的最新研究進展。
1.生物信息學在農業模式植物研究領域中的應用
1997年5月美國啟動國家植物基因組計劃(npgi),旨在繪出包括玉米、大豆、小麥、大麥、高粱、水稻、棉花、西紅柿和松樹等十多種具有經濟價值的關鍵植物的基因圖譜。國家植物基因組計劃是與人類基因組工程(hgp)并行的龐大工程[4]。近年來,通過各國科學家的通力合作,植物基因組研究取得了重大進展,擬南芥、水稻等模式植物已完成了全基因組測序。人們可以使用生物信息學的方法系統地研究這些重要農作物的基因表達、蛋白質互作、蛋白質和核酸的定位、代謝物及其調節網絡等,從而從分子水平上了解細胞的結構和功能[5]。目前已經建立的農作物生物信息學數據庫研究平臺有植物轉錄本(ta)集合數據庫tigr、植物核酸序列數據庫plantgdb、研究玉米遺傳學和基因組學的mazegdb數據庫、研究草類和水稻的gramene數據庫、研究馬鈴薯的pomamo數據庫,等等。
2.生物信息學在種質資源保存研究領域中的應用
種質資源是農業生產的重要資源,它包括許多農藝性狀(如抗病、產量、品質、環境適應性基因等)的等位基因。植物種質資源庫是指以植物種質資源為保護對象的保存設施。至1996年,全世界已建成了1300余座植物種質資源庫,在我國也已建成30多座作物種質資源庫。種質入庫保存類型也從單一的種子形式,發展到營養器官、細胞和組織,甚至dna片段等多種形式。保護的物種也從有性繁殖植物擴展到無性繁殖植物及頑拗型種子植物等[6]。近年來,人們越來越多地應用各種分子標記來鑒定種質資源。例如微衛星、aflp、ssap、rbip和snp等。由于對種質資源進行分子標記產生了大量的數據,因此需要建立生物信息學數據庫和采用分析工具來實現對這些數據的查詢、統計和計算機分析等[7]。
3.生物信息學在農藥設計開發研究領域中的應用
傳統的藥物研制主要是從大量的天然產物、合成化合物,以及礦物中進行篩選,得到一個可供臨床使用的藥物要耗費大量的時間與金錢。生物信息學在藥物研發中的意義在于找到病理過程中關鍵性的分子靶標、闡明其結構和功能關系,從而指導設計能激活或阻斷生物大分子發揮其生物功能的治療性藥物,使藥物研發之路從過去的偶然和盲目中找到正確的研發方向。生物信息學為藥物研發提供了新的手段[8,9],導致了藥物研發模式的改變[10]。目前,生物信息學促進農藥研制已有許多成功的例子。itzstein等設計出兩種具有與唾液酸酶結合化合物:4-氨基-neu5ac2en和4-胍基-neu5ac2en。其中,后者是前者與唾液酸酶的結合活性的250倍[11]。目前,這兩種新藥已經進入臨床試驗階段。tang sy等學者研制出新一代抗aids藥物saquinavir[12]。pungpo等已經設計出幾種新型高效的抗hiv-1型藥物[13]。楊華錚等人設計合成了十多類數百個除草化合物,經生物活性測定,部分化合物的活性已超過商品化光合作用抑制劑的水平[14]。
現代農藥的研發已離不開生物信息技術的參與,隨著生物信息學技術的進一步完善和發展,將會大大降低藥物研發的成本,提高研發的質量和效率。
4.生物學信息學在作物遺傳育種研究領域中的應用
隨著主要農作物遺傳圖譜精確度的提高,以及特定性狀相關分子基礎的進一步闡明,人們可以利用生物信息學的方法,先從模式生物
中尋找可能的相關基因,然后在作物中找到相應的基因及其位點。農作物的遺傳學和分子生物學的研究積累了大量的基因序列、分子標記、圖譜和功能方面的數據,可通過建立生物信息學數據庫來整合這些數據,從而比較和分析來自不同基因組的基因序列、功能和遺傳圖譜位置[15]。在此基礎上,育種學家就可以應用計算機模型來提出預測假設,從多種復雜的等位基因組合中建立自己所需要的表型,然后從大量遺傳標記中篩選到理想的組合,從而培育出新的優良農作物品種。
5.生物信息學在生態環境平衡研究領域中的應用
在生態系統中,基因流從根本上影響能量流和物質流的循環和運轉,是生態平衡穩定的根本因素。生物信息學在環境領域主要應用在控制環境污染方面,主要通過數學與計算機的運用構建遺傳工程特效菌株,以降解目標基因及其目標污染物為切入點,通過降解污染物的分子遺傳物質核酸 dna,以及生物大分子蛋白質酶,達到催化目標污染物的降解,從而維護空氣[16]、水源、土地等生態環境的安全。
美國農業研究中心(ars) 的農藥特性信息數據庫(ppd) 提供 334 種正在廣泛使用的殺蟲劑信息,涉及它們在環境中轉運和降解途徑的16種最重要的物化特性。日本豐橋技術大學(toyohashi university of technology) 多環芳烴危險性有機污染物的物化特性、色譜、紫外光譜的譜線圖。美國環保局綜合風險信息系統數據庫(iris) 涉及 600種化學污染物,列出了污染物的毒性與風險評價參數,以及分子遺傳毒性參數[17]。除此之外,生物信息學在生物防治[18]中也起到了重要的作用。網絡的普及,情報、信息等學科的資源共享,勢必會創造出一個環境微生物技術信息的高速發展趨勢。
6.生物信息學在食品安全研究領域中的應用
食品在加工制作和存儲過程中各種細菌數量發生變化,傳統檢測方法是進行生化鑒定,但所需時間較長,不能滿足檢驗檢疫部門的要求,運用生物信息學方法獲得各種致病菌的核酸序列,并對這些序列進行比對,篩選出用于檢測的引物和探針,進而運用pcr法[19]、rt-pcr法、熒光rt-pcr法、多重pcr[20]和多重熒光定量pcr等技術,可快速準確地檢測出細菌及病毒。此外,對電阻抗、放射測量、elisa法、生物傳感器、基因芯片等[21-25]技術也是未來食品病毒檢測的發展方向。
轉基因食品檢測是通過設計特異性的引物對食品樣品的dna提取物進行擴增,從而判斷樣品中是否含有外源性基因片段[26]。通過對轉基因農產品數據庫信息的及時更新,可準確了解各國新出現和新批準的轉基因農產品,便于查找其插入的外源基因片段,以便及時對檢驗方法進行修改。目前由于某些通過食品傳播的病毒具有變異特性,以及檢測方法的不完善等因素影響,生物信息學在食品領域的應用還比較有限,但隨著食品安全檢測數據庫的不斷完善,相信相關的生物信息學技術將在食品領域發揮越來越重要的作用。
生物信息學廣泛用于農業科學研究的各個領域,但是僅有信息資源是不夠的,選出符合自己需求的生物信息就需要情報部門,以及信息中介服務機構提供相關服務,通過出版物、信息共享平臺、數字圖書館、電子論壇等信息媒介的幫助,科研工作者可快速有效地找到符合需要的信息。目前我國生物信息學發展還很不均衡,與國際前沿有一定差距,這需要從事信息和科研的工作者們不斷交流,使得生物信息學能夠更好地為我國農業持續健康發展發揮作用。
參考文獻:
[1]yockey hp,platzman rp,quastler h.symposium on information.theory in biology.pergamon press,new york,london,1958.
[2]鄭國清,張瑞玲.生物信息學的形成與發展[j].河南農業科學,2002,(11):4-7.
[3]駱建新,鄭崛村,馬用信等.人類基因組計劃與后基因組時代.中國生物工程雜志,2003,23,(11):87-94.
[4]曹學軍.基因研究的又一壯舉——美國國家植物基因組計劃[j].國外科技動態,2001,1:24-25.
[5]michael b.genomics and plantcells:application ofgenomics strategies to arabidopsis cellbiology[j].philostransr soc lond b bio sci,2002,357(1422):731-736.
[6]盧新雄.植物種質資源庫的設計與建設要求[j].植物學通報,2006,23,(1):119-125.
[7]guy d,noel
e,mike a.using bioinformatics to analyse germplasm collections [j].springer netherlands,2004:39-54.
[8]鄭衍,王非.藥物生物信息學,化學化工出版社,2004.1:214-215.
[9]俞慶森,邱建衛,胡艾希.藥物設計.化學化工出版社,2005.1:160-164.
[10]austen m,dohrmann c.phenotype—first screening for the identification of novel drug targets.drug discov today,2005,10,(4):275-282.
[11]arun agrawal,ashwini chhatre.state involvement and forest cogovernance:evidence from the indianhmi alayas.stcomp international developmen.t sep 2007:67-86.
[12]tang sy.institutionsand collective action:self-governance in irrigation [m].san francisco,ca:icspress,1999.
[13]pungpo p,saparpakorn p,wolschann p,et a.l computer-aided moleculardesign of highly potenthiv-1 rt inhibitors:3d qsar and moleculardocking studies of efavirenz derivatives[j].sar qsar environres,2006,17,(4):353-370.
[14]楊華錚,劉華銀,鄒小毛等.計算機輔助設計與合成除草劑的研究[j].計算機與應用化學,1999,16,(5):400.
[15]vassilev d,leunissen j,atanassov a.application of bioinformatics in plant breeding[j].biotechnology & biotechnological equipment,2005,3:139-152.
[16]王春華,謝小保,曾海燕等.深圳市空氣微生物污染狀況監測分析[j].微生物學雜志,2008,28,(4):93-97.
[17]程樹培,嚴峻,郝春博等.環境生物技術信息學進展[j].環境污染治理技術與設備,2002,3,(11):92-94.
[18]史應武,婁愷,李春.植物內生菌在生物防治中的應用[j].微生物學雜志,2009,29,(6):61-64.
[19]趙玉玲,張天生,張巧艷.pcr 法快速檢測肉食品污染沙門菌的實驗研究[j].微生物學雜志,2010,30,(3):103-105.
[20]徐義剛,崔麗春,李蘇龍等.多重pcr方法快速檢測4種主要致腹瀉性大腸埃希菌[j].微生物學雜志,2010,30,(3) :25-29.
[21]索標,汪月霞,艾志錄.食源性致病菌多重分子生物學檢測技術研究進展[j].微生物學雜志,2010,30,(6):71-75
[22]朱曉娥,袁耿彪.基因芯片技術在基因突變診斷中的應用及其前景[j].重慶醫學,2010,(22):3128-3131.
[23]陳彥闖,辛明秀.用于分析微生物種類組成的微生物生態學研究方法[j].微生物學雜志,2009,29,(4):79-83.
[24]王大勇,方振東,謝朝新等.食源性致病菌快速檢測技術研究進展[j].微生物學雜志,2009,29,(5):67-72.
[25]蘇晨曦,潘迎捷,趙勇等.疏水網格濾膜技術檢測食源性致病菌的研究進展[j].微生物學雜志,2010,30,(6):76-81.
生物信息學范文5
【關鍵詞】云計算 生物信息學
下一代測序技術的應用產生了大量的測序數據,這對生物學特別是生物信息學在數據的存儲、管理和搜索等方面帶來了新的挑戰。一直以來計算機存儲和處理數據能力的增長速度都快于生物數據的增長速度,但2003年后,由于測序技術的發展使得測序成本大幅度下降,產生了大量的生物數據,計算機的存儲和計算能力逐漸無法滿足大數據的需求。這促進了云計算的運用和發展,它使得用戶可以根據需求租用硬件設備和軟件,避免了對硬件設備的大量資金投入和管理投入。
1 云計算定義
“云”是一個通過虛擬技術把云端計算機或是服務器連接在一起的服務網絡。存儲和分析數據都由“云”端的服務器或是計算機完成。中國云計算專家劉鵬給出如下定義:“云計算是一種商業計算模型,它將計算任務分布在大量計算機構成的資源池上,使用戶能夠按需獲取計算力、存儲空間和信息服務?!?/p>
按照資源的共享水平,云計算的服務模式分為三種,基礎架構即服務(Infrastructure as a service), 平臺即服務(Platform as a service)和軟件即服務(Software as a service)。
IaaS(Infrastructure as a service) Service:基礎架構即服務。它整合了基礎設施如虛擬主機、存儲設備、網絡設備等資源成為一個服務平臺提供給用戶使用。IaaS位于網絡的底層,向用戶提供按需分配、按需付費的計算設備和存儲設備。
PaaS(Platform as a service)提供服務平臺,用戶掌控運作應用程序的環境,可以在平臺上應用,測試和開發軟件。
SaaS(Software as a service)即在服務平臺上提供軟件供用戶使用,用戶只使用軟件,不掌握操作系統、硬件等網絡基礎架構。用戶不必自己安裝軟件,只需要瀏覽器連接到公共的服務平臺即可。供應商會按照用戶的要求安裝所需的軟件,并負責軟件的升級和維護。
云計算的主要優點:
(1)把用戶從安裝和測試軟件的工作中解脫出來。云計算平臺可以按照用戶的需求提供軟件及硬件的服務。用戶不需要考慮網絡下面復雜的硬件架構,僅僅需要關注計算和分析就可以。
(2)按需租用計算資源可以讓用戶支付更少的費用。在云計算平臺上,用戶在最初時可以租用少量的機器,以后隨著需求的增加或減少相應的增加或減少租用的機器。用戶所付的費用就是實際租用機器的費用。
(3)云計算方便研究人員之間的數據共享和分析。不同研究者在本地服務器上安裝的軟件版本可能不同,所以共享數據和軟件很困難。云計算可以使登錄同一個平臺的用戶共享操作系統和所有的軟件數據,保證了軟件的版本同步更新。
2 云計算在生物信息中的應用
我們把云計算在生物信息學中的應用按IaaS, PaaS和SaaS三個方面分別介紹。
2.1 IaaS
用戶租用云計算上的虛擬主機可以自己控制計算、存儲等硬件設備,建立需要的計算環境。并且大量的生物信息學工具可以打包為虛擬鏡像用于租用的云計算的虛擬主機上,可以很方便的進行多種數據分析。如CloVR提供的一個包含預配置和自動的生物信息學流程的虛擬主機,可以運行在本地的計算機上也可以運行在云計算平臺上。這個虛擬機以Ubuntu和BioLinux為基礎,安裝了Grid Engine和Hadoop作為作業調度,Ergatis作為工作流系統,還有很多開源的生物信息學軟件,如BLAST、16S rRNA等。用戶也可以開發自己的軟件運行在虛擬機上。Bioconductor是一個開源的關于R語言的生物信息學庫,提供了一系列的軟件包用于微陣列數據分析。用戶可以下載Bioconductor提供的鏡像安裝到租用的云計算平臺上。
2.2 PaaS
Galaxy Cloudman和Eoulsan可以看做PaaS。Galaxy整合了一系列的簡單易用的工具,提供一個簡易的網頁用來分析數據。Galaxy Cloudman把Galaxy的軟件工具打包成一個鏡像,可以在AWS(Amazon Web Service)上應用。用戶可以將其他安裝在Galaxy平臺上的軟件安裝到自己的云計算平臺上,甚至可以在Galaxy Cloudman上定義插件。通過添加額外的工具,可以擴展默認函數并測試和使用。從這個意義上說,Galaxy Cloudman可以看做PaaS。
Eoulsan整合了很多下一代基因數據分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一個框架內,同時,它也支持用戶自己開發的插件用于數據分析。
2.3 SaaS
很多傳統的生物信息學工具如BLAST、UCSC Genome Browser僅僅用一個瀏覽器就可以登錄到服務器使用相應的服務,它們也可以稱為SaaS。這些服務一般由軟件工具的開發者提供,伸縮性很差。我們主要介紹應用于云計算平臺上可以伸縮的生物信息學工具。
短序列(讀段)匹配是指將測序得到短序列匹配到參考基因組上,這是許多測序數據分析的第一步,如SNP識別和基因表達譜分析。CloudBurst,CloudAligner,SEAL和Crossbow都是應用于云計算基于MapReduce的軟件,可以匹配數以百萬計的序列。Schatz用”seed-and-extend”算法開發的CloudBurst可以確定錯誤匹配的數目。CloudBurst模仿了RMAP的算法,但速度提高了30倍。但是CloudBurst不支持fastq文件,并且不能處理重亞硫酸鹽測序和(雙)末端測序產生的數據。CloudAligner彌補了這個缺點,并且比CloudBurst快35%到80%。SEAL整合了BWA,在序列匹配時可以去除重復的序列,這對SNP識別和以后分析很有用。應用MapReduce的Crossbow整合了Bowtie和SOAPsnp,可以在幾個小時內匹配數以十億計的序列。
差異表達分析可以用來尋找不同樣本中表達有明顯差別的基因,而RNA測序(RNA-seq)用來量化樣本中的基因表達水平。Myrna是一個云計算平臺上計算大規模RNA測序的軟件。它整合了序列匹配、歸一化、聚類分析和統計模型,直接輸出不同樣本的基因表達水平和不同表達水平的基因。然而,Myrna 最大的缺陷是不能正確地將短序列匹配到外顯子拼接位點上。但FX彌補了這個缺點。FX用改進的匹配函數分析RNA數據,以RPKM或是BPKM的格式輸出不同基因的表達水平。
3 云計算面臨的問題
云計算提供了強大的計算能力,但云計算自身的特點也使它的發展面臨了一些困難和制約。云計算在生物信息學上的應用尚處于初期階段,盡管已經出現了一定數量的生物信息學工具,但仍有很多的分析無法完成,很多的工具還需升級或者開發。云計算上數據的隱私性和安全性也是用戶需要考慮的方面。特別是一些生物數據涉及到病人的隱私,但很多國家還沒有保護這種數據隱私的法律。云計算服務提供商需要制定一些規則來保護用戶的數據。
4 對應用云計算的建議
對于將要使用云計算的用戶,需要考慮以下三個方面:數據規模、安全隱私和費用。
數據規模及安全隱私:首先要考慮你的數據規模是否超過了本地計算機的處理能力?,F在本地的個人電腦可以處理數千兆的數據,服務器一次可以處理數百G的數據。如果用戶熟悉并行計算的技術,可以處理數TB的數據。但如果你的數據更大并且不精通并行計算,本地計算機和服務器就很難處理了,就可以考慮云計算。用戶如果要向云計算平臺上傳輸數據,需要考慮數據的安全性和隱私性。比如涉及病人的隱私是否會泄露,云計算服務提供商是否可以保證數據的安全等。
費用:云計算的費用一般是按照使用的計算資源的多少和使用時間的長短計算的。使用云計算前應該評估其使用費用。用戶應該考慮所有階段的費用,如數據傳輸、保存、分析等。
目前,云計算和生物信息學都處在快速發展當中,云計算在生物信息學中的應用也越來越廣泛和深入。特別是生物數據的大規模增漲,生物學家必須從大量的數據當中分辨出有用的信息。這就需要強大的存儲能力和計算分析能力,云計算可以很好的解決這個問題。 云計算和生物信息學的結合將極大的促進生物學的發展。
參考文獻
[1]劉鵬主編.云計算(第二版)[M].北京:電子工業出版社,2011(05).
[2]Schatz MC,CloudBurst:Highly sensitive read mapping with MapReduce,Bioinformatics
25(11):1363-1369,2009.
[3]Nguyen T,ShiW,Ruden D,CloudAligner:A fast and full-featured mapreduce based tool.for sequence mapping, BMC Res Notes 4:171,2011.
[4]Hong D,Rhie A,Park SS,Lee J,Ju YS,Kim S,Yu SB,Bleazard T,Park HS,Rhee H,Chong H,Yang KS,Lee YS,Kim IH,Lee JS,Kim JI,Seo JS,FX:An RNA-seq analysis tool on the cloud, Bioinformatics 28(5):721-723,2012.
作者簡介
李淵(1985-),男,河南省延津縣人。碩士研究生學歷?,F為蘇州大學系統生物學研究中心助理實驗師。主要研究方向為實驗技術。
生物信息學范文6
伴隨著基因組研究日新月異的快速發展,相關信息出現了爆炸性增長,迫切需要對海量生物信息進行處理。以DNA堿基數為例,其增長速度呈指數性增長,大約每14個月就會增長一倍,這種增長速度只有計算機運算能力的增長可以與之相比。所以在當前基因組信息爆炸的時代,需要建立超大規模計算系統,用更準確、更可靠的方法來分析這些數據,從中獲得有用的信息是生物信息學取得成果的決定性步驟。
近日,具有萬億次浮點運算能力、基于四核處理器的聯想高性能機群――深騰1800落戶于上海交通大學,承載著該校在生命科學研究領域的多種核心應用軟件。上海生物信息技術研究中心主任李亦學在接受記者采訪時說: “生物與計算結合最早叫做計算生物學,從要求來講,能夠進行大規模計算即可,對單個CPU結點的內存沒有多大的要求,但隨著生物學的發展,對計算機的要求變得比較復雜。一個完整的解決方案,要求對大量不同的數據庫同時進行快速檢索,然后是數據整合,同時還要做很多并發計算,很多計算是非常耗內存的。實際上并不一定非得要求計算能力非常高,但一定要可靠。再者,需要同時并發完成許多不同的計算?!?/p>
李亦學說,他們在進行生物信息計算時會同時存在幾十種不同的任務,這不但需要計算機運算速度快,還要求有很大的共享內存?,F代生物學為了獲得高速運算,必須把所有的數據放在內存中進行操作,這樣會節省時間。如果沒有很大的共享內存,他們的很多案例就沒有辦法做了。比如大的基因組測序數據的拼接工作,內存要30G左右,大內存的胖結點可以做到。而四核的發展,其實可以把每個結點共享內存加大,在性價比方面也比較高,這種發展非常符合生物學發展對復雜生物系統計算性能的要求。