高等教育大數據分析方法

前言:尋找寫作靈感?中文期刊網用心挑選的高等教育大數據分析方法,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

高等教育大數據分析方法

摘要:教育環境的不斷變化和迅速發展使得高等教育面臨極大的挑戰,大數據是其中面臨的一個重要問題。本文基于人工智能手段,研究了高等教育資源中各種數據的獲取來源,進一步討論了傳統的和非傳統的關于學生的數據特點,提出了一個利用分布式技術的集成學習分析解決方案,該方案有利于擴大和改進教育管理部門決策支持系統功能,提高管理決策效率。

關鍵詞:高等教育;人工智能;大數據;決策支持系統

0概述

高等教育的現代化進程使得人們對數據分析越來越感興趣,教育管理者可以通過分析從各種學習來源收集的大數據來實現對決策的輔助[1]。然而,在高等教育中,最大的挑戰是確定如何獲取、處理、存儲、呈現和使用數據,以得到可靠有效的結果[2]。針對目前現有的很多教育管理部門工作或研究人員缺乏對大數據系統架構的深入了解和合理規劃,本文基于自然語言處理(NLP)解決方案,考慮學習分析技術的關鍵類型以及如何應用于教育管理系統,以解決學生成績、輟學率、就業率等問題[3]。該方法將人工智能中自然語言處理技術與數據分析相結合,以便能夠準確分析越來越多的非結構化數據,可以擴大和改進教育管理部門目前采用的決策支持系統功能,從而提高其實用性和實用性。

1高等教育大數據資源分析

本節通過對與學生數據相關的非傳統數據的調研,總結了以下一些影響數據分析結果的因素,這些數據在分析時可以為高等學術機構帶來更準確的決策見解。

1.1影響學生成績和輟學的因素

學業表現參與度被認為是預測學生成功的有效手段。然而,還有許多其他的重要因素可以影響學生的成功,如社會融合,許多研究已經證實,社會適應性在學生的動機中起著關鍵作用,調查顯示擁有更廣泛、聯系更緊密的人際網絡的學生更有可能堅持下去。此外,學生的態度對激發學習行為的內在動機和好奇心等行為也有積極的影響。相反,學生對任何學習環境的消極態度,都可能導致厭倦、焦慮或壓力,從而降低學生的學習能力,最終導致學生退縮。通過文獻分析,可以將影響學生留校率的因素分為以下幾類:(1)學業整合(即學生平均成績;分數;對學業經驗的滿意度;對課程和課程的興趣)。(2)社會融合(即與其他學生的關系;同伴團體的影響;社會/同伴支持;以及課外活動)。(3)機構承諾(即資金;基礎設施;學術支持;技術支持;實踐學習經驗;學術建議)。(4)體制外因素(即金融、健康、外部社會圈子和生活方式)。

1.2構建學生狀態的大數據結構

在許多情況下,學生狀態數據包括半結構化和非結構化數據,需要一個非傳統的數據管理系統。此外,目前收集這種形式數據的能力意味著在分析學生成績時,需要將其視為預測留級率的一個重要組成部分。數據量仍然以千兆字節為單位表示,然而,它顯示出相當多的變化。這表明了大數據的潛力,并且需要定制適合大數據分析的解決方案。經分析調研,我們列出下列數據組成:(1)學生日志姓名;年齡;性別;地點;以前的學校;學校畢業分數;(2)學生成績統計按學科劃分的內部評估分數;期中成績;年度考試成績;實驗室成績;項目成績;(3)學生參與度指標:每日出勤率;研討會參與率;小組學習參與率;研討會出勤率;反饋/評論;(4)學生在線學習:參與學習管理系統(LMS)課程列表;LMS登錄/注銷時間戳;LMS持續時間/天;LMS考試分數;完成LMS模塊;(5)過去學生成績:學生獲獎者;學生分數;學生課外獎勵;學生輟學率;(6)學生社交網絡:學生的學習小組;學生的朋友圈;(7)學生課外活動:學生參加社團;學生參加比賽;(8)學生的健康背景:是否有殘疾?他/她有慢性病嗎?(9)學生的財務背景:家庭年收入;學生是否有貸款?滯納金記錄;學生有獎學金嗎?

2高等教育大數據分析模型與方法

2.1大數據分析模型

分析模型的建立旨在支持學生的進步和畢業,這部分研究的目的是利用不同類型的數據,通過他們通過不同的分析,然后將結果反饋到一個主分析模型。通過這種多重屬性和特征可以參與到預測學生成績和發現影響學生成績的因素中。相對于單一的預測模型,我們提出一種綜合分析模型,該模型針對數據變化大的特點,對各種數據(即自由格式文本、圖表和正常操作數據等)以及復雜的分析使用非傳統的數據管理系統,采用分布式平臺來應對傳統數據倉庫無法處理大型復雜數據集并在幾秒鐘內交付輸出/響應的情況,圖1給出了模型的大數據體系結構。

2.2大數據分析方法

在圖1所示模型中,提出了其中所處理數據的性質、數據收集中使用的工具以及數據在執行分析中的方法,分為以下三層:

2.2.1數據接入層

數據接入層包括處理引擎所需的所有數據源??捎玫臄祿慈缦拢海?)大學保留數據庫系統,例如學生日志、學生記錄和歷史數據;(2)學生移動應用程序,即基于學生活動生成數據的應用程序。首先,在將數據轉儲推入處理引擎(SCAP)之前需要數據轉儲。采用HBase(HadoopDatabase),HBase是一個分布式的、面向列的開源數據庫,因為有以下三個重要特點①以原始格式存儲數據;②提供實時訪問;③便于批量處理。因此建議使用Sqoop工具將數據攝取到HBase中,因為合適的連接器是從結構化數據庫HBase中攝取數據的關鍵,sqoop可用于將存儲在sql數據庫中的結構化數據轉換為分布式文件格式,HBase可以接收這些文件格式。因此,學校的所有數據庫都可以連接到sqoop,sqoop也可以安排定期接收數據,以便捕獲任何數據更新。同時H-BASE的RESTAPI連接器可以使得它能夠以結構化和非結構化格式直接存儲應用程序的數據。API可以設置為在應用程序中更改時獲取數據。

2.2.2存儲層

存儲層包括HBase及其文件系統hdfs。HBase上的impala封裝可以對hbase中存儲的數據運行sql查詢。如果假設每個學生大約4MB數據,一所大學大約有30000名的學生的話,可以預期總共大約120GB的數據,其中包括記錄、LMS數據、應用程序數據等。因此,此HBase需要至少100GB的存儲容量。如果需要容錯,則需要復制數據,這將增加所需的空間。這又取決于數據需要由配置復制參數復制的次數。所收集的數據被存儲在一個單一的位置作為柱狀文件,以節省空間和促進分布式/隨機訪問。這種分布式存儲允許訪問任何數據變量,因為它來自一個大表,并且進一步使處理引擎運行迭代機器學習查詢。

2.2.3處理層

Spark形成處理層,Spark是加州大學伯克利分校的AMP實驗室所開源的類HadoopMapReduce的通用并行框架,其中包含所有的分析。當使用SARK時,所有數據都以彈性分布數據(RDD)的形式存在。RDD是通過引用HBase中存儲的數據創建的,HBase用作外部存儲。在這一階段的綜合分析模型,所有的特征(包括計算特征從非結構化數據分析和原始特征)都會形成最終的RDD。一般來說,所有的預測建模過程都可以通過集成建模的過程來完成的,比如可以建立兩種預測模型,即:學生表現(回歸模型)和學生輟學(二元分類模型)。

3結語

通過對上述分析方法的實驗可以得出,建立一個整體的學生進步和與其他人格因素一起考慮的大數據分析框架,對學生表現的預測會產生更準確的結果。本文著重研究了高等教育學生可獲得的各種數據來源,進一步討論了傳統的和非傳統的關于學生的傳統數據,以便建立影響高等教育領域內決策關鍵問題的方法。此外本文還概述了從多個來源收集數據所采用的技術,這些技術會形成一個集成的學習分析解決方案,利用分布式技術系統,能夠支持管理者在教育機構中做出更為有效的決策。文章所提出的數據收集、存儲和分析解決方案也為在深度學習分析領域開發活動提供了有益的借鑒。

作者:張紅 郝東來 單位:陜西職業技術學院 西京學院

亚洲精品一二三区-久久