前言:尋找寫作靈感?中文期刊網用心挑選的云服務基礎教育網絡資源論文,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
一、問題的提出
廣州市現有12個區,基礎教育階段中小學校超過2000所,在校學生近200萬人,教職工約15萬人。為滿足廣大師生學習和工作的需要,引領教育發展的方向,廣州教育信息化建設始終走在全國的前沿。從2002年開始建設廣州教育科研網,鋪設光纖總長度約25000公里,接入單位近2000家,聯網電腦數在30萬臺以上,覆蓋城鄉各級各類學校,成為目前國內規模最大的基礎教育光纖城域網。在完善硬件建設的同時,廣州注重教育網絡資源的建設,從2004年啟動“教育e時代”工程開始,市教育信息中心先后購買或建設了多種類型的教育資源。各區也結合自身的優勢,探索建設具有區域特色的資源庫。到目前為止,廣州市、區兩級教育部門積累的教育網絡資源超過100T。形成了共建共享、內容豐富、形式多樣的教育信息資源體系。隨著資源總量的增大和類型的增多,隨之產生了非結構化、異構等問題,導致資源的查找、索引比較困難,優質資源淹沒在海量資源中,造成網絡資源使用率低。如何利用挖掘技術有效地提高資源的獲取速度,從而提高資源使用率呢?
基礎教育網絡資源包括素材類教學資源,如文本、圖形/圖像、音視頻等媒體素材,以及集成型教學資源,如課件、研究性學習專題、網絡課程等。具有內容豐富、數量龐大、增長迅速、覆蓋面廣等特點。因格式和種類繁多,采用傳統數據挖掘方法對此類資源進行挖掘的效果不佳。廣州市基礎教育網絡資源挖掘策略是在云計算環境下,采用搜索引擎和Web緩存兩種挖掘策略,來為廣州市教育科研網內部用戶查找教育資源提供服務。
1.廣州市教育搜索引擎
廣州市教育搜索引擎是在參考國內外其他學者研究的基礎上,經過實踐探索自主研發基于NUTCH實現的全網檢索引擎。在教育網絡資源挖掘檢索方面,該引擎首次采用行業搜索引擎和“垂直”搜索引擎技術,依據自主用途排位的排序算法,通過爬蟲和分詞關鍵技術實現對網絡資源的挖掘,并對中文分詞做個性化處理。
2.緩存挖掘策略
緩存技術具有減少網絡帶寬消耗、降低服務器壓力、減少網絡延遲等特點。在廣州教育科研網出口網關處部署緩存服務器,可以充分利用教科網內帶寬充足、運行穩定的優勢,針對基礎教育網絡資源采取緩存挖掘策略,以實現對資源的監控、重定向和緩存。緩存技術策略不僅作為教科網內部用戶與網內資源服務器之間的橋梁,也是用戶與外網資源服務器之間的橋梁。
三、云服務支持的基礎教育網絡資源挖掘的實現
1.教育網絡資源搜索引擎挖掘策略的實現
研究采用云服務下的搜索引擎為工具,以廣州市、佛山市、中山市的網絡學習資源為研究對象,依據以下八部分關鍵技術來實現,其實現過程分析如下。
(1)教育網絡資源網絡地址集合分析
廣州市基礎教育網絡資源的地址集合由廣州市年度教育信息化調查獲取的網絡地址、廣佛同城化教育信息化專項建設時佛山市提交的網絡資源地址、中山市教育網絡資源地址三部分組成。搜集整理的網絡地址集合如表2所示。搜索引擎機器人以搜集的這三部分網絡資源網址為入口,理論上,通過超鏈接的方式,能鏈接到絕大部分網頁。
(2)集合地址內容及狀態更新操作
利用搜索引擎inject操作,調用搜索引擎的核心包crawl對上述教育網絡資源地址集合庫進行網絡地址狀態的檢查、更新和分析,其主要的操作有:①對每個網址進行格式化和過濾,消除非法的網絡地址,設定每個網址的狀態,按照一定的方法進行初始化分值;②合并消除重復的網址;③將網址的狀態、分值存入crawldb數據庫,與原數據重復部分需更新。
(3)創建抓取列表并生成對應目錄
本步驟實現創建抓取網址的列表,并以時間為名存放在segments目錄下。其操作實現分為:①從上述crawldb數據庫中取出網址并進行過濾;②對網址進行排序,通過網址、鏈接數和hash宣發綜合進行降序排序;③將排列列表寫入segments目錄中。至此,教育搜索引擎基本完成了網址內容抓取的所有準備工作。
(4)頁面內容抓取
頁面內容抓取功能是將網址打開后的具體內容抓取出來,存放在對應的segment目錄下。其過程分為:①按照segments目錄下的抓取列表執行抓取動作;②抓取過程中頁面中的其他網址可能改變,此時更新crawldb數據庫中的網址;③為提高抓取速度,抓取程序啟動多線程;④抓取操作過程中調用解析程序解釋抓回來的數據。通過網絡資源庫網址頁面的內容抓取,至此將所有目標資源庫的內容已經抓取到廣州市基礎教育網絡資源搜索引擎庫中。
(5)解釋抓取的文本和數據并存放
解釋操作主要完成對抓取回來的頁面進行文本和數據的解釋分析并歸檔存放到segments對應的文件夾中。具體來說,其操作為:①整理由抓取程序反饋的數據,將頁面內容分為數據和文本兩部分;②數據主要是頁面的題名、作者、日期、鏈接等內容;③文本主要指頁面中的文本內容。
(6)更新網絡資源地址集合
根據segments目錄下面的解釋分析出來的內容,對crawldb數據庫進行更新,為下一輪抓取做準備工作。
(7)索引前的狀態更新
更新linkDB,為接下來建立文本內容和數據內容的索引工作提供準備。
(8)索引過程
為給網絡資源學習使用者提供方便,本步驟主要是將抓取回來的數據轉換成文本,分析文本,并將分析過的文本保存到數據庫中。其實現過程為:①索引前,將數據轉換成文本字符流;②對數據索引前,進行預處理,使之更加合適被索引;③將分析過的文本保存到數據庫中。搜索引擎挖掘策略通過上述八個步驟的操作,實現了廣州市基礎網絡資源庫搜索引擎的建立。
2.緩存技術挖掘策略的實現
廣州市教育科研網內的用戶在訪問教育網絡資源時,首先判斷是否符合資源描述數據庫。如果符合,則實現訪問路徑重定向,把存放在系統或緩存中的文件路徑返回給用戶,用戶可以直接從內網下載所需資源,否則再通過互聯網獲取。在減少網絡出口帶寬負擔的同時,大大改善了用戶的體驗。其實現過程分為:①網絡資源使用者向源外網服務器發起請求,請求被重定向子系統捕獲;②重定向子系統針對所有用戶的請求進行解析,統計當前的網絡熱點內容;③當該資源達到了設定的熱點內容閾值,且沒有被緩存系統緩存,將請求轉發至緩存子系統的資源管理設備;④資源管理模塊解析用戶請求,如符合系統緩存策略,則將該下載任務分發至當前性能最優的緩存服務器;⑤緩存服務器沒有保存該內容,向負載均衡模塊請求用戶下載信息;⑥資源管理設備返回相應的文件索引信息;⑦緩存服務器向外網的源服務器發出請求;⑧外網服務器返回該資源對應的下載地址給緩存服務器;⑨緩存服務器向外網服務器節點請求內容;⑩緩存服務器從外網服務器節點下載文件內容。
四、網絡學習資源挖掘策略應用效果分析
廣州市教育科研網內用戶對教育網絡資源的檢索需求量比較大。通過實施教育網絡資源挖掘策略前后的記錄比照分析發現,利用搜索引擎和緩存系統,可以為用戶提供快速的網絡資源精準定位服務,能極大改善用戶訪問或下載網絡資源的體驗,從而提高資源的利用率,并有效減輕教育科研網出口的負擔。
1.搜索引擎應用效果分析
廣州市教育搜索引擎在2011年投入使用后,研究者對其檢索的關鍵詞做了技術統計發現:通過廣州市教育科研網進行的信息搜索中,66%是搜索網絡學習資源,平均每天超過1千次;搜索其他類型資源的比例為44%。此外,通過對檢索分詞的分析,用戶對網絡信息資源的檢索技能欠佳,主要表現在關鍵詞的選擇不恰當以及不會熟練使用高級檢索功能,導致出現誤檢或漏檢等現象,沒有達到預期的檢索效果。教育搜索引擎的精準檢索,大大提高了網絡學習資源的精準定位,從而提高了資源的利用率。
2.緩存應用效果分析
緩存系統動態搜集了12個區的教育網絡資源,到目前為止共緩存的容量超過13T容量的資源。在此基礎上,緩存系統平臺利用緩存技術對被挖掘出來資源的路徑、文件名等進行梳理,并分類整合,形成緩存文件推送和分享平臺?;诒酒脚_,廣州市教育科研網用戶可以快速地發現網內其他用戶關注的熱點教育資源,快速下載熱點文件,也可以分享自己的網絡學習資源。緩存系統從2011年12月到2014年7月,文件分享平臺訪問人數已達到563179人次。在異構環境下,緩存策略的實施能通過文件的索引重構、分類推送、熱門分享等手段有效地解決學習者資源索引困難等問題,大大提高了網絡學習資源使用率。
五、結論
研究在云服務的支持下,通過搜索引擎技術和緩存系統平臺技術的挖掘策略,有效地解決了教育網絡學習資源在使用中存在的索引困難、查找困難等使用問題,從效果分析來看,云服務支持下的網絡學習資源挖掘策略,能較好地解決廣州市基礎教育網絡學習資源利用率不高的問題,提高網絡學習資源的利用率。隨著人們對網絡資源的日益依賴,基礎教育網絡資源呈爆炸性增長的態勢。本研究提出了在海量的教育網絡資源中能快速、準確查找的兩種方法,但隨著互聯網絡的發展,研究在如何保證資源的正確性、準確性、可用性等方面沒有做相關研究,一定程度上也阻礙了網絡學習資源的進一步利用,這是本研究的不足之處。下一步,研究者針對網絡學習資源的利用和推廣做進一步研究。
作者:伍曉峰 單位:廣州體育職業技術學院