采集技術范例

前言:一篇好的文章需要精心雕琢,小編精選了8篇采集技術范例,供您參考,期待您的閱讀。

采集技術

網絡資源自動采集技術反思

摘要:人類已經進入大數據時代,大數據產生了巨大的社會價值和商業價值,如何高效地獲取數據,已成為提高未來競爭力的關鍵要素。網絡爬蟲就是一種高效的信息采集利器,利用它可以快速、準確地采集我們想要的各種數據資源。但是隨著互聯網和Web技術的發展,各種反爬蟲措施的使用,給網絡資源采集帶來了很多困難。因此,為了準確高效地采集到需要的數據,網絡爬蟲也采取了具有針對性的反制措施。本文介紹了網絡信息自動采集技術相關的基礎概念和原則,研究并歸納了網絡信息自動采集技術的存在的主要難點和解決問題的主要技術手段。

關鍵詞:網絡資源采集;反爬蟲;Scrapy;Selenium

0引言

人類社會已經進入大數據時代,大數據深刻影響和改變著我們的工作和生活。隨著互聯網、移動互聯網、社交網絡等的飛速發展,產生了巨量的大數據,蘊含著前所未有的社會價值和商業價值。尤其是人工智能浪潮的興起和深度學習技術的突破,不論在工程領域還是研究領域,數據已經成為必不可少的一部分。大數據成為21世紀最重要的經濟資源之一,正如馬云所說:未來最大的能源不是石油而是大數據。如何高效的獲取數據,并對互聯網上的非結構化數據進行清洗,得到結構化數據,以及對數據進行挖掘、分析的能力,成為企業提高未來競爭力的關鍵要素[1]。

1網絡資源采集基本原理和基礎原則

把互聯網比作一張巨大的網,網上的每一個結點就相當于這張網上的一個節點,而采集的程序就相當于網上的一只小蜘蛛,根據定制的規則,批量的獲取所需要的資源數據,就是這只“小蜘蛛”所要完成的工作。因此,網絡資源采集又叫網絡爬蟲(Webcrawler)或網絡蜘蛛(Webspider)。簡單來說,網絡資源采集就是獲取網頁并提取和保存信息的自動化程序,主要分為三步。

1.1獲取網頁

閱讀全文

用電信息采集通信技術應用

一、用電信息采集系統

用電信息采集系統主要是是將小區的用戶的用電信息進行收集,然后進行處理以及實施監控??梢杂行У耐晟朴秒娦畔⒉杉南到y平臺,可以達到一個全自動化的目標,滿足SG186的信息化深化的應用要求。用電信息采集系統通信構建主要有兩個層次。第一個是遠程通信:主站系統與集中器間的通信;第二層次是本地通信:集中器和表計之間的通信。在用電信息采集系統中,因為采集過程比較復雜,以及采集數據很大,使得采集工作比較困難。同時,因為集中器和用電信息采集系統進行通信的時候的系統容量比較大,所以這都要求光纖通信來進行支持。

二、EPON通信技術

EPON通信技術,是一種新興的寬帶接入技術,全稱以太網無源光網絡(EthernetPassiveOpticalNetwork,EPON),在物理層采用無源光纖網絡(PassiveOpticalNetwork,PON)技術,在鏈路層使用以太網協議,最后通過利用PON的拓撲結構實現以太網的接入。所以EPON技術具有兩個方面的優點,以太網技術以及PON技術,具有寬帶速度高、擴展性強、兼容性好等系列的特點。EPON采用的是一點到多點的結構,所以在具體操作中拓撲結構比較靈活,可以組成數形、星形以及總線形等結構。

三、EPON通信技術在用電信息采集系統中的應用

1、需要考慮的問題。

(1)分光必須要綜合考慮到ONU到OLT的距離,以及在傳輸中會發生的損耗,所以對光分配網絡進行專門的設計。為了使得PON網絡能夠得到最大的覆蓋范圍。(2)當建成以后,如果新增節點,需要重新計算網絡中的ONU關系以及分光器。

閱讀全文

自動化數據采集技術現場管理應用

摘要:

數據自動化采集技術是建筑施工現場管理中的一種新信息技術。該技術的運用是跟蹤定位項目對象,實時傳輸數據信息,并通過計算機處理分析數據信息,進而向現場監控人員傳遞施工現場的具體情況,從而對施工現場進行有效監控和管理?;趶娀ㄖ┕がF場管理的目標,本文從功能用途方面對數據自動化采集技術進行分類,再對數據自動化采集技術在建筑施工現場管理中的應用展開深入研究,希望對提高施工現場管理水平有一定的借鑒作用。

關鍵詞:

自動化數據采集技術;施工現場管理;應用

0前言

一般而言,實時有效的施工現場數據信息收集對建筑工程管理有重要影響。傳統的數據收集技術需要消耗大量的人力、財力、時間等,現場監控人員往往需要消耗近一半的時間來收集和處理數據信息,而且人工數據收集對工作人員有一定的經驗要求。然而復雜繁瑣的人工數據收集往往導致信息不及時或者數據誤差較大等,造成決策失誤、效率低下等問題。先進自動化技術和信息技術促使施工現場高效管理的實現。借助數據自動化采集技術來跟蹤定位項目對象,并及時傳輸和處理數據信息,進而向現場監控人員傳遞施工現場的具體情況,從而對施工現場進行有效監控和管理。

1建筑施工現場自動化數據采集技術

閱讀全文

復雜地區可控震源高效采集技術探討

在多年的勘探實踐中,中國石油東方地球物理公司吐哈物探處通過大量的理論分析和現場試驗,2005年和2006年在國內率先提出了可控震源拆分振次和交替掃描技術,在之后的幾年中,發展并應用了拆分振次和交替掃描聯合應用技術,2011年在國內又首次成功試驗了滑動掃描技術,2012年利用KZ34重型震源和滑動掃描技術研究并應用了拆分臺次技術。上述技術的應用,大大地降低了單炮激發成本,為高密度、高覆蓋、寬方位三維地震勘探技術的應用提供了經濟支撐。與此同時,也探索出了一套諧波壓制和基于勘探目標的可控震源參數優化設計技術。這些技術的應用,大幅提高了生產效率,為觀測系統優化提供了廣闊的空間,使得高密度三維地震勘探技術得到工業化應用與推廣,地震資料品質大幅提升,獲得了良好的勘探成果。同時將這些技術應用到探區外的地震采集項目中,也見到了明顯的效果。

可控震源高效采集技術

目前,國內可控震源高效采集技術主要有拆分振次技術、交替掃描技術和滑動掃描技術,這些技術已在國內油氣勘探中得到普遍應用。

1.拆分振次技術

以往可控震源施工中,多采用4臺8~12次振動,生產效率很低。根據疊加原理可知,不同路徑共反射點的水平疊加(多次覆蓋)效果優于相同路徑多次振動的垂直疊加,根據近年來的生產實踐和試驗,筆者認識到振動次數對資料品質影響很小,而震源組合臺數影響較大。在此認識和試驗的基礎上,提出了可控震源“拆分振次”的概念,即將一個炮點的多次振動拆分成多個炮點的一次振動(圖1),同時適當增加震源組合臺數,拆分后面元成倍縮小,炮點密度成倍增加,而激發成本并未增加,甚至還有所降低。這樣,就較好地解決了方法和成本之間的矛盾。該技術2005年首次應用到了TH盆地油田開發地震項目中。

2.交替掃描技術

在常規可控震源施工中,當震源從一個點搬到下一個點期間,儀器就要等待,如果區內障礙物多,震源搬遷時間長,儀器等待的時間會更長,這樣將大大降低施工效率。為此,筆者首次提出并應用了兩套震源交替掃描的施工方法。交替掃描是指使用兩組或多組震源交替作業,一組震源掃描時,另一組震源移動搬點,待第一組掃描記錄結束后,第二組震源已經到位并開始掃描,這樣就實現了儀器不間斷記錄,從而縮短了由于震源搬點帶來的生產間隙停歇,大大地提高了生產效率。

閱讀全文

數字采集傳輸技術在采油工程的運用

摘要:把大數據、物聯網、互聯網、人工智能技術以及5G運用到數字化采油用中,大大提高采油的效率。基于智能化、數字化技術,分析油廠采油過程中的數字采集和傳輸技術應用,提高經濟效益。

關鍵詞:智能化;數字化;信息化;物聯網;大數據

1引言

為響應國家兩化融合“以信息化帶動工業化、以工業化促進信息化,走新型工業化道路”的號召,進一步提高采油系統數字化和自動化應用力度[1-5]。長慶油田率先部署,與中科院合作進行作業區采油智能化系統的開發與試驗。采油智能化系統是將每一口油井,每一個井場,每一個工作站的設備用數字化技術合為一體,通過互聯網、物聯網技術物物互聯,整合應用硬件和軟件,完成實時采集、上傳、分析和優化,實現“井筒熱洗智能清蠟提效果,抽油機運行平穩節能提效益,井筒抽汲參數優化提效率”的目標,實現以作業區為基礎網絡平臺的數字化運行和數字化監管。

2現狀分析

采油廠擁有較成熟的油井實時數據采集系統,井場采集的數據采用無線傳輸,數據匯集后通過光纜傳輸到站控?,F在的采油作業區SCADA系統總體架構如圖1所示。采油廠擁有較成熟的油井基礎數據,對油井深度,油井泵效,采油的地質情況、機站、配水間等數據都有所統計。采油廠當前對抽油機的效率,油井產量效率及油井的結蠟情況都有一定的研究,只是在對歷史數據的利用方面有所欠缺,在對數據進行分析時的基礎數據利用有待增強。

3解決方案

閱讀全文

通信技術用電信息采集系統研究

1對低壓電力線載波通信技術的分析

低壓電力線載波通信技術是采用電力線通信的技術,以電力線為信號傳輸媒介實現信息的收集、處理和傳遞。它的優點主要體現在以下幾個方面:(1)因為它不需要為通信建立實質上的線路,于是節約了電力通信的成本。(2)它自身的操作極其簡單、方便。(3)它能更加充分地利用通信技術系統中的資源。雖然,低壓電力線載波通信技術具有以上這些優點,但是它自身也存在著一些缺點。比如,當它自身處在一個條件比較差的環境中時,通信技術系統不能很安全地傳送信息。因此,改善通信的環境,是目前唯一能夠實現信息安全傳送的辦法。在當代的電力通信事業中,電力線載波通信技術又被分為了兩種:第一種是基于寬帶的電力線載波;第二種是基于窄帶的電力線載波。而低壓電力線載波通信技術采用的是第二種電力線載波通信技術。

2簡析低壓電力線載波通信技術在用戶信息采集中的應用

2.1低壓電力線載波通信技術的工作原理

低壓電力線載波通信技術分為兩個部分:一是對載波進行調解的通信部分;二是對載波進行路由選擇的通信部分。

2.1.1對載波進行調解的通信部分

它的通信工作機制是:當開始進行信息傳送時,將這些信息調解成一種特定的信號,這種信號通過電力線的傳送路線,被準確地輸送到接收方,最后又恢復成為原來的信息。在現代電力事業中,載波調解時所用到的技術主要是頻率偏移控制技術、頻段相位改變控制技術和直接擴展頻率控制技術。

閱讀全文

網絡信息采集技術資源建設研究

【內容摘要】

隨著我國經濟發展的需要,高素質人才的缺口越來越大,為此,強化教育教學,提高人員素質成為了社會發展必須要解決的一個重大問題。在教育重視程度不斷強化的基礎上,教育教學的理念和技術有了顯著的發展,更多的先進技術在教育中得到了應用,教學資源的豐富化也在進一步實現。就目前的教學現狀而言,積極進行教學資源的建設,一方面可以提升教育教學的廣泛性,另一方面可以強化教學的深入性,所以利用現代化方式采集資源意義重大。網絡技術和信息技術是現階段利用的較為普遍的技術,此技術的突出優勢是信息傳遞速度快,而且采集范圍廣,對于教學資源的建設有著重要的意義,所以本文就網絡信息采集技術輔助教學資源建設進行研究分析,目的是積極探討技術利用,從而建立起更加規?;蛯I性的教學資源。

【關鍵詞】

網絡信息采集技術;輔助教學;資源建設

教學資源建設是現代教育教學的一項重要內容,強化資源建設不僅可以豐富教學內容,而且通過教學資源的共享,實現教育教學質量的整體提升。過去的教育資源采集,主要依靠的是渠道的力量,但是由于渠道建設的投入巨大,而且效果不顯著,所以積極探討其他教育資源建設采集方式意義重大。目前的社會,信息技術和網絡技術應用廣泛,網絡資源更是層出不窮,所以積極利用信息網絡技術,進行網絡信息的采集,可以更好地幫助教學資源的采集,從而實現教學資源庫的建設,進而幫助教學質量的提升。

一、利用網絡信息采集技術輔助教學資源建設的客觀性

(一)網絡信息采集技術利用的必要性。

閱讀全文

網絡視聽節目監管系統數據采集技術

[摘要]文章根據目前網絡視聽節目監管系統中視聽節目數據采集技術的現狀,通過分析歸納出目標Web 頁面編碼元素的共有特征,提出一種基于視聽節目識別技術的通用型模板主題爬蟲程序,并分析研究網站遍歷策略及多進程協同并行執行策略等關鍵技術,以大幅降低網絡視聽節目監管系統的維護成本,提高其監管工作的智能化水平,為研究建立高效的網絡視聽節目監管系統提供參考。

[關鍵詞]網絡視聽節目;主題爬蟲;廣度優先搜索;多進程調度

近十年,網絡視聽媒體發展迅速,視聽節目傳播數量呈爆發式增長,并呈現數據更新頻繁、內容豐富多樣等特點。網絡視聽媒體平臺在提供豐富多樣的節目的同時,也為一些“丑、色、怪、假、俗、賭”等各類違法違規信息提供了傳播渠道,損害了網絡視聽媒體的影響力和公信力,助長了社會不良風氣。因此,建立智能化的網絡視聽節目監管系統,推動監管系統創新發展,在海量數據信息中快速、準確地提取出視聽節目,及時發現和解決各類違法違規問題,對構建風清氣正的網絡視聽環境具有積極意義。目前,大多數網絡視聽節目監管系統主要通過定制模板爬蟲程序的方式來采集目標網站數據信息,此類模式的爬蟲程序需要人工歸納和提取目標網站 Web頁面中視聽節目的所屬板塊、上傳者、下載地址等信息來作為該網站爬蟲程序的模板。其優點是采集數據準確率高,但若網站發生改版,模板程序匹配不到對應的屬性信息,則會導致無法抓取到網站數據,這就需要技術員重新修改爬蟲程序模板,才能采集到所需數據。此類定制模板爬蟲程序根據特定網站屬性而制作,因此不適用于其他網站數據信息的采集,其擴展性和通用性較差。文章研究通用型模板主題爬蟲程序,使其普遍適用于網絡視聽節目服務網站的視聽節目數據采集,并為構建智能化網絡視聽監管系統提供具有參考意義的案例。

一、通用型模板主題爬蟲程序的實現

主題爬蟲程序是一個自動提取與主題信息相關網頁的搜索程序。其具有三個方面的核心技術問題,一是設定采集數據目標的描述或定義;二是網頁數據信息的過濾與分析;三是網站 URL 的遍歷策略。文章討論的通用型模板主題爬蟲程序預設置主題相關信息為視聽節目特征元素,采用文字密度頁面分析技術,提取出與主題相關的視聽節目鏈接,而網站遍歷策略則以廣度優先搜索策略與“海撈”算法相結合的方式來采集目標數據信息。

(一)視聽節日特征元素

在網絡視聽節目服務網站中,不同的開發者雖然在采用技術及代碼方面存在一定的差異,但是也會遵循統一的技術規范。文章在對大量 Web 頁面傳播視聽節目的代碼進行分析研究的基礎上,經由高層次抽象提取、歸納,提取出視聽節目在 Web 頁面代碼中的共同特征信息,作為通用型模板主題爬蟲程序的主題目標信息,此種主題爬蟲程序能普遍適應大多數互聯網視聽節目服務網站的數據采集。在通常情況下,Web 頁面中的視聽節目編碼的后綴名信息、 引用播放信息、播放器加載信息、特殊播放格式信息等,均遵循一定的規律特征,主要表現為以下幾種情況。一是 Web 頁面中視聽節目的后綴名編碼規則。在通常情況下,視聽節目常用格式有 MPEG、AVI、ASF、MOV、WMV、3GP 等,這些文件格式在 Web 頁面中的代碼也以相應的視聽文件后綴名格式出現,如 MPEG 文件格式視聽節目在 Web 頁面中編碼的后綴名為“.mp4”,AVI 文件格式視聽節目在 Web 頁面中編碼的后綴名為“.avi”等。二是 Web 頁面中引用視聽節目也具有一定的編碼規則。為了提高網站數據資源的豐富性,有部分視聽節目服務網站傳播的視聽節目除了本網站所屬服務器的資源,還調用其他媒體平臺的視頻資源,如引用央視網、優酷、騰訊、愛奇藝等媒體平臺所提供的視聽節目源。這些引用站外平臺節目源的網站在 Web 頁面中會出現引用媒體平臺的 URL 地址相關標識。 比如,某網站引用央視網網站平臺的視聽節目資源,則在該視聽節目展示區域的 Web 頁面編碼中就會含有“cctv.com”等元素。三是 Web 頁面中加載播放器信息的編碼規則?;ヂ摼W視聽節目服務網站為用戶提供視聽節目服務,需要在 Web 頁面代碼中加載播放器相關信息。目前被廣泛使用的播放器的類型主要分為專用播放器、流媒體、flash、現代播放器等。流媒體是目前網絡平臺較為流行的視聽媒體傳播格式,其常見的格式有 M3U8、RA、RM、SWF 等。其傳播方式是把視聽節目壓縮后,按規則將視聽節目拆分成多個小片段,以視頻流(視頻片段)的方式發送至用戶端,當特定播放器接收到視頻流(視頻片段)后,用戶即可邊播邊看。此外,有部分網站也通過調用專用播放器的形式為用戶提供視聽節目在線觀看服務,例如調用愛奇藝、優酷、騰訊、嗶哩嗶哩等平臺研發的專用播放器。另外,也有部分網站采取調用 player 等通用播放器的方式為訪問用戶提供視聽節目在線觀看服務。在 Web 頁面中加載這些流媒體播放器、專用播放器等播放器信息,頁面編碼均呈現特定的編碼規則,如含有“showPlayer”“player.video.qiyi.com”“flvplayer.swf”等播放器信息編碼元素。四是特殊播放器在 Web 頁面中的元素特征。除了上述情況,還有部分互聯網視聽節目服務網站以加載特殊播放器的方式提供視聽節目,其頁面編碼也有相應的規律,如含有“aliyunlayer”“playerframe”等特征元素。通過分析上述幾種視聽節目特征元素發現,網絡視聽節目服務網站在為用戶提供視聽節目在線觀看服務時,其 Web 頁面中的編碼元素均具有一定規則,根據這些編碼元素的特征和規律,配置為主題爬蟲程序的目標信息,制作成基于視聽節目識別的通用型模板主題爬蟲程序。此類爬蟲程序作為網絡視聽節目監管系統中數據信息采集的重要手段,解決了原有定制模板爬蟲程序通用性較差等問題。主題爬蟲程序根據 Web頁面中含有符合視聽節目的元素特征的某一種或多種元素來判斷頁面含有視聽節目的概率,網站頁面的鏈接中含有符合視聽特征的元素越多,則該鏈接為視聽節目鏈接的概率就越大。在通常情況下,在程序調試及實際使用過程中,使用者根據網站采集數據的正確率,對主題爬蟲程序主題相關度的閾值進行調整,以提升程序采集的準確率。

閱讀全文
亚洲精品一二三区-久久