<tr id="ef5ww"></tr>
    <th id="ef5ww"></th>
    1. 【自有技術大講堂】數據驅動的AI(系列4):AI的數據集管理方式介紹

      網站首頁    行業信息    【自有技術大講堂】數據驅動的AI(系列4):AI的數據集管理方式介紹

      一、引言

       

      數據在深度學習中扮演著至關重要的角色,每個AI模型都使用數據進行訓練和評估,并且數據通常以靜態的數據集格式存在。數據集的復雜多變的特征從根本上影響模型的行為,如果一個AI模型的實際部署環境與它的訓練或評估數據集不匹配,或者這些數據集反映了非真實的偏向,那么該模型在實際部署中的性能將可預見地達不到所需要求。

       

       

      雖然數據來源在數據庫領域已經得到了廣泛的研究,但在AI深度學習領域的研究卻相對薄弱,收集并記錄數據集的創建和使用受到的關注甚至更少。盡管數據對AI很重要,但目前還沒有記錄深度學習數據集制作的標準化過程。

       

      為此,高視科技通常使用數據表的形式來規范自身數據集,實現數據集制作流程專業化,提升對數據的理解,促進深度學習模型訓練結果的更強大的可重復性。

       

      標準的數據集應附帶一個數據表,記錄其動機、組成、收集過程、推薦用途等。接下來我們將描述為數據集開發數據表的過程,使用寓問于答的形式,旨在引出數據集的數據表可能包含的信息,以及數據集創建者在回答這些問題時使用的工作流程。

       

      二、Q&A

       

      2.1 制作數據集的動機

       

      Q:創建數據集的目的是什么?腦海中是否有一個特定的任務?

      A:以高視科技的AI模型數據集為例,我們的最終目的就是能通過深度學習的方式完成不同場景的圖像分類或者目標檢測以及圖像分割任務。

       

       

      Q:誰來制作數據集?誰將使用制作完成的數據集?

      A:制作數據集需要算法工程師和標注工程師緊密配合,算法工程師先對數據集的需求進行評估,收集所需數據圖像,再由數據標注工程師接手給數據打標簽。最終也由算法工程師對標注完成的數據開展訓練,調參達到模型的最佳效果。

       

      2.2 數據集的構成

       

      Q:數據集的實例主要是哪些,比如圖像,自然語言?

      A:高視科技是一家機器視覺公司,所以我們的主要數據是圖像。

      Q:數據集的容量是多大?

      A:數據集的容量不固定,針對不同的場景,我們需要因地制宜,對于特征變化較多的場景,多多益善,才能達到一個穩定的泛化能力。

      Q:數據集是否包含所有可能的實例?

      A:通常情況是需要包含所有可能的實例,但是部分場景良率較高,有些缺陷出現的頻率也相對較低,很難短時間內收集到足夠的圖像數據,這時候就需要結合數據增強等方式來人為擴充數據。

      Q:單個實例之間的聯系是否明確?

      A:以圖像分類為例,存在兩個實例,假如屬于不同類別,那就至少需要有完全不同的信息作為區分;假如屬于相同類別,則需要兩者之間的類別信息差距越小越好。

      Q:是否建議對數據集進行切割?

      A:數據集需要包含訓練集,驗證集和測試集,可以按照8:1:1的比例進行劃分,為了直觀的看出模型的訓練效果,驗證集必不可少,同時測試集作為衡量模型最終效果的工具也必須存在,需要注意的是,這三者之間不能相交。

       

       

      Q:數據集中是否存在錯誤、噪聲來源或冗余?

      A:一般來講,數據集是肯定會存在噪聲的,我們可以做的就是盡可能減少無關信息的冗余,最小化錯誤標簽的出現。這就需要我們對數據了然于心,不斷清洗數據修正。

      Q:數據集是自包含的,還是鏈接或依賴外部資源(例如,網站,推文,其他數據集)?

      A:高視科技所使用的數據集均來自需要部署AI的場景,外部的數據集是無法滿足我們對特定任務的需求的,當然我們會使用在其他數據集預訓練好的模型。

      Q:數據集是否包含可能被視為機密的數據(例如,受法律特權或機密性保護的數據,包括個人非公開通信內容的數據)?

      A:高視科技十分重視數據的保密性,因此我們使用的數據完全的獨立,為保證客戶的信息不被泄露,我們都對圖像數據進行保護。除了個別開源通用的數據集,數據集的獲取方式也主要由客戶提供。

       

      2.3 數據采集過程

       

      Q:如何獲得與每個實例相關聯的數據?

      A:數據標注工程師首先對每種類別進行初步辨識,再去觀察圖像差異,實現數據集類別的分割,為避免數據集的污染,會多次循環反復觀察圖像特征。

      Q:使用什么機制或程序來收集數據(例如,硬件設備或傳感器,人工管理,軟件程序,軟件API)?

      A:數據都是由現場環境中的數據服務器提供,AI所需的數據也包含其中,可能無法直接使用,還需要進行編寫的一些腳本處理等等。

      Q:如果數據集是一個更大的集合中的一個樣本,那么抽樣策略是什么(例如,確定性的,帶有特定抽樣概率的概率)?

      A:抽樣的策略是要包含各個所需要的細分子類別,不能直接抽樣,否則會造成泛化性能較低。

      Q:誰參與了數據收集過程?

      A:現場技術支持工程師,圖像標注工程師,算法工程師。

       

      2.4 數據預處理/數據清洗/數據標注

       

      Q:是否對數據進行了任何預處理/清洗/標記? 如果是,請提供描述。

      A:在數據充足時,我們對數據著重進行清洗,防止過多的錯誤標簽。在數據不夠充分的時候,會考慮使用各種預處理的方式進行數據增強,例如:圖像翻轉,鏡像,平移,旋轉,隨機裁切等。

       

      數據增強示例圖

       

      Q:原始數據是否保存在預處理/清洗/標記數據之外(例如,以支持意外的未來用途)?

      A:原始數據我們會保存下來,除了預處理之后的圖像,原始圖像也會加入進去訓練,會對其進行一個重命名標記,方便以后查找區分。

      Q:軟件是否用于預處理/清理/標簽的實例可用?

      A:高視科技擁有自主研發的標注工具,另外我們偶爾會使用開源的軟件進行標注,包括但不限于LabelImg和Labelme等。

       

      2.5 數據集的使用

       

      Q:數據集是否已經用于任何任務?

      A:工業場景變化較多,單獨的數據集無法做到覆蓋所有需求。不過我們的目標是讓我們的數據集能盡量覆蓋相同需求的特定環境。

      Q:數據集可以用于什么(其他)任務?

      A:數據集可以用于圖像分類,目標檢測以及圖像分割,如果任務需求是在相同的環境中,那可以實現相同數據集的不同屬性的標注,完成不同的任務。

      Q:關于數據集的組成或者數據集的收集、預處理/清洗/標記的方式是否有任何可能會影響未來的使用?

      A:深度學習是數據驅動的,所以預處理的部分可能會導致某些特征的偏移,引入更多的噪聲等,需要結合相應的情況去清洗掉不符合現實狀況的數據,所以是會造成一定的負面影響,但是可以通過人為干預最小化。

      Q:是否有不應該使用數據集的任務?

      A:能否用于其他的任務,需要仔細了解需求,多方面評估。

       

      2.6 數據集的維護

       

      Q:誰將支持/托管/維護數據集?

      A:數據集的制作人員通常包含在數據集維護人員當中,為了提升效率,需要進行任務分工,主要由數據標注工程師進行支持、托管以及維護,算法工程師進行二次核對。

      Q:數據集是否會更新?

      A:數據集是會隨著時間推移進行更新,工業場景中,型號的更換會導致以前的數據集無法完全適配當前的環境,就需要不斷加入新的特征。

      Q:舊版本的數據集會繼續被支持/托管/維護嗎?

      A:舊版本的數據集我們會保留,如果是同一客戶,我們可以使用之前的數據集進行數據的遷移,減少開發時間,提升部署效率,所以舊版本的數據通常會繼續維護。

       

      三、影響和挑戰

       

      自從2018年3月開始,微軟、谷歌和IBM已經開始在產品團隊內部試用用于數據集的數據表。谷歌的研究人員發表了關于模型卡的后續工作,該模型卡記錄了機器學習模型,并發布了數據卡(一個輕量級版本的數據表)和Open Images數據集。IBM的研究人員制定了開發和部署AI技術的最佳實踐,正在基于數據集的數據表、模型卡和事實表進行全行業文檔指導。

       

      ImageNet數據集

       

      這些初步的成功也揭示了可能需要解決的實現挑戰,以支持更廣泛的采用。其中最主要的是數據集創建者需要根據他們現有的組織基礎設施和工作流修改問題和工作流。我們還注意到,這些問題和工作流可能會對動態數據集造成問題。如果數據集的變化不頻繁,我們建議在更新版本的同時更新數據表。

       

      四、總結

       

      數據集的數據表旨在滿足兩個關鍵利益相關群體的需求:數據集創建者和數據集消費者。對于數據集創建者,主要目標是鼓勵仔細思考創建、分發和維護數據集的過程,包括任何潛在的假設、潛在的風險或危害,以及使用的影響。對于數據集消費者,主要目標是確保他們擁有所需的信息,以便在使用數據集時做出明智的決定。

       

      高視科技在AI智能化工業檢測已經耕耘多年,總結出自己獨特的AI數據集的數據表制作經驗和流程,目的是運用于更加廣泛的工業場景,最大化AI模型的泛化能力,給客戶帶來更多更好的解決方案,賦能AI智造!

       

      2022年9月5日 09:11
      国自产精品手机在线观看视频,亚洲精品视频在线看,欧美老肥婆牲交videos视频

        <tr id="ef5ww"></tr>
        <th id="ef5ww"></th>