由KNIME工作流批量生成疫情空間分布熱力圖,并由另外的工作流將所有圖
片合成GIF動圖,疫情隨日期如何發展到被控制的整個過程,規律躍然紙上。
KNIME,即 KoNstanz Information MinEr 就提供了一個這樣的數據流構建環境。圖2-2 是在 KNIME 中實現一個小型數據分析流的截圖。在圖的中間部分,數據流從兩個數據源讀取數據,然后在預處理、建模、可視化等若干個分析流或節點中并行地處理。在圖的左邊是節點庫,從這些種類繁多的節點中,我們可以選擇數據來源、數據預處理實施、建模的算法,以及可視化工具等節點,然后把他們拖拽到中間的編輯區內,在這里對節點之間進行連接。軟件系統的圖形化、可交互式查看視圖、標記數據的能力(即可視化刷:visual brushing), 使得用戶能夠隨時隨地探索分析數據集合。KNIME 是用Java語言寫的,它的圖形化的工作流編輯器是以Eclipse插件形式實現的。通過開放的API 借口和已有的數據抽象的框架,軟件擴展變得十分容易,也讓開發者能夠以一個十分規范良好的方式,更有效率地為軟件添加新的節點。
在 KNIME 中,用戶可以構建工作流1,其中包括處理數據的節點,以及承載在節點之間流通數據的管線。數據流通常是從一個讀取數據的節點開始,該節點從某數據源讀取數據。數據源一般都是文本文件,但某些特殊節點,也支持查詢數據庫來獲取數據。導入的數據存儲在內部的一個基于表的結構中,該結構包含一定的(但可擴展)數據類型(如:整數、字符串、圖像、分子結構等),此外還含有一定數量的符合列屬性行的數據。這些數據表通過管線傳送給其他的節 點,以便進一步執行修改、變換、建模或是可視化的處理。修改可以包括處理缺失的數據、篩選指定的列或是行、過度取樣、將數據表分割為訓練數據和測試數工作流:workflow,
綜上所述,KNIME提供了一個模塊化的軟件框架,為可視化組件和交互執行數據流程提供了一個圖形化的工作平臺。它具有一個強大而直觀的用戶界面,易于和新模塊或節點集成,而且用戶可以交互式探查分析結果或是訓練后的模型。通過與一些諸如Weka機器學習和R統計軟件等強大的庫進行集成,它形成了一個可以應對各種數據分析任務、功能強大豐富的平臺。
KNIME 2.0 新版本中的新特性,特別是對循環的支持、數據庫連接操作以及PMML 進一步增強了 KNIME 的能力,使其成為一個強大的數據探索和分析的環境,同時它也具有優良的集成擴展能力,可以輕松地訪問很多其他的數據處理與分析包。