( 促進資料創新利用發展條例草案,相關討論 )
完全同意 "先有資料,再求開放格式與結構化資料"
純文本資料,依原格式直接提供即可。
這就是我之前反覆在會議上講,大家為了衝五星標準,
反而把純文本資料下架,有點可惜。
請原諒我再囉嗦一下,只要是開放授權的資料 (機器可讀的資料),
無論格式是否為開放格式,就已經滿足開放資料的一星。
那如何反映在法條上,我也覺得有點難描述,或許放到實施行則 ?
母法:
* 機器可讀指一種資訊或資料的格式,無需人工干預,即可由電腦輕易處理,同時確保不遺失語意。
(這是 OPEN Government Data Act 的定義,可視台灣的需求更動或移除)
* 開放資料指採不限制使用目的、地區及期間方式授權利用,且為機器可讀之資料。
實行細則: 政府開放資料 - 政府所提供之機器可讀開放資料,在無損失原資料之語意的前提下,優先以開放格式或結構化格式提供。
新設資訊系統,或新資料蒐集,皆應優先將資料儲存成開放格式或結構化格式。
如果轉檔只有一點點跑版,沒有關係,但是如果整個表格壞掉 (影響語意),就不要轉檔。
但是新蒐集的資料要以開放格式,結構化格式儲存。
開放格式的定義其實很寬鬆:
開放格式意指無收費或不加其他限制於其使用上的格式,並可被至少一款自由開源軟體工具完整處理。
OPEN Government Data Act 沒有定義 開放格式 (open format)
pdf 也算開放格式,docx (OOXML) 也是 ISO 標準,
但是因為微軟常常在 docx 埋陷阱 (加了 OOXML 沒有的功能)
所以強制轉成 pdf or odt 常常會跑版,甚至舊版 word 會無法讀取新版 docx
反而不是 ISO 標準的 doc,轉檔比較沒有問題。
OPEN Government Data Act,機器可讀定義 :
the term ‘machine-readable’ means a format in which information or data can be easily processed by a computer without human intervention while ensuring no semantic meaning is lost;