從開源繁中AI模型競相揭露看台灣如何握有主權AI

By張維君

Published2024-07-04

自去年Meta推出開源大語言模型Llama 2之後，台灣許多企業與研究機構紛紛以Llama 2為基礎模型來微調發展繁體中文的LLM，而今年4月Meta再次推出效能與資料品質都更好的Llama 3之後，各家繁中LLM模型也隨之發表新版本，從台智雲的福爾摩沙大模型、國科會TAIDE模型，到日前由台大、長春集團等業者合組的Project TAME所發表的繁中模型等，各家集結生態系傾力發展。

各模型有不同的目的與推廣方式，但共同的理念都是呼應主權AI的概念，台灣必須發展符合在地社會價值觀的語言模型。當然聯發科的達哥也不能忽略，其MR BreeXe是以Mixtral 8x7B為基礎模型來開發。

根據人工智慧科技基金會發布的「2023台灣產業AI化大調查」指出，台灣企業過半數已使用生成式AI，其中38.2%為個人或部門內使用，16%已導入到公司營運流程中。進一步看已使用者的應用方式，開發自己的AI模型者佔25.6%（約佔整體13.9%），而使用現成工具如ChatGPT、Midjourney者佔最多數達76.7%，而串連生成式AI服務商API開發自家服務者則佔31.8%。另一項由iThome所進行的「2024 CIO大調查」則顯示35.9%的受訪者為導入中或已上線，30.2%為計畫中，其餘未計畫者約33.9%。

工研院資通所組長李青憲日前在工研院生成式AI產業創新研討會演講提到，越來越多企業為了保護機密資料而選擇在企業內佈建開源模型。在地端將基礎模型微調成專屬領域模型可更符合產業應用需求，將專屬模型輕量化也有助降低推論運算成本及耗電量。李青憲也表示，現今並非只有加大模型才有競爭力，訓練資料量以及資料品質才是關鍵。例如Meta Llama 3的70B（700億）個參數模型是以15 兆個Token的資料量來訓練，資料量是模型參數量的2000倍；而微軟Phi-3則是使用教科書等級更高品質的資料訓練。

工研院目前也已協助產業導入生成式AI技術，以PCB產業瑕疵影像檢測應用為例，過去電路板在電腦視覺檢測方面常面臨假瑕疵比率過高，需要大量人工來複檢，造成檢測效率低落的問題。先透過搜集大量正常與瑕疵資料來做標記、訓練AI模型，之後在沒有資料的新機台上就可以用此模型生成新瑕疵資料來進行複檢。李青憲指出，工研院此項技術移轉給檢測設備業者後，軟體結合硬體設備已成功協助PCB大廠減少目檢員57%的篩檢量，提高29%終檢站產能，進而提升整體產線5%產能，目前已有16家PCB業者導入此AI瑕疵複檢技術。此外，工研院也協助其他產業將生成式AI技術用於製程配方、3D模型建構、報告產製、監管合規等應用。

儘管各家接連推出AI模型落地自建解決方案，但並非雲端AI服務就沒有市場，新創企業、訓練資料無關機密的應用或是不想管理伺服器的企業，選擇雲端AI服務省時省力。而想要訓練自主可控的AI應用，有技術能力者可以先試用各家開放下載的模型：台智雲、TAIDE、Project TAME，或是直接洽詢系統整合商。