公交车扒开稚嫩挺进去小说,国产伦精品一区二区免费,粗大的内捧猛烈进出A片小说,亚洲精品久久国产高清情趣图文

香港商報
-- 天氣
合合信息攜手高校為古彝文「建庫」

合合信息攜手高校為古彝文「建庫」

責(zé)任編輯:嚴(yán)燕紅 2023-09-26 11:05:51 來源:香港商報網(wǎng)

    近期,合合信息聯(lián)合上海大學(xué)、華南理工大學(xué)發(fā)布業(yè)內(nèi)首個古彝文基礎(chǔ)編碼數(shù)據(jù)庫,該項目由合合信息與上海大學(xué)社會學(xué)院、華南理工大學(xué)文檔圖像分析識別與理解實驗室共同推進(jìn),針對現(xiàn)有的《西南彝志》、雲(yún)貴一帶字符,以智能圖像處理、智能文字識別等AI技術(shù)開展統(tǒng)一編碼,古彝文在數(shù)字社會中從此有了「身份證號碼」。

    以往,古文字主要通過人工識別、校正和進(jìn)行文獻(xiàn)編撰,工作量繁多且效率低下。近年來,人工智能,特別是深度學(xué)習(xí)技術(shù)的發(fā)展,為古文字識別提供了高效的工具,極大地提高了古代文獻(xiàn)和文字?jǐn)?shù)碼化進(jìn)程的速度和效率,本次古彝文基礎(chǔ)編碼數(shù)據(jù)庫的發(fā)布,將成為古文字?jǐn)?shù)碼化的重要成果之一。

    當(dāng)前,古彝文數(shù)碼化方面的成果相對較少,其原因之一是古彝文字符集龐大,且缺乏成熟的手寫樣本庫。據(jù)《滇川黔桂彝文字集》中所有字符的合計,古彝文和現(xiàn)在仍然使用的各地的彝文,總數(shù)多達(dá)87046字,對如此龐大的字符集進(jìn)行分類非常困難。另一方面,在彝文的發(fā)展過程中,由於種種因素,導(dǎo)致異體字、變體字特別豐富,字符和釋義「一對多、多對一」是常態(tài)。古彝文手寫體的隨意性、多樣性等,都給古彝文的識別帶來了極大的挑戰(zhàn)。

    基於上述情況,合合信息與華南理工大學(xué)共同成立的文檔圖像分析識別與理解聯(lián)合實驗室,聯(lián)合上海大學(xué)社會學(xué)院組建研究團(tuán)隊,共同解決數(shù)據(jù)庫建設(shè)中的學(xué)術(shù)性、技術(shù)性難點。

    項目技術(shù)負(fù)責(zé)人、華南理工大學(xué)電子與信息學(xué)院教授金連文表示,原生態(tài)彝文此前沒有被系統(tǒng)性地進(jìn)行數(shù)碼化編碼,古彝文沒有公開數(shù)據(jù)集,標(biāo)註困難,所以從最初語料的收集開始,就需要做大量的前置工作。再者,古彝文異體字繁多,每個字的異體寫法少則兩三種,多則幾十種,且字體間風(fēng)格差異大。因此,建立一個專門的數(shù)據(jù)庫,通過基礎(chǔ)編號將不同樣式歸納,才能「破解」古彝文「一對多」的關(guān)係,解決文字查詢問題。

    在對7萬6千字符的樣本進(jìn)行訓(xùn)練後,團(tuán)隊成功建立了包含上千個古彝文基礎(chǔ)編碼的數(shù)據(jù)庫。通過API數(shù)據(jù)接口等形式,該數(shù)據(jù)庫有望幫助高校研究人員、文化工作者、興趣愛好者等人群快速找到古彝文在字典中的讀音、漢語釋義、用法,如同「大字典」一般,幫助人們降低古彝文書籍、文獻(xiàn)閱讀的門檻。

2.jpg

    「古彝文數(shù)據(jù)庫的發(fā)布並非一個最終的研究結(jié)果,而是一項非常重要的基礎(chǔ)性工作?!构乓臀臄?shù)碼化項目發(fā)起人、上海大學(xué)人類學(xué)民俗學(xué)研究所講師邵文苑表示,基礎(chǔ)編碼的發(fā)布,意味著這些文字在數(shù)字社會裏從此擁有了「身份證號碼」,能夠被更多地展現(xiàn)在網(wǎng)絡(luò)空間上,被更廣泛的人群看見、認(rèn)識、研究。(宋?。?/strong>

責(zé)任編輯:嚴(yán)燕紅 合合信息攜手高校為古彝文「建庫」
香港商報PDF
股市
承印人、出版人:香港商報有限公司 香港商報有限公司版權(quán)所有,未經(jīng)授權(quán),不得複製或轉(zhuǎn)載。 Copyright ? All Rights Reserved
聯(lián)絡(luò)我們

電話:(香港)852-2564 0768

(深圳)86-755-83518792 83517835 83518291

地址:香港九龍觀塘道332號香港商報大廈