閱讀時,眼睛會快速的移動到不同的位置,這種快速移動稱為跳視(saccade)。在跳視之間,眼睛會在某個文字上做短暫的停留,這種眼球運動的特性稱為凝視(fixation)。研究中常以跳視的距離(saccade length)與眼球凝視的時間(fixation duration)作為指標,來探討閱讀內在的認知歷程。以英文為閱讀材料的研究發現,文字的平均凝視時間為200-250毫秒,而跳視的距離平均約7至9個字母(Rayner,1998)。而中文使用者在閱讀中文時,文字的平均凝視時間約為220-230 毫秒,跳視的距離平均為2.5至3.3個單字(蔡介立,2000)。
參考文獻
蔡介立(2000)。從眼動控制探討中文閱讀的訊息處理歷程:應用眼動誘發呈現技術之系列研究。國立政治大學心理學研究所博士論文,未出版,臺北市。
Rayner, K. (1998). Eye movements in reading and information processing: 20 years of research.Psychological Bulletin, 124(3), 372-422.
本體論譯自英文ontology,又譯存在論、存有論,它是形上學的一個基本分支,英語詞ontology是來源於希臘語單詞ον(存有)和λόγος(科學、研究、理論)的組合。本體論主要探討存有本身,即一切現實事物的基本特徵。
有的哲學家,如柏拉圖學派認為:任何一個名詞都對應著一個實際存在;另外一些哲學家則主張有一些名詞並不代表存在的實體,而只代表一種集合的概念,包括事物或事件,也有抽象的,由人類思維產生的事物。例如「社團」就代表一群具有同一性質的人組成的集合;「幾何」就代表一種特殊知識的集合等。
知識本體類似於字典或詞彙表,但訊息更豐富,以便於電腦處理其內容。知識本體以格式化的方式表達概念(Concept)、關係(relation)以及公理(axioms)。上層知識本體是將一般性、後設性(meta)、摘要性以及哲學類的概念指出,所以特殊領域的概念可由其中的概念所涵蓋,但特殊領域概念的知識本體則期許由各領域自行制訂 (Niles and Pease,2001; 2003)。
Lexical diversity 或稱 lexical variation是指一篇文章用詞遣字的豐富性。由於文章愈長時,已經出現過的字再度出現的機率自然就會愈大,因此純粹將整篇文章所含的不同字詞量除以文章的總字詞數 (i.e. number of word types divided by number of word tokens, TTR) 無法呈現此篇文章的詞彙豐富性。從1940年代起,就有許多研究者設計各種計算文章詞彙豐富性的公式,這些公式可以區分為三大類。第一類是將TTR做mathematical transformation,例如使用logarithm conversion。第二類是以文章中只出現一次或只出現兩次等等類型的字詞在文章中增加的速度來計算文章的詞彙豐富性。第三類則是利用字詞在文章中出現的頻率所構成的機率模型。但是到目前為止,這些方法仍舊無法擺脫上述文章愈長,則字詞再度出現的機率就會愈大對於詞彙豐富性計算的影響,而無法達到很好的計算效果。
參考文獻
Jarvis, S. (2002). Short texts, best fitting curves, and new measures of lexical diversity. Language Testing, 19, 57–84.
Jarvis, S. (2007). Vocd: A theoretical and empirical evaluation. Language Testing, 24(4), 459–488.
Malvern, D. D., Richards, B. J., Chipere, N., and Durán, P. (2004). Lexical diversity and language development: Quantification and assessment. Houndmills, Hampshire: Palgrave.
McCarthy, P. M., and Jarvis, S. (2010). MTLD, Vocd-D, and HD-D: A validation study of sophisticated approaches to lexical diversity assessment. Behavior Research Methods, 42(2), 381-392.
Tweedie, F. J. and Baayen, R. H. (1998). How variable may a constant be? Measures in lexical richness in perspective. Computers and the Humanities, 32, 323–52.
詞彙透明度是指一個由兩個字以上所組成的複合詞彙,其「組合後的整體意義」和「詞彙中各字的意思」間的關聯性。若是此複合詞彙的意義,可以藉由組成的字義來推論,可稱為「語意透明詞(semantic transparent) 」;相反地,若是此複合詞彙的意義並無法由各組成字意義來推論,則稱為「語意不透明詞(semantic opaque) 」。學術界對於這兩類型的詞彙進行了非常多的探討,大多著重在這兩種詞彙是否牽涉到不同的「次詞彙處理歷程(sub-lexical processes)」。一般認為,當我們在處理語意不透明詞時,詞彙的處理歷程會傾向將整個詞彙形成獨立的表徵;而在處理語意透明詞時,則會傾向將其組成字彙分開形成表徵,再透過推論組成字彙的意義形成整個詞彙的意義。
「表淺語言特徵」中提到有些研究者會透過計算音節、詞頻、句長,甚至字數、詞數等不同方式來計算一篇文章的可讀性。這些表淺的語言特徵(shallow feaure or textual feature)可以進一步歸類成詞彙、句法或語意等不同層面。Lexical richness(詞彙豐富性)即是在詞彙層面中常被討論及用來測量文章或語言使用者的詞彙複雜或多變程度,也因此常會在應用語言學或語言測驗的相關議題 中出現。Read (2002)談到詞彙豐富性中包含四個概念:lexical variation(或稱lexical diversity), lexical sophistcation, lexical density和number of errors。Lexical vatiation是指一篇文章中用了多少種不同的詞彙。Lexical sophistcation是指有多少是適合、切合主題的低頻詞,這包括了具有技術性、專業性或領域(jargon)性的詞彙。Lexical density則是指實詞和虛詞的比較。Number of errors就是錯誤次數,這些錯誤包括了用錯詞表意及詞型不符合文法結構。這四個概念被認為能用來瞭解文章的品質。
支援向量機是一種監督式學習的方法,SVM是用以分類的機械學習模型,其原理主要根據統計理論的結構化風險最小誤差(Structural Risk Minimization, SRM)(Vapnik & Chervonekis, 1974),以SRM找出可代表整個訓練模型的小樣本資料,即支援向量(support vectors),並利用它求得超平面(hyper-plane)後,便可將資料分類。
可讀性是指閱讀材料能夠被讀者理解的程度(Dale & Chall,1949; Klare,1963;2000; McLaughlin, 1969)。可讀性較高的文本具備某些特徵,例如:內文中有較容易閱讀的字詞彙(常見字、複雜度低、非技術性、意義清楚),句子中包含較少代名詞與複合詞或結構簡單,以及,內容符合讀者的先備知識,呈現方式適當地重述先前段落、提供相關知識,降低無關的干擾訊息等(Klare, 1963;2000; van den Broek & Kremer, 2000)
潛在語意分析是以數學統計為基礎的語意提取演算模式,透過奇異值分解(Singular Value Decomposition,SVD)從文章語料庫中自動化萃取詞彙之間所隱含的概念,稱之為「潛在語意空間」。將兩個目標文本以向量形式投影至潛在語意空間後,即可以向量空間模型(Vector Space Model,VSM)計算兩文本的語意關聯強度,並以餘弦值表示。這技術已經大量使用在文本分析研究,如Summary Street(Wade-Stein & Kintsch, 2004)評量學生所寫摘要與理想摘要間的語意關連度力。
Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6), 391-407.
Landauer, T. K., McNamara, D. S., Dennis, S., & Kintsch, W. (Eds). (2007). Handbook of Latent Semantic Analysis. NJ: Lawrence Erlbaum.
Wade-Stein, D., & Kintsch, E. (2004). Summary street: Interactive computer support for writing. Cognition & Instruction, 22(3), 333-362.
字詞彙是組成文章最基礎的單位,要理解一篇文章的內容,必須要先能夠辨識文章的字詞彙,進而提取相對應的字詞彙意義,進行推論、組織與統整。在閱讀過程中,讀者需辨識字詞彙、整合個別文字而成為一個句子層次的表徵,進行深層次的理解時,還需將個別句子整合成連貫的文本表徵,進而建構連貫的意義達成篇章理解(Kintsch, 1988; van den Broek & Kremer, 2000)。根據閱讀歷程進行文章可讀性研究時,可獲得比較有效度基礎的研究發現。
文本適讀性研究關心讀者與閱讀材料適配程度的議題,是決定讀者適合讀某一個難度材料的分類,為讀者與書籍適配程度的概念。在閱讀理解的研究中,接近適讀性概念是讀者的閱讀水準(reading level),適合閱讀水準的文本,通常容易產生較佳的理解表現。可讀性與適讀性都同樣重視文本難度,但決定個別讀者適合閱讀的文本,兩者都提供閱讀材料或文本難度的分類,不過適讀性包含更多變項,常運用在初學者的閱讀分級。至於適讀性則是探討特定文本與讀者群適配的程度,為考量讀者特性後,所提供關於文本適合某年級讀者的適配訊息。
可讀性公式就是以一個數學式來預測文章的難度,通常研究者會先找出影響文章可讀的指標,研究者通常假設語意與語法會影響文章的難度,因此詞長(word length)或詞頻就是常用的指標,詞長指一個語詞所包含的音節或字母數,代表語意,句長代表語法,通常詞長以及句子較長者難度較高。多數研究便據此概念發展可讀性公式。第一個可讀公式The Lively & Pressey formula (Lively & Pressey, 1923)。其後學界發展的拼音文字可讀性公式多達兩百個。如Flesch Reading Ease(Flesch, 1948)、Flesch-Kincaid Formula(Kincaid, Fishburne, Rogers, & Chissom, 1975)、Dale-Chall Formula(Chall & Dale, 1995)都是很常見的公式。
在可讀性的研究中,有些研究者會以計算音節、詞頻、句長,甚至字數、詞數等比較表面的語言特性,當成可讀性的測量指標,不過,簡單的計數方式並未考慮到閱讀歷程的複雜特性,文章的可讀程度受到很多因素影響,例如:內容、舉例、文長、課程、語言結構、判斷(judgment)與格式等,表淺的語言特徵無法反映這些複雜的成分。
凝聚性是文章組成的客觀特性,凝聚性或連貫性(cohesion)是語意上的概念,指的是文章或句子間的文法或詞彙的彼此關係。透過這些關係,將一連串的句子連接起來,使得文章不是零散的片段,而是語意上的完整單位,使其能夠被理解,在語意上意義的(semantically meaningful)。凝聚是閱讀理解的重要步驟,如果句子的連貫性較好,文章前後一致、語義聯繫連貫,就相對容易閱讀。而低凝聚力的文章則語意聯繫連貫、指涉推論較複雜而模糊因而相對困難。
凝聚性除了是文章組成的客觀特性,也是建構心理模型的重要成分,讀者需要透過語意詮釋與心理模型的建構,才能夠產生包含篇章意義的深層理解,進而建構較完整連貫心理表徵(coherence mental representation),達成較佳的理解。
根據Klare(1963, 2000)與van den Broek & Kremer(2000)的看法,可讀性較高的文本的特徵有下:
1. 詞彙容易:內文中有較容易閱讀的字詞彙(常見字、複雜度低、非技術性、意義清楚),採用具體而生活化的詞彙。
2. 句子結構簡單或包含較少代名詞與複合詞:或選擇使用較短、複雜度較低的句子,以減少讀者的認知負荷,使其將認知資源用於篇章理解。
3. 內容符合讀者的先備知識:與讀者經驗有關的材料,可讓讀者結合過去經驗增加文章處理的精緻程度。
4. 組織的形式良好:文章鋪排時與呈現方式會適當地重述先前段落,有組織的文章結構,可以讓背景知識較低的讀者減少推論的困難。
5. 提供相關知識:適當的補充讀者不足的背景知識,或語文章有關說明,讓讀者可以更容易理解。
6. 降低無關的干擾訊息:與主題無關的訊息盡量不呈現。