Warning: eregi() [function.eregi]: REG_EMPTY in /home/37/97/2929737/web/includes/internal/Functions.php on line 125

Warning: Cannot modify header information - headers already sent by (output started at /home/37/97/2929737/web/includes/internal/Functions.php:125) in /home/37/97/2929737/web/init.php on line 132
Welcome To IVCE
 The Institute for Vietnamese Culture & Education
 
 Coming up events
 
 1. Screening of ""Facing to the ocean: selected documentaries from Vietnam"

 
 
 
 
 
 NhipSong Magazine
 
Nghiên Cứu Số Hóa Kho Tư Liệu Hán-Nôm Theo Chuẩn DUBLIN CORE- TS. Ngô Thanh Nhàn
 
 

Tóm tắt

 

Bài này báo cáo đợt khảo sát khả thi việc số hoá kho tư liệu Nôm tại Viện Thông tin Khoa học Xã hội theo hướng chuẩn Dublin Core nhằm tăng lượng người đọc.  Chữ Nôm (gồm cả Hán Việt) là chữ quốc ngữ hệ biểu ý ghi lại tiếng Việt hơn 10 thế kỷ cho đến thập niên 1920.  Trong khoảng thời gian dài ấy, mọi văn bản, tài liệu, v.v. hành chính, triều đình, bác học, tôn giáo, y dược, văn hoá, sử địa, pháp luật,… và gia đình đều ghi bằng chữ Nôm.  Tư liệu, gia phả, vật dụng, đền đài, lăng tẩm, bia mộ,… ghi bằng chữ Nôm vẫn còn đang có nguy cơ bị hư hỏng vĩnh viễn và mất hoàn toàn tri thức ghi lại bằng thứ chữ này.  Số hoá kho tư liệu Nôm gồm có việc scan và chụp ảnh, cùng với việc thiết lập một kho chữ Nôm mã hoá trong bộ chuẩn đa ngữ thế giới (như Unicode và ISO/IEC 10646).  Mục tiêu chính là đưa hệ chữ Nôm vào nền kỹ thuật mạng web quốc tế để thừa hưởng sức mạnh tri thức của nó.

 

Kho tư liệu Hán-Nôm của VTTKHXH gồm hơn 10.000 đơn vị sách, bản đồ, bản rập, ảnh, v.v. nằm trong chương trình đưa vào hệ thống thư viện.  Hợp tác giữa VTTKHXH và CVST gồm ba phần chính tập trung vào mô hình thư viện mạng internet: số hoá ảnh, số hoá văn bản, và sắp xếp theo chuẩn thư viện quốc tế Dublin Core.  Chúng tôi sẽ xem xét một vài tư liệu và trình bày trang mạng theo một hay vài cách tìm dùng yếu tố Dublin Core, theo cách truy cập của Google.

 

I. Giới thiệu

 

Thể theo lời mời của Gs. Hồ Sĩ Quý, Viện trưởng Viện Thông tin Khoa học Xã hội (VTTKHXH) vào tháng 6, 2006, Gs. Philip Alperson, Gs. Sophie Quinn-Judge, và Ts. Ngô Thanh Nhàn thuộc Trung tâm Triết học, Văn hoá và Xã hội Việt Nam thuộc Đại học Temple (CVST) đã họp và trao đổi với ban lãnh đạo VTTKHXH liên tục từ cuối tháng 7, 2007 nhằm hợp tác nghiên cứu số hoá kho tư liệu Hán-Nôm của VTTKHXH và nghiên cứu tổ chức chương trình đào tạo, huấn nghiệp về khoa học thư viện (library science, nay gọi là khoa học thư viện và thông tin, library and information science, LIS) với Đại học Temple.

 

Một chương trình seminar diễn ra trong 4 ngày liền từ 5-8 tháng 3, tập trung vào việc giới thiệu các tính năng công nghệ thông tin [1] và thông tin thư viện [2,3,4,5] mới nhất trong việc hỗ trợ và khai thác dữ liệu mạng internet, và một chương trình workshop diễn ra trong 5 ngày liên tiếp, từ 4-10 tháng 10, 2007, tập trung vào việc số hoá ảnh, số hoá văn bản, chuẩn và bàn phím nhập chữ Hán Nôm, tổ chức trang mạng công tác, và sơ đồ công tác.  Hai cuộc họp dài ngày này có sự tham gia trình bày của Ts. Ngô Trung Việt (Viện Công nghệ Thông tin) về chuẩn công nghệ thông tin cũng như thông tin thư viện [6], về phông Nôm và chữ Nôm trên mạng internet do nhóm Nôm Na (Hà Nội) [7,8] và Phan Anh Dũng (Trung tâm Công nghệ Thông tin Thừa Thiên–Huế, HueCIT) [9] trình bày.

 

Các thành viên trong buổi họp đã đồng ý thành lập nhóm nghiên cứu sử dụng chuẩn khoa học thông tin Dublin Core—gọi là issi_dc—nhằm bổ sung cho thích hợp với đặc thù của tư liệu Nôm Việt Nam.  Kết quả hai kỳ họp là sơ đồ luồng công tác số hoá kho tư liệu Nôm của VTTKHXH nhằm tăng phục vụ số người đọc, bảo vệ bản gốc qua các bản sao chụp phân phối nhiều thư viện khác, cũng như qua mạng internet. VTTKHXH có khoảng 10.000 đơn vị, chưa có thẻ liệt kê đầu sách theo hệ thư viện, và còn trong tình trạng cần được bảo quản chuyên nghiệp.

 

Bài này tập trung vào phương án phân luồng công tác và những quan sát ban đầu về chuẩn Dublin Core cho kho tư liệu Hán Nôm tại VTTKHXH.  Nhưng đầu tiên nhất, chúng tôi muốn ghi lại những đặc trưng của chữ “Nôm” và “quốc ngữ” và quan hệ giữa hai thứ chữ viết, để tránh ngộ nhận hoặc là chỉ dùng chữ Nôm để điền thẻ liệt kê đầu sách, hoặc là chỉ dùng chữ quốc ngữ như thông lệ lâu nay.

 

2. Vài nét cơ bản về tiếng Việt và hai hệ chữ viết

 

Tiếng Việt thuộc nhóm Việt Mường trong nhóm Môn-Khơme, ngữ hệ Nam Á [10,11].  Tiếng Việt được coi là thứ tiếng đơn tiết, mỗi đơn vị cấu tạo từ nhỏ nhất là một âm tiết, thường gọi là một tiếng [12]. Tiếng Việt có thanh điệu, mỗi tiếng mang một trong sáu thanh như sau:

 

Một tiếng (hay âm tiết) trong tiếng Việt có ba phần chính: cụm phụ âm đầu, vần và thanh.  Trong ví dụ trên, phần chiết đoạn (segmental) “rang” (phiên âm /rɑŋ/) có cụm phụ âm đầu, “r-”, và vần, “-ang”.  Thanh điệu có tính siêu đoạn (suprasegmental).  Tiếng là đơn vị phổ quát của mọi thứ tiếng.  Ví dụ, trong tiếng Anh, từ “rang” có một tiếng, trong đó phần chiết đoạn gồm cụm phụ âm đầu “r-”, và vần “-ang”, phần siêu đoạn của “rang” có thể cao tương đương với thanh ngang.

 

Tiếng Việt mượn mẫu cấu tạo từ (trừu tượng, khoa học, v.v.) và nhiều tiếng (chữ) của Trung hoa cổ (hay gọi là Hán cổ) và tiếng Trung hoa thời Đường, lúc cả hai chưa có thanh điệu [10,11].  Nay sau hơn 14 thế kỷ, chúng đã Việt hoá hoàn toàn.

 

Có hai thứ chữ viết ghi lại tiếng Việt: chữ Nôm (gồm cả Hán Việt) thuộc hệ biểu ý, và chữ quốc ngữ thuộc hệ la-tinh.  Chữ Nôm dùng ở Việt Nam khoảng 10 thế kỷ, và được thay thế bằng chữ hệ La-tinh khoảng những năm 1920.  Cả hai hệ chữ viết được coi là “quốc ngữ”: chữ Nôm là quốc ngữ trước những năm 1920 và chữ hệ La-tinh sau đó. Trong bài này, ta tạm gọi chữ viết tiếng Việt hệ biểu ý là chữ “Nôm”, và chữ viết tiếng Việt hệ la-tinh là chữ “quốc ngữ”.

 

Chữ Nôm và chữ quốc ngữ có chung một số đặc điểm cơ bản: chúng phản ánh đơn tiết tính của tiếng Việt bằng cách ghi mỗi tiếng thành một chữ.  Một chữ trong tiếng Việt gồm có một cụm đơn vị chính tả [13] bao bọc bởi các dấu cách.  Chữ quốc ngữ ghi được cấu trúc nhỏ hơn một tiếng nhờ viết theo âm vị của chữ cái hệ La-tinh [12].  Ví dụ, chữ quốc ngữ cho thấy cấu tạo chi tiết của tiếng, như cụm phụ âm đầu, bán nguyên âm tròn môi /w/ (tuy không nhất quán ou), vần gồm hai phần, cụm nguyên âm (nguyên âm dài, nguyên âm ngắn, nhị trùng âm) và cụm chung âm (coda), và một trong 6 thanh.  Chữ Nôm cũng biểu âm, nhưng gần với ngữ pháp hơn.  Ví dụ, chữ quốc ngữ “đá” không phân biệt chữ Nôm ������ (cho viên/hòn đá), hay  (cho cái đá), hay ������ (cho nước đá).  Những bộ  (thạch “đá”), ������ (túc “chân”) hay (băng) bên trái âm  “đa”, thường lặp lại các loại từ, như “viên/hòn/cục” đứng trước các danh từ chỉ đất đá, loại từ “cái” đứng trước danh từ chỉ hành động bằng chân, hay “nước” trước các danh từ thể lỏng, v.v.

 

Như vậy, ngoài lý do kỹ thuật trong việc phân luồng công tác số hoá, sự có mặt của chữ quốc ngữ bên cạnh chữ Nôm trong nguyên bản cho phép các chuyên gia không thông thạo chữ Nôm tham gia công tác số hoá, mà còn giúp mở rộng số người đọc không biết chữ Nôm.

 

3. Vài nét về phương án phân luồng công tác LIS

 

Sau khi thành lập ngày 8 tháng 10, 2007, nhóm 20 chuyên gia VTTKHXH và ĐH Temple, gọi là issi_dc, đề nghị sơ đồ số hoá LIS kho tư liệu Hán Nôm VTTKHXH như trong Hình 3.

 

đồ phân luồng công tác trên có một số đặc điểm sau đây dựa trên cơ sở tư liệu Nôm hiện tại:

 

  1. Công tác chụp và xử lý ảnh theo chuẩn quốc tế, trong đó có microfilm, và ảnh số hoá dùng scanner hay máy ảnh có độ phân giải cao.  Trong luồng công đoạn này có công tác đặt mã kho nội bộ có hệ thống, không bị trùng, nằm trong trường Mã hiệu (identifier) của chuẩn Dublin Core, nhằm theo dõi toàn bộ kho tư liệu trước khi được xử lý bởi các chuyên gia thư viện. Khi có bản sao chụp, mọi công tác, kể cả công tác bảo tồn, có thể xảy ra độc lập tuỳ theo hoạt động của Viện.

  1. Công tác bảo tồn bản gốc sau khi sao chụp.

  1. Công tác sao để phục vụ bạn đọc khắp nơi.  Đây là sản phẩm đầu tiên của phương án số hoá.  Dụng cụ (máy in màu và đen trắng có độ phân giải cao), phần mềm (xử lý ảnh), vật liệu (giấy dó, kim, chỉ khâu, mực in không acít), và nhân sự (CNTT và đóng sách) dùng trong công đoạn này không tốn kém và có thể thành một hoạt động thường xuyên của Viện, nhằm phổ biến tư liệu cho các thư viện khác phục vụ bạn đọc và nhà nghiên cứu ở mọi nơi.

  1. Công tác số hoá văn bản mạng internet. Luồng công tác này cần sự hỗ trợ mạnh mẽ của chuyên gia CNTT có hiểu biết về tổ chức số hoá ảnh, hệ phần mềm với cơ sở dữ liệu thư viện, hệ phần mềm bàn phím và phông Hán Nôm, các chuẩn CNTT như XML, MySQL.

  1. Công tác số hoá văn bản Nôm. Công tác số hoá văn bản Nôm (gồm cả Hán Việt) cần được một vài chuyên gia Nôm hướng dẫn và nhóm nhập liệu chữ Nôm và phiên quốc ngữ tương ứng.

  1. Công tác thông tin thư viện.  Công tác thông tin thư viện LIS là công tác chính của toàn bộ phương án số hoá, và tham gia hướng dẫn công tác đặt mã kho vào tên gọi các tư liệu đã có mã kho nội bộ để theo dõi các hoạt động sao chép và số hoá văn bản (nhập chữ Hán Nôm và phiên âm quốc ngữ) cũng như điền mẫu tư liệu Dublin Core.

Ở đây, công tác cần nghiên cứu trước tiên là chuẩn Dublin Core.  Phần kế, chúng tôi xin điểm qua những quan sát về tư liệu Nôm trên nền chuẩn thông tin thư viện Dublin Core.

 

4. Sơ lược về chuẩn thông tin thư viện Dublin Core

 

Chuẩn Dublin Core – chuẩn cơ bản nhất của các hoạt động thông tin thư viện của nhóm Dublin (thành phố Dublin, tiểu bang Ohio, Mỹ) dưới tên Sáng kiến Siêu dữ liệu Dublin Core (hay DCMI, Dublin Core Metadata Initiative) [1] năm 1995 nhằm cải tiến chuẩn tìm kiếm, khám phá mọi nguồn thông tin.  Mục tiêu của nhóm là làm thế nào để mô tả tư liệu (resources) [2] dễ dàng mà ai cũng hiểu được, ít tốn kém, đa ngữ, xuyên ngành, xuyên văn hoá, và dễ tìm.  Mục tiêu này hợp với yêu cầu của VTTKHXH đối với kho tư liệu Nôm.

 

Tập yếu tố Dublin Core được Tổ chức Chuẩn Quốc Tế  (ISO) chấp thuận ngày 26 tháng 2 năm 2003 mang tựa đề Thông tin và Tài liệu – Tập Yếu tố [3] Siêu dữ liệu Nền tảng Dublin [14].  Trong phần “Bản quyền”, ISO nói đây là “Bản Nháp chuẩn quốc tế”.  Trong “Lời nói đầu”, ISO cho biết chuẩn Dublin mang số hiệu ISO 15636:2003(E), do Tiểu ban 4 (còn gọi là Tương tác Kỹ thuật) của Uỷ ban Kỹ thuật 46 (còn gọi là Thông tin và Tài liệu).  Ngày 22 tháng 5, 2007, chuẩn này được Tổ chức Tiêu chuẩn Thông tin Quốc gia NISO thông qua dưới tên ANSI/NISO Z39.85-2007 [15].  Chuẩn Dublin Core có bản dịch chữ Trung hoa giản thể do Thư viện Thượng Hải bảo trì dưới tên Dublin hạch tâm nguyên số cứ nguyên tố tập tháng 8 năm 2006 [16].  Việt Nam chưa có cơ quan nào làm động tác dịch và tham gia Dublin Core.

 

Nhóm công tác issi_dc đề nghị bảng tiếng Việt tương ứng sau khi tham khảo các nghiên cứu khác trong nước [17].

 

Các chuẩn và bảng từ ngữ chuẩn liên quan đến Dublin Core là:

 

Trong đợt khảo sát sơ khởi này, tương tự như kinh nghiệm đối với tư liệu cổ Trung, Nhật, Hàn, nhóm nghiên cứu Dublin Core issi_dc đã rà soát sơ khởi thông lệ in ấn truyền thống Việt Nam và sự thích hợp của nó với tập yếu tố Dublin Core.  Ví dụ, mỗi dữ kiện ghi bằng chữ Nôm phải có phiên âm quốc ngữ kèm theo.  Thời điểm xuất bản thường chỉ vào hoàng đế đương thời và số năm tại vì (đếm từ số 1, thay vì 0, và hoàng đế kế tiếp năm thứ nhất trùng năm với hoàng đế kết thúc trị vì trước đó, xem Phàm lệ của Đại Việt Sử ký toàn thư).  Hoàng đế thường nắm toàn bộ ván in, nghĩa là nhà xuất bản cũng là đức vua tại vị, và kinh đô cũng có thể là nơi xuất bản.  Cách tính trang bằng tờ, mỗi tờ 2 trang, có số tờ in ở cạnh xếp, cạnh xếp in tên sách và số trang.  Tư liệu thường không có tên tác giả hay tập thể tác giả, v.v.


Bảng 1: Tập 15 yếu tố nền Dublin Core và tiếng Việt tương ứng.

 

STT

Tên

Tên tiếng Việt

Định nghĩa

1.

Title

Tựa

Tên đặt cho tư liệu (Ch.[4] đề danh, ).

2.

Creator

Tác giả

Thực thể [tên] chính có trách nhiệm chính làm ra tư liệu. (Ch. sáng kiến giả, 建者).

3.

Subject

Chủ đề

Tiêu đề của tư liệu, dùng từ khoá, mã phân loại, hay từ vựng sẵn (khác trường 14. Phạm vi), (Ch. chủ đề/kiện từ, /键词).

4.

Description

Mô tả

Điều cần nói về tư liệu, ví dụ, tóm tắt, mục lục, hình/ảnh, hay mô tả (Ch. miêu thuật,  描述).

5.

Publisher

Nhà xuất bản

Thực thể [tên] có trách nhiệm làm cho tư liệu được sử dụng [available] (Ch. xuất bản giả, 出版者).

6.

Contributor

Cộng tác

 

Thực thể [tên] có trách nhiệm đóng góp vào tư liệu (Ch. kỳ tha trách nhiệm giả, 其他任者).

7.

Date

Thời điểm

 

Thời điểm hay thời đoạn dính dáng tới một sự cố trong đời của tư liệu.  Đề nghị dùng chuẩn ghi ngày giờ W3C DTF của ISO 8601:1988(E), ví dụ, 2007-12-28T19:20:30.45 +07:00 (+07:00 chỉ múi giờ Hà Nội so với Greenwich) (Ch. minh kỳ, 日期).

8.

Type

Thể loại

Bản chất hay thể loại của tư liệu.  Nên dùng Từ vựng về Thể loại DCMI [Type Vocabulary]  (khác trường 9. Dạng thức mang tính vật lý) (Ch. tư nguyên loại hình, ).

9.

Format

Dạng thức

 

Dạng thức của hồ sơ, dạng vật lý, hay kích thước của tư liệu.  Nên dùng từ vựng sẵn trong Internet Media Type MIME (Ch. cách thức, 格式).

10.

Identifier

Mã hiệu

 

Tham chiếu không mơ hồ của tư liệu trong một bối cảnh nhất định (Ch. tư nguyên tiêu thức phù, 标识).

11.

Source

Nguồn

 

Tư liệu [mã hiệu] được sử dụng để thành hình tư liệu này (Ch. lai nguyên, 来源).

12.

Language

Ngôn ngữ

Ngôn ngữ của tư liệu, dùng chuẩn RFC 4646 (Ch. ngữ chủng, ).

13.

Relation

Tham chiếu

Tư liệu liên hệ [mã hiệu của tư liệu khác] (Ch. quan liên, 关联).

14.

Coverage

Phạm vi

Chủ đề không, thời gian của tư liệu, không gian sử dụng / thẩm quyền pháp lý mà tư liệu có hiệu lực, một ví dụ, danh sách địa danh [Thesaurus of Geographic Names] (Ch. phủ cái phạm vi, 覆盖范).

15.

Rights

Quyền

Các quyền trên hay liên quan đến tư liệu, kể cả tác quyền, sở hữu (Ch. quyền hạn, 权限 [quản lý, 管理]).


 

Tham khảo với một vài tư liệu Nôm tại VTTKHXH, có một số điểm làm rõ hơn cách chúng ta định trị và khai triển một số yếu tố:

 

     Thêm tiểu trường Quốc ngữ (gọi là yếu tố chi tiết, element refinement)[5] với nghĩa “phiên âm quốc ngữ” của các chữ Hán Nôm trong vào các trường 1. Tựa, 2. Tác giả, 3. Chủ đề, 4. Mô tả, 5. Nhà xuất bản, 6. Cộng tác, 7. Thời điểm xuất hiện, và 11. Nguồn.  Riêng tiếng Việt, Dublin Core cần tiểu trường này, và cho những nước có nhiều hơn một thứ chữ viết, ví dụ trong tiếng Trung, có phanh âm (pinyin), chủ âm quan thoại, hệ Wade, hệ Yale, v.v.

     Thêm 3 tiểu trường Quyển số, Số trang, và Kích thước vào trường 4. Mô tả.  “Kích thước” theo định nghĩa của DCMI có thể là tiểu trường của trường 9. Dạng thức.  Tuy nhiên thông lệ mô tả tư liệu, số trang và kích thước thường đi chung.

     Thêm tiểu trường Mã kho tạm vào trường 10. Mã hiệu để làm sổ kho (inventory) sơ khởi.

     Xác định trường 12. Ngôn ngữ, theo RFC 639-1 (mà 2 chữ/số) tiếng Việt là “vi” và RFC 639-2 (mã 3 chữ/số) là “VIE”.  Quốc ngữ, họ La-tinh, có mã chữ viết “la-VN”. Nhóm issi_dc tạm đặt thêm tiểu trường Script/Chữ viết và cho trị là “vi-Nôm”.  RFC 3066 và ISO 15924 hiện chưa nhắc đến hai chữ viết tiếng Việt.

     Xác định trường 15. Quyền có trị là “Viện Thông tin Khoa học Xã hội”.

 

Vì đã có nhiều cơ quan sử dụng Dublin Core, Tổng cục Tiêu chuẩn, Đo lường và Chất lượng cần ra một bộ chuẩn Dublin Core tiếng Việt và nộp cho ISO.  Chúng tôi tạm gọi là Dublin Core Việt.

 

Một ví dụ điền mẫu Dublin Core Việt cho tư liệu có mã kho ISSI HN 0443, “Tâm pháp thiết yếu chân kinh”.

 

Trang đọc từ phải sang trái, từ trên xuống dưới, cách cắt câu theo cỡ chữ, dáng chữ, khoảng trống trên và dưới trong cột in, như sau:

 

Cột 1:  

Khải Định quý hợi xuân giáng trước

tại Hoà xá vọng từ

 

Cột 2:  

            Tâm pháp thiết yếu chân kinh

 

Cột 3:   Phần chính:   

                        Bảo Đại kỷ tỵ đông

            Cột 1 (phải):            寳善壇弟子等誠心重刊

                        Bảo Thiện Đàn đệ tử đẳng

                        thành tâm trọng san

            Cột 2 (trái):            板逅供在河城玉山祠

                        Bản cầu cúng tại Hà thành

                        Ngọc Sơn từ

            Cột nhỏ:            板共拾玖片内有壹長片

                        ���共肆拾弍張

Bản cộng thập cửu phiến

nội hữu nhất trường phiến

chỉ cộng tứ thập nhị chương


Theo trang trên, sách do thời Bảo Đại in lại (“trọng san”) năm 1929 cùa thời Khải Định năm 1923.  Sách có 19 bản gỗ, có thêm một bản gỗ dài bên trong, và giấy in ra có 42 chương.

 

b. Trang bìa và phần liệt kê đầu sách theo Dublin Core, tạm điền như sau:

 

Bảng 2: Ví dụ điền bản mẫu Dublin Core cho tư liệu ISSI HN 0443

 

1.

Title/Tựa

 

Quốc ngữ:

Tâm pháp thiết yếu chân kinh

2.

Creator/Tác giả:

 

Quốc ngữ:

Giáng trước tại Hoà Xá vọng từ

3.

Subject/Chủ đề:

Buddhism

 

Quốc ngữ:

Đạo Phật

4.

Description/Mô tả:

板共拾玖片内有壹長片������共肆拾弍張

 

Quốc ngữ:

Bản cộng thập cửu phiến nội hữu nhất trường phiến chỉ cộng tứ thập nhị chương

 

Quyển số:

 

 

Số trang:

About 500

 

Kích thước:

19 x 26 cm

5.

Publisher/Nhà xuất bản:

 

– Quốc ngữ:

Bảo Ðại

6.

Contributor/Cộng tác:

 

– Quốc ngữ:

Bảo Thiện đàn đệ tử đẳng thành tâm trọng san

7.

Date/Thời điểm xuất hiện:

     

 

– Quốc ngữ:

Bảo Ðại kỷ tỵ đông (1929)

8.

Type/Thể loại:

Text [theo chuẩn DCMI DCT]

9.

Format/Dạng thức:

Book

10.

Identifier/Mã hiệu:

 

 

– Mã kho tạm:

ISSI HN 443

11.

Source/Nguồn:

 

Quốc ngữ:

Khải Ðịnh quý hợi xuân (1923)

12.

Language/Ngôn ngữ:

VIE [theo chuẩn ISO 639-2]

 

Script/Chữ viết:

vi-Nom [chưa có trong chuẩn quốc tế RFC 3066]

13.

Relation/Tham chiếu:

 

14.

Coverage/Phạm vi:

Vietnam [theo chuẩn địa danh TGN]

15.

Rights/Quyền:

Institute of Social Sciences Information

 


Trị của trường 14. Phạm vi, chúng tôi đặt là “Vietnam”, tuy trong danh sách của TGN [15] có “Dai Viet”, “North Vietnam” và “South Vietnam”.  Khi điền mẫu Dublin Core ở trên, phần phiên âm Quốc ngữ là hết sức cần thiết cho người đọc và truy tìm.  Hai thứ chữ Nôm và quốc ngữ thật sự hỗ trợ cho nhau về tri thức.

 

Sau khi xác lập quy trình mạng, nhóm issi_dc dùng mẫu trình bày trang có quy chế tìm theo các yếu tố Dublin Core, có ảnh, có chữ Nôm và phiên âm Quốc ngữ, cũng như có chế độ lật trang thuận tiện cho người đọc.  Xem Hình 5, trang Dublin Core, và Hình 6, trang nội dung cho quyển có mã kho tạm ISSI HN 0443.

 

Một lập trình mạng thu thông tin ảnh, thông tin liệt kê tư liệu, thông tin chữ Nôm và phiên âm Quốc ngữ trong các tệp rời, … để dàn trang như hai hình trên.  Do vậy, các công đoạn xử lý ảnh, nhập liệu Nôm/Quốc ngữ, xác định thông tin liệt kê tư liệu

 

5. Kết luận

 

Nhóm nghiên cứu Dublin Core issi_dc dự tính tiếp tục nghiên cứu các văn bản sau:

1.       ISSI HN 0443 Tâm pháp thiết yếu chân kinh (ảnh chụp được 1 trang)

2.       ISSI HN 0987 Phù thuỷ thư (ảnh chụp được 58 trang)

3.       ISSI HN 1011 Tập ghi chép đơn xin nhận ruộng đất canh tác (ảnh chụp được 2 trang)

4.       ISSI HN 1020 Thái Bình tỉnh, Kiến Xương phủ, Đông Nhuế xã, Đinh tộc Ất chi lập từ (ảnh chụp được 26 trang)

5.       ISSI TTTS 1261 Thái Bình tỉnh, Kiến Xương phủ, Trực Định huyện, Thuỵ Lũng tổng bộ (ảnh chụp được mới 2 trang)

 

Các văn bản này đã được đưa lên mạng thao tác theo phân luồng số hoá theo Hình 3, chụp ảnh (tiểu ban xử lý ảnh), điền mẫu Dublin Core theo Bảng 2 (tiểu ban Dublin Core), và nhập chữ Nôm kèm quốc ngữ như Hình 4 (tiểu ban Hán Nôm) trên trang mạng Đại học Temple (tiểu ban CNTT) tại

http://www.temple.edu/vietnamese_center/nomstudies/issi.html, dưới sự hướng dẫn của nhóm quản lý.

 

 

Tham khảo:

 

1.      O’Reilly, T.  2004.  The Open Source Paradigm Shift. May 2004.  On own web page.

2.      Antelman, K., Lynema, E. & Pace, A.K.  Toward a twenty-first century library catalog, Information Technology & Libraries (2006): 128-139.

3.      Eberthart, George M. ed. 2006. The whole library handbook.  Chicago: American Library Association.

4.      Martin, Lowell A. 1996. Organizational structure of libraries. London: The Scarecrow Press.

5.      Schutze, Gertrude. 1972. Information and library science source book. Metuchen, NJ: The Scarecrow Press, Inc.

6.      Việt, N.T. 2007. Thư viện số thức, bộ slides huấn luyện nội bộ, gồm Tập 1, Các vấn đề chung, Tập 2, Chuẩn siêu dữ liệu MODS, METS và Dublin Core, Tập 3: Lưu trữ mở rộng FEDORA và lưu trữ mở OAI.  Thông tin riêng.

7.      Nhóm Nôm Na.  2004. Quy trình Nôm Na: Giúp đọc Nôm và Hán Việt và chữ Nôm trên mạng, Kỷ yếu Hội nghị Quốc tế về chữ Nôm. Nxb Văn học, Hà Nội.

8.      Nhóm Nôm Na. 2006. 6 phiên bản Truyện Kiều: những vấn đề văn bản học, Hội nghị Quốc tế về chữ Nôm, Huế, 6/2006.

9.      Dũng, P.A. 2007.  Hệ thống phần mềm và trang web Hán Nôm HueCIT, bộ slides huấn luyện nội bộ.  Trung tâm Thông tin Thừa Thiên–Huế.

10.  Haudricourt, A.G. 1954. “De l'origine des tons en viêtnamien,” Journal Asiatique 242: 68-82.

11.  Haudricourt, A.G. 1961. “Bipartition et tripartition des systèmes de tons dans quelques langues d'Extrême Orient,” Bulletin de la Société linguistique de Paris 56: 163-180.

12.  Nhàn, N.T. 1984.  Tiếng và mẫu cấu tạo từ tiếng Việt [Syllabeme and patterns of word formation in Vietnamese], luận án Tiến sĩ, Đại học New York.

13.  Nhàn, N.T. 2001. Đơn vị chính tả và các đặc điểm của tiếng Việt: chữ quốc ngữ hệ la-tinh, chữ Nôm hệ biểu ý và Unicode/ISO IEC 10646, Uỷ ban chuẩn Unicode/ISO 10646 [VUIC], 2001.07.01.

14.  International Standards Organization. 2003. Information and documentation — The Dublin Core metadata element set, ISO/TC 46/SC 4 N515, ISO 15836:2003(E), at http://www.niso.org/international/SC4/n515.pdf, 2003-02-26.

15.  National Information Standards Organization.  2007.  Dublin Core Metadata Element Set, Version 1.1, http://www.dublincore.org/documents/dces/. 2007-05-26.

Từ vựng Thể loại tham cứu DCMI. Đề nghị của DCMI, 2000-07-11. <http://dublincore.org/documents/dcmi-type-vocabulary/>

Mã tên ngôn ngữ 3-chữ số ISO 639-2:1998. <http://www.loc.gov/standards/iso639-2/langhome.html>

Mã tên quốc gia ISO 3166 <http://www.din.de/gremien/nas/nabd/iso3166ma/>

— Internet Media Types.<http://www.isi.edu/in-notes/iana/assignments/media-types/media-types>

Thẻ căn cước ngôn ngữ, Internet RFC 3066.
 <http://www.ietf.org/rfc/rfc3066.txt>

Mã chữ viết, ISO 15924. <http://www.unicode.org/iso15924/codelists.html>

— Uniform Resource Identifiers (URI): Generic Syntax, Internet RFC 2396.
 <http://www.ietf.org/rfc/rfc2396.txt>

— Dublin Core Metadata for Resource Discovery. Internet RFC 2413.
 <http://www.ietf.org/rfc/rfc2413.txt>

Địa danh Getty
 <http://www.getty.edu/research/tools/vocabulary/tgn/index.html>

Mẫu ngày giờ, ghi chú của W3C.
 <http://www.w3.org/TR/NOTE-datetime>.

16.           上海图书馆 Thượng Hải đồ thư quán. 2006. 都柏林核心元数据元素集1.1: 参考描述 [Đô-bá-lâm hạch tâm nguyên số cứ nguyên tố tập 1.1 bản: Tham khảo miêu thuật], http://dc.library.sh.cn/1-1.htm. 2006-08-28.

17.           Hội, Nguyễn V.  2007. Tiêu chuẩn mô tả nguồn tin điện tử trên mạng Dublin Core.  Phòng Báo Tạp chí, Viện Thông tin Khoa học Xã hội.  Thông tin riêng.

 



[1]   Thư viện Thượng Hải đã dịch ra tiếng Trung giản thể năm 2006 [7].  Từ “Core” dịch là  核心 “hạch tâm”.  Chúng tôi xin để nguyên chữ “Dublin Core” vì cặp từ này đã thành tên gọi chung. Chúng tôi xin dùng từ “siêu dữ liệu” vì sát với cấu tạo hình vị tiếng Anh (meta- “siêu”, data “dữ liệu”), và cũng sát với nội dung cấu tạo của Dublin Core nhằm tìm ra tên gọi của các dữ liệu có chung một tính chất.

[2]   Thư viện Thượng Hải dịch từ “resource” là  “tư nguyên”.  Chúng tôi xin dùng từ “tư liệu” trong bài này thay cho “tư nguyên” hay “tài nguyên” vì chỉ dùng cho kho tư liệu Nôm.

[3]   Thư viện Thượng Hải dịch từ “element” là  元素 “nguyên tố”.  Chúng tôi xin dùng từ “yếu tố”, và “trường” khi nói đến ứng dụng trong cơ sở dữ liệu.

[4]   Ký hiệu “Ch.” trong cột “Định nghĩa” rút ra từ bản dịch chuẩn DCMI tiếng Trung.

[5]   Khái niệm “element refinement” để chỉ một yếu tố nhỏ hơn, rõ ràng và là một thành tố của một yếu tố.

 

 
Copyright 2006 By IVCE . All Rights Reserved. Designed & Developed By WorldSoft