fo_tech

New Member

Download miễn phí Khóa luận Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh - Việt





Mục lục
Lời nói đầu u .5
Mục lục c.6
Danh sách các hình .11
Danh sách các bảng.13
Chương 1 1.14
TỔNG QUAN VỀCHUYỂN ĐỔI CÂY CÚ PHÁP.14
1.1 Đặt vấn đề.14
1.2 Các chiến lược dịch máy.16
1.1.1 Chiến lược dịch trực tiếp.16
1.1.2 Chiến lược dịch dựa trên ngôn ngữtrung gian .17
1.1.3 Chiến lược dịch dựa trên sựchuyển đổi .18
1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên chuyển đổi .20
1.3 Cơsởlý thuyết.22
1.3.1 Cơsởlý thuyết ngôn ngữhọc của việc chuyển đổi .23
1.3.2 Cơsởlý thuyết tin học - Hướng tiếp cận vấn đề.33
Chương 2 2.35
CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH MÁY.35
2.1 Hướng tiếp cận dựa trên luật cố định .35
2.1.1 Cơchếchuyển đổi của cách tiếp cận dựa trên luật cố định .35
2.1.2 Nhận xét .38
2.2 Hướng tiếp cận sửdụng case-frame .39
2.2.1 Chuyển đổi các thông tin cấp độcâu .40
2.2.2 Chuyển đổi ngữ động từ.41
2.2.3 Sựchuyển đổi của định ngữ, bổngữ.42
2.2.4 Tự điển chuyển đổi.43
2.2.5 Nhận xét .44
2.3 Hướng tiếp cận sửdụng TAG đồng bộ(STAG).44
2.3.1 Văn phạm TAG .45
2.3.2 TAG đồng bộ(STAG) .49
2.3.3 Nhận xét .52
2.4 Cách tiếp cận phân tích ngữpháp song song .53
2.4.1 Ngữpháp chuyển dịch đảo có thống kê (SITG) .53
2.4.2 Thuật toán phân tích cú pháp song song với SITG.55
2.4.3 Đánh nhãn cấu trúc.58
2.4.4 Chuyển đổi cây cú pháp song song cho cảhai ngôn ngữ.58
2.4.5 Nhận xét .59
2.5 Cách tiếp cận dựa trên cấu trúc vịtừ- đối số.60
2.5.1 Rút trích các cấu trúc vịtừ- đối số.60
2.5.2 Khối chuyển đổi cấu trúc .62
2.5.3 Nhận xét .64
2.6 Tổng kết chương .65
Chương 3 3.66
MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP .66
3.1 Phương pháp học hướng lỗi dựa trên sựchuyển trạng thái .66
3.1.1 Ý tưởng .66
3.1.2 Thuật toán học TBL của Eric Brill.68
3.1.3 Nhận xét .70
3.2 Thuật toán học nhanh FnTBL .71
3.2.1 Hình thức hóa TBL .72
3.2.2 Thuật toán FnTBL.73
3.3 Mô hình chuyển đổi cây cú pháp sửdụng thuật toán FnTBL .78
3.3.1 Mô hình áp dụng chuyển đổi cây cú pháp .80
3.3.2 Mô hình học luật chuyển đổi bằng phương pháp học FnTBL .82
3.4 Nâng cao khảnăng mởrộng cho mô hình học .95
Chương 4 4.97
CÀI ĐẶT CHƯƠNG TRÌNH .97
4.1 Thiết kế.97
4.1.1 Mô hình tổng thể.97
4.2 Thuật toán gán nhãn cơsởcho ngữliệu .99
4.2.1 Thuật toán.99
4.2.2 Xây dựng cây cú pháp.99
4.2.3 Xây dựng cây quan hệ.103
4.2.4 Thuật toán chuyển đổi theo nguyên tắc .105
4.3 Học chuyển đổi cùng cấp .106
4.3.1 Xây dựng ngữliệu học .106
4.3.2 Xây dựng khung luật cho bộhọc chuyển đổi cùng cấp .108
4.3.3 Sơ đồlớp của chương trình học .114
4.3.4 Xây dựng bộluật (giai đoạn học cùng cấp) .114
4.3.5 Áp dụng bộluật chuyển đổi cùng cấp.116
4.4 Học chuyển đổi khác cấp .117
4.4.1 Xây dựng ngữliệu học .117
4.4.2 Xây dựng khung luật cho quá trình học chuyển đổi khác cấp .120
4.4.3 Sơ đồlớp của chương trình học .125
4.4.4 Xây dựng bộluật (giai đoạn học khác cấp) .125
4.4.5 Áp dụng bộluật chuyển đổi khác cấp .127
Chương 5 5.128
THỬNGHIỆM – ĐÁNH GIÁ .128
5.1 Thửnghiệm.128
5.1.1 Độ đo sửdụng .128
5.1.2 Kết quảhọc rút luật chuyển đổi .129
5.1.3 Một sốkết quảchuyển đổi .131
5.2 Đánh giá .134
5.2.1 Ngữliệu thửnghiệm .134
5.2.2 Nhận xét .135
Chương 6 6.137
TỔNG KẾT .137
6.1 Kết quả.137
6.2 Hướng phát triển.137
6.3 Kết luận.138
PHỤLỤC 1 .139
KHUNG LUẬT VÀ MỘT SỐLUẬT CÙNG CẤP.139
PHỤLỤC 2 .141
KHUNG LUẬT VÀ MỘT SỐLUẬT KHÁC CẤP .141
PHỤLỤC 3 .142
MỘT SỐKẾT QUẢDỊCH SỬDỤNG KHỐI CHUYỂN ĐỔI CÂY CÚ
PHÁP VCLTRANSFER .142
PHỤLỤC 4 .147
MỘT SỐCÂU DỊCH CỦA HAI HỆDỊCH .147
PHỤLỤC 5 .153
HỆTHỐNG NHÃN NGỮPHÁP .153
Luận văn tốt nghiệp
Trang 10
PHỤLỤC 6 .156
CÁC NHÃN QUAN HỆNGỮPHÁP .156
TÀI LIỆU THAM KHẢO .157



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

mặt tốc
độ. Phần 3.3 là mô hình áp dụng, mô hình học chuyển đổi cây cú pháp do chúng em
tự xây dựng dựa trên thuật toán học FnTBL áp dụng cho việc chuyển đổi cây cú
pháp. Các thuật toán liên quan cũng được trình bày trong phần này. Phần cuối cùng
(3.4) là một số kỹ thuật nhằm nâng cao tính mở rộng của chương trình.
3.1 Phương pháp học hướng lỗi dựa trên sự chuyển
trạng thái (TBL)
Phương pháp học dựa trên sự chuyển trạng thái được Eric Brill đưa ra trong
luận án tiến sĩ của ông năm 1993 [8]. Từ đó đến nay TBL đã chứng tỏ được sức
mạnh của nó trong nhiều bài toán liên quan đến học từ ngữ liệu, đặc biệt là những
bài toán liên quan đến xử lý ngôn ngữ. Từ ý tưởng ban đầu của Eric Brill và thuật
toán TBL gốc, nhiều thuật toán cải tiến đã ra đời với những ưu điểm về mặt thời
gian huấn luyện (tốc độ), bộ nhớ, và dạng luật như µ TBL, mTBL, k-bestTBL,…
Và gần đây là thuật toán TBL nhanh fnTBL.
3.1.1 Ý tưởng
Chỉ cần cung cấp cho hệ thống học một ngữ liệu đã được gán nhãn chính xác
và dạng luật. Hệ thống sẽ bỏ các nhãn chính xác đi, gán cho ngữ liệu bộ nhãn thô,
sau đó tự động rút ra các luật chuyển đổi nhãn dần dần để ngữ liệu biến đổi đến
Chương 3 – Mô hình chuyển đổi cây cú pháp
Trang 67
trạng thái có nhãn đúng như ban đầu. Các luật chi tiết hơn sẽ sửa sai cho những luật
tổng quát hơn gây ra.
Trong bài giảng về TBL, Samuel đã ví quá trình này cũng giống như tô màu
một bức hình theo mẫu [10]. Chẳng hạn như ta có hình mẫu cần tô như sau :
Quá trình tô diễn ra theo thứ tự:
1. Giấy vẽ trắng
2. Tô nền màu xám bằng cọ lớn
3. Dùng cọ vừa tô màu xanh lên
toàn bộ phần nón
4. Tô màu vàng lên phần nơ
5. Tô các chấm màu đỏ bằng cọ nhỏ
6. Dùng cọ thật nhỏ để tô phần nền
màu xám ở phần kẽ nơ
Chương 3 – Mô hình chuyển đổi cây cú pháp
Trang 68
3.1.2 Thuật toán học TBL của Eric Brill
Phần này sẽ giới thiệu tổng quan về phương pháp học hướng lỗi dựa trên sự
chuyển trạng thái TBL. Trước hết để giải một bài toán bằng phương pháp này,
chúng ta cần quy bài toán về dạng bài toán gán nhãn. Ý tưởng của cách tiếp cận là:
học từ ngữ liệu một bộ luật có thứ tự. Một luật khi áp dụng lên một thực thể sẽ làm
thay đổi nhãn của nó làm cho thực thể chuyển từ trạng thái cũ sang trạng thái mới.
Và sau khi áp dụng toàn bộ các luật trong bộ luật lên một thực thể, thì thực thể đó sẽ
có trạng thái gần với trạng thái đúng nhất.
Phương pháp học dựa trên sự chuyển trạng thái là một phương pháp học có
giám sát. Trước khi đi vào quá trình học của TBL, có một số thuật ngữ mà chúng ta
cần hiểu rõ:
™ Đầu vào
- Ngữ liệu huấn luyện : Là ngữ liệu chứa các mẫu huấn luyện chưa được
gán nhãn.
- Ngữ liệu vàng : Là ngữ liệu bao gồm các mẫu huấn luyện đã được gán
nhãn đúng. Ngữ liệu vàng do người tạo ra theo cách thủ công hoàn toàn
hay bán tự động, phải chính xác và đủ lớn. Có thể nói ngữ liệu huấn
luyện chính là ngữ liệu vàng đã được gỡ bỏ nhãn.
- Các khung luật chuyển đổi: thể hiện tất cả các dạng chuyển đổi trạng thái
nhãn có thể có. Khung luật là sự tổng quát hoá các luật. Mỗi khung luật
có 2 phần. Phần đầu là các vị từ có ý nghĩa do ta qui định, phần sau là
hành động thay đổi nhãn (trạng thái). Vị từ chứa các biến, chúng có giá
trị sẽ được xác định trong quá trình học.
Ví dụ : Khung luật
Nếu nhãn trước là Z thì chuyển đổi nhãn từ X thành Y.
• X, Y, Z là các biến
• Nhãn trước là Z là một vị từ chứa biến Z
• Chuyển đổi nhãn từ X thành Y là hành động thay đổi trạng thái
Chương 3 – Mô hình chuyển đổi cây cú pháp
Trang 69
Khi tất cả các biến trong khung luật đã nhận giá trị thực thì ta có một luật
cụ thể. Số lượng khung luật thường nhỏ. Tuy nhiên, phải đảm bảo có
khung luật “rộng” (ít điều kiện), có khung luật “hẹp” (điều kiện áp dụng
chặt hơn) để có thể rút ra được các luật có độ mịn khác nhau, luật “rộng”
có thể sửa được nhiều lỗi và luật “hẹp” có thể sửa các lỗi gây ra bởi việc
áp dụng luật “rộng”.
™ Đầu ra
- Danh sách luật có thứ tự
Quá trình học diễn ra như sau :
- Bước 0: Ngữ liệu chưa gán nhãn được đưa vào hệ thống.
- Bước 1: Hệ thống sử dụng tri thức về trạng thái khởi đầu đã có sẵn để gán
nhãn cho ngữ liệu luyện. Trạng thái ban đầu này có thể rất đơn giản,
chẳng hạn như gán nhãn ngẫu nhiên, nhưng cũng có thể rất kỳ công như
được con người gán nhãn bằng tay.
- Bước 2: Ngữ liệu huấn luyện sẽ được so sánh nhãn với ngữ liệu vàng. Từ
những sai khác giữa ngữ liệu huấn luyện và ngữ liệu vàng mà ta có thể
gọi là lỗi, hệ thống sẽ tự động rút ra luật sửa lỗi có dạng thức theo các
khung luật đã được cung cấp. Đồng thời, tính điểm cho các luật được rút
ra.
Điểm luật = số lỗi của ngữ liệu hiện hành được sửa bởi luật - số lỗi
gây ra bởi áp dụng luật lên trạng thái ngữ liệu hiện hành.
- Bước 3: Chọn luật có điểm cao nhất và so sánh điểm với ngưỡng.
o Nếu (điểm cao nhất > ngưỡng) thì thực hiện bước 4.
o Ngược lại, (điểm cao nhất <= ngưỡng), dừng quá trình học.
- Bước 4: Đưa luật có điểm cao nhất vào tập luật. Áp dụng luật vừa chọn
được lên ngữ liệu huấn luyện. Lặp lại bước 2.
Chương 3 – Mô hình chuyển đổi cây cú pháp
Trang 70
Hình 16: Sơ đồ phương pháp học TBL tổng quát
3.1.3 Nhận xét
3.1.3.1 Ưu điểm
™ Bộ học dựa trên sự chuyển trạng thái có tính dễ mở rộng cao. Chúng ta có
thể thêm khung luật chuyển đổi nếu nhận thấy bộ học cần rút ra luật theo
một dạng luật mới. Nếu một khung luật không hữu dụng thì không có luật
nào được rút ra theo khung luật đó, vì thế khung luật thừa cũng không làm
chất lượng học bị giảm mà chỉ có thể làm tăng thời gian học.
™ Bộ học dựa trên sự chuyển trạng thái có thể được sử dụng như một bộ phận
hậu xử lý cho kết quả gán nhãn bởi con người hay một bộ gán nhãn tự
động khác. Điều này được thực hiện rất đơn giản bằng cách sử dụng kết
quả gán nhãn từ nguồn khác làm kết quả của bộ gán nhãn cơ sở. Thay vì sử
dụng một cách gán nhãn cơ sở đơn giản, ta có thể sử dụng một cách gán
nhãn phức tạp hơn và nhiệm vụ của bộ học lúc này chỉ là rút ra những luật
sửa sai làm hoàn chỉnh thêm kết xuất.
Ngữ liệu được gán
nhãn
Bộ gán nhãn cơ sở
Bộ học (rút luật, đánh
giá và chọn luật)
Bộ luật
Ngữ liệu vàng Các khung luật
Ngữ liệu huấn luyện
chưa có nhãn
Chương 3 – Mô hình chuyển đổi cây cú pháp
Trang 71
™ Tri thức ngôn ngữ và tri thức riêng của ngữ liệu không được lập trình
“cứng” trong mã nguồn, do đó bộ học có tính uyển chuyển cao. Tri thức
được học ra dưới dạng luật theo khung luật dưới dạng ký hiệu, do đó rất dễ
hiểu đối với các chuyên gia về ngôn ngữ.
™ Một khi có danh sách luật chuyển đổi, khi áp dụng lên một thực thể mới,
những việc cần làm chỉ đơn giản là đưa thực thể
 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Xây dựng và sử dụng bài tập có nội dung thực tế chương “dòng điện không đổi” Luận văn Sư phạm 0
D Xây dựng chương trình quản lí chất lượng theo HACCP cho sản phẩm Chả giò xốp tôm cua chiên đông lạnh tại Công ty cổ phần thực phẩm Cholimex Nông Lâm Thủy sản 0
D Khảo sát, đánh giá thực trạng công tác tổ chức xây dựng chương trình, kế hoạch tại ủy ban nhân dân Văn hóa, Xã hội 0
D Nghiên cứu vấn đề điều khiển lò nhiệt. Đi sâu xây dựng chương trình giám sát nhiệt độ lò nhiệt trong phòng thí nghiệm sử dụng card PCI 1710 Công nghệ thông tin 0
D Xây dựng chương trình truyền thông cổ động cho sản phẩm sữa đậu nành Vinasoy Luận văn Kinh tế 0
D Báo cáo môn lập trình hướng đối tượng - Xây dựng chương trinh quản lí sinh viên Công nghệ thông tin 1
D Xây dựng và sử dụng hệ thống bài tập theo các mức độ tư duy trong dạy học chương Anđehit – xeton – axit cacboxylic lớp 11 THPT Ngoại ngữ 0
P Xây dựng chương trình trao đổi thông điệp trong mạng nội bộ Luận văn Kinh tế 0
B Xây dựng chương trình nhận dạng phiếu kết quả thi trắc nghiệm Luận văn Kinh tế 0
V Xây dựng chương trình quản lý nhập, xuất xăng dầu tại xí nghiệp Xăng Dầu K131 Hải Phòng Luận văn Kinh tế 2

Các chủ đề có liên quan khác

Top