Israel phát triển công nghệ tóm tắt văn bản bằng nhiều thứ tiếng

VHO- Phương pháp trên được gọi là công cụ trích dẫn đa ngôn ngữ (MUSE), đã được thử nghiệm với chín ngôn ngữ khác nhau gồm tiếng Trung, Anh, Hebrew, Arab, Ba Tư, Nga, Đức, Pháp và Tây Ban Nha.

Israel phat trien cong nghe tom tat van ban bang nhieu thu tieng hinh anh 1

Ảnh minh họa. (Nguồn: breakingisraelnews.com)

Đại học Ben-Gurion tại miền Nam Israel ngày 27.11 công bố các nhà nghiên cứu nước này đã phát triển một công nghệ mới tự động tóm tắt các văn bản viết bằng nhiều ngôn ngữ.

Phương pháp trên được gọi là công cụ trích dẫn đa ngôn ngữ (MUSE), đã được thử nghiệm với chín ngôn ngữ khác nhau gồm tiếng Trung, Anh, Hebrew, Arab, Ba Tư, Nga, Đức, Pháp và Tây Ban Nha.

Bản tóm tắt tự động bằng công cụ mới khá giống văn bản tóm tắt do con người thực hiện.

Việc gia tăng số lượng các văn bản trực tuyến dẫn đến sự cần thiết phát triển các phương pháp tự động tóm tắt các file văn bản như các bài báo, các bải phỏng vấn, để phục vụ việc xử lý tiếp theo.

Cùng với đó, thời gian để đọc lượng lớn văn bản cũng cần được rút ngắn, vì vậy các phương pháp tự động là cần thiết để tổng hợp các văn bản này.

Hầu hết các phương pháp tự động hiện nay phụ thuộc vào ngôn ngữ và các thuật toán đã được lập trình đã trải qua quá trình thử nghiệm trên rất nhiều văn bản.

Phương pháp mới cung cấp các bản tóm tắt bằng nhiều ngôn ngữ khác nhau, dựa trên thuật toán phân loại các câu trong một văn bản, sử dụng các đặc tính thống kê của các câu viết đó.

Cách phân loại này có thể thực hiện đối với các câu viết trong bất kỳ ngôn ngữ nào, sau đó rút ra các câu quan trọng thành một bản tóm tắt.

Các nhà nghiên cứu đánh giá công cụ mới sẽ là phần bổ sung có giá trị, giúp người sử dụng hưởng lợi ích từ một lượng lớn các tài liệu sẵn có trên mạng Internet.

TTXVN

Ý kiến bạn đọc