Học tiếng Anh qua Ngữ liệu

By Nguyn Thành Luân – VIC’s Academic Division

Hội các sĩ tử luyện thi IELTS (VIC), ngày 02 tháng 10 năm 2013

Một vài cá nhân cảm thấy thoải mái khi học tiếng Anh qua phim ảnh, nghe đài, hoặc bài hát; một số khác lại hứng thú với việc phân tích các câu chữ, từ đó suy ra được logic của một từ, một cụm từ, một ngữ nhất định nào đó. Nếu bạn là người đam mê cách thứ hai, học bằng ngữ liệu sẽ là một cách hay. Chỉ cần có một chiếc máy tính, một chút kĩ năng dùng máy tính và đam mê học tập là được.

1. Ngữ liệu là gì?

Ngữ liệu (corpus / corpora) là một hệ thống văn bản được thu thập dựa theo một hoặc nhiều tiêu chí nhất định, được xử lí trên máy tính và có thể đọc thông qua máy tính. Những văn bản trong ngữ liệu có thể được thu thập dựa trên những tiêu chí như: academic, journalese, contemporary spoken, contemporary written. Bạn sẽ được giới thiệu về một ngữ liệu được thu thập dựa theo tiêu chí ‘contemporary American English’ trong bài viết này.

Tùy vào loại ngữ liệu mà bạn có thể tiến hành thực hiện nghiên cứu khoa học, học tiếng Anh, hay chỉ đơn thuần là đọc cho biết. Ví dụ, đối với một ngữ liệu mà toàn bộ văn bản của nó là ngôn ngữ được nói, viết bởi người già, thì nó có thể phục vụ cho nghiên cứu cho ngành Xã hội học, xem thử ngôn ngữ nói ra bởi người già và người trẻ khác nhau như thế nào; những nghiên cứu tương tự như khác biệt ngôn ngữ  giữa nam – nữ, người trưởng thành và trẻ em, vân vân, cũng có thể dựa vào đó mà thực hiện.

Với mục tiêu học tiếng Anh, chúng ta có thể vào những ngữ liệu này, tìm kiếm 1 từ khóa nhất định nào đó, xem cách người bản ngữ dùng từ  đó như thế nào, trong những ngữ cảnh nào; như vậy, chúng ta sẽ có một cái nhìn sắc bén và tổng quát hơn về từ/ngữ đó mà chúng ta đang tìm kiếm/thắc mắc.

2. Truy cập ngữ liệu

Hầu hết khái niệm ngữ liệu đều khá mới lạ với các bạn học tiếng Anh. Hầu như chỉ có những người làm nghiên cứu, giáo viên mới chú ý đến khái niệm này. Thế nên, nhiều ngữ liệu đang tồn tại chỉ dùng để bán và dùng cho mục đích thương mại trong nghiên cứu. Tuy nhiên, cũng có một số trang web cung cấp một số nguồn ngữ liệu miễn phí. Các bạn có thể truy cập vào trang http://corpus.byu.edu/.

Ở ngay phần đầu, bạn sẽ thấy một mục là ‘English’, bên dưới mục này liệt kê những ngữ liệu có sẵn miễn phí cho bạn. Ở bài viết này, chúng ta sẽ cùng xem xét ngữ liệu thứ 2 (COCA) (hình 1). Những ngữ liệu còn lại, các bạn có thể tự tìm tòi thêm.

hinh 1Hình 1

3. Giao diện và cách thức sử dụng

Sau khi đã truy cập vào ngữ liệu thứ 2, bạn sẽ thấy giao diện trình bày khá phức tạp, nhưng thực tế chúng ta chỉ cần chú ý đến một vài chi tiết thôi.

hinh 2Hình 2

 Theo như hình trên(hình 2), bạn chỉ cần chú ý vào mục: word(s); collocates, sections. Mục section thể hiện loại ngữ mà bạn muốn tìm. Nếu chọn Spoken thì tất cả những kết quả tìm kiếm của bạn sẽ là thuộc ngôn ngữ nói người ta thu âm được từ những cái người bản ngữ nói hàng ngày. Nếu bạn chọn Fiction, những kết quả hiện ra sẽ thuộc về ngữ liệu thu thập được từ tiểu thuyết, truyện ngắn, … và tương tự. Tìm hiểu kĩ về từ ngữ ở section spoken có thể giúp bạn hiểu rõ hơn về cách người bản ngữ nói năng, trong khi những mục từ ở mục academic có thể giúp bạn tìm hiểu cách viết trong các văn bản học thuật (các mục từ ở phần này chủ yếu được thu thập từ các bài nghiên cứu, các bài báo từ các tạp chí khoa học).

Điều tiếp theo bạn cần quan tâm là mục Word(s). Đây là nơi để bạn nhập từ khóa bạn mong muốn tìm hiểu. Theo như hình 2, từ khóa được nhập vào là likely, thì bên cạnh bảng này sẽ có một bảng kết quả tìm kiếm, như  sau (hình 3):

hinh 3Hình 3

Như bạn thấy, phía bên trên hiển thị tần suất xuất hiện (token) của từ ‘likely. Ở đây, trong section này có hơn 95 triệu từ, trong đó có hơn 10 ngàn lần từ likely xuất hiện. Phía bên dưới trình bày từ ‘likely’ xuất hiện trong những ngữ cảnh như thế nào, nói cách khác là được sử dụng ra sao, và ngữ cảnh là gì. Chỉ cần một vài cuộc chuột và một chút công đọc, bạn đã có thể biết được hàng tá cách hoặc hàng chục trường hợp người ta sử dụng ‘likely’, từ đó bạn chỉ việc phân tích cách dùng và học mà thôi. Cá nhân mình, khi đọc essay của các bạn viết, đa số chỉ có thể áp dụng được cấu trúc ‘be likely to’, trong khi thật ra từ ‘likely’ có thể sử dụng được trong rất nhiều những ngữ cảnh khác. Ví dụ từ corpus này gồm:

… game would likely stop extending the language at this point.

care-givers in our study likely used verbal praise to provide positive feedbacks…

… were three time as likely in households burning…

Đây chỉ là ví dụ rất đơn giản về ‘likely’, rất rất nhiều mục từ khác cũng có sẵn (nên nhớ là corpus này chứa đến 95 triệu từ nhé).

Còn nếu như các bạn đã chán chê với việc tìm hiểu từ đi một mình, và bỗng dưng đùng một phát có hứng thú với collocation, các bạn có thể nhìn sang cột giao diện (DISPLAY), click chuột vào từ  Collocate, và trỏ chuột vào mục word(s), enter lại, tức thì giao diện sẽ hiện ra một loạt những từ, cụm từ có thể đi được với từ khóa mà bạn đang tìm kiếm (hình 4). Mình sẽ tiếp tục đưa ra ví dụ với ‘likely’.

hinh 4Hình 4

Theo hình 4, những từ có thể đi được với ‘likely’ trong những ngữ liệu thu thập được từ người bản xứ gồm: to, they, the, is, that, more, be, it, are, ‘s. Đến đây, bạn tự hỏi, likely sẽ đi với ‘to’ như thế nào, bạn chỉ cần click vào từ ‘to’ ở bảng trên, tức thì kết quả sẽ hiện ra phía bên dưới như  sau (hình 5).

hinh 5Hình 5

Bạn sẽ thấy rõ tất cả những trường hợp ‘to’ đi được với ‘likely’. Dĩ nhiên ví dụ mình đưa ra hết sức đơn giản, và hầu như sau ‘likely’ sẽ là ‘to-inf’, nhưng sẽ còn vô vàn trường hợp khác mà bạn có thể học như: devote + time + to + V-ing, look forward + to + V-ing, vân vân.

Giao diện rất thân thiện và cách thức sử dụng cũng khá đơn giản, đúng không. Đây chỉ là những ngữ liệu rút ra từ COCA (ngữ liệu thu thập được từ Mĩ). Tất nhiên, còn rất nhiều những ngữ liệu khác nữa, như British National Corpus (BNC), là một corpus với ngữ liệu của Anh. Bạn nào là fan của tiếng Anh thuần có thể tham khảo ở đó.

Tra cứu corpus là một công việc đòi hỏi bạn phải có kiên trì, và có một chút khả năng suy luận để suy ra được cách thức sử dụng của một số từ, ngữ, cụm nhất định. Một số bạn cũng có thể nghĩ đến việc học thuộc lòng, nhưng quả thật cách ấy thì không được khuyến khích cho lắm. Chỉ cần quan sát một chút từ những ví dụ, chúng ta có thể thấy rằng, ví dụ, ‘leave’ và ‘keep’ thường dùng khác nhau hoàn toàn. ‘leave’ thì có một hàm nghĩa tiêu cực: leave him dead, leave her injured, left me alone, vân vân, trong khi ‘keep’ có một nét nghĩa tích cực: keep me updated, keep me informed, keep his chin up, vân vân.

Học tiếng Anh bằng ngữ liệu như thế này, có lợi ở một chỗ là tất cả những ngữ cảnh, những đơn vị ngôn ngữ đã được gom lại cho bạn cả rồi. Tất cả những gì bạn cần làm chỉ đơn giản là đọc, và lọc ra.

Chúc các bạn học tốt.

Hội các sĩ tử luyện thi IELTS (VIC)

Leave a Reply

Your email address will not be published. Required fields are marked *