Thứ Tư, 17 tháng 3, 2010

So sánh ảnh hưởng của bài báo khoa học máy tính trong hội nghị và tập san

Ngành khoa học máy tính có “văn hóa” hơi khác với các ngành khác: đó là họ thích công bố nghiên cứu trong các hội nghị khoa học và rất ít chịu công bố trên các tập san. Các ngành khác thì ngược lại: công bố trên tập san là chuẩn mực, còn các bài báo trong các hội nghị chẳng có trọng lượng gì đáng kể. Câu hỏi đặt ra có khác nhau về chất lượng bài báo về khoa học máy tính trên tập san khoa học và trong hội nghị?

Tác giả Erhard Rahm làm một phân tích để trả lời câu hỏi trên. Kết quả của ông công bố trên Information Services & Use 28 (2008). Ông ta dựa vào nguồn dữ liệu của Microsoft Libra, với hơn 900,000 bài báo nghiên cứu về khoa học máy tính và hơn 3.5 triệu trích dẫn (citations) tính đến 12/2007. Số liệu của Libra cho thấy có 471 tập san khoa học máy tính, và họ công bố 321,000 bài; ngoài ra còn có 2297 hội nghị khoa học máy tính công bố 585,000 bài. Như vậy quả thật, giới làm khoa học máy tính thích công bố trong các hội nghị.

Thế còn chất lượng thì sao? Có lẽ một cách thực tế để đánh giá chất lượng là so sánh tần số trích dẫn trung bình. Tính chung, có 1,655,000 lần trích dẫn các bài báo trên tập san (n=321,000 bài); do đó, tần số trích dẫn trung bình là 5.2. Đối với các bài báo trong hội nghị (585,000 bài) có 1,752,000 lần trích dẫn, tức tần số trung bình là ~3. Như vậy, mặc dù các hội nghị có nhiều bài báo hơn, nhưng ảnh hưởng của các bài báo này tính trung bình thấp hơn các bài trên tập san chính thức.

Nhưng không phải tập san nào cũng có giá trị như nhau, và không phải hội nghị nào cũng đều danh giá. Do đó, ông Rahm chọn ra 100 tập san chất lượng nhất và 100 hội nghị tốt nhất. 100 tập san đó công bố 190,000 bài và tần số trích dẫn trung bình là 7.5 lần. Còn 100 hội nghị “top” công bố 167,000 bài, với tần số trích dẫn trung bình 7.3, vẫn thấp hơn tập san, nhưng không thấp lắm. Con số này có thể cho thấy những bài báo trong các hội nghị có chất lượng cao cũng tương đương với những bài báo trên các tập san top.

Cách phân tích của ông này có phần … ăn gian và ngụy biện. Tại sao chọn top 100 mà không là top 50 hay top 10? Nếu chọn top 10 có lẽ kểt quả sẽ khác nhau giữa hai nhóm tập san và hội nghị. Tôi đoán rằng ông ta chỉ tìm top n sao cho tần số trích dẫn trung bình giữa hai nhóm (tập san và hội nghị gần bằng nhau). Đây là phân tích theo kiểu “fishing expedition”, một thói ngụy biện ở trình độ khá thấp!

Nói tóm lại, tôi thấy quan điểm [khá phổ biến] cho rằng trong khoa học máy tính những bài báo trên các hội nghị có giá trị cao hơn các tập san là không có cơ sở khoa học. Ngược lại, những số liệu trên đây cho thấy ảnh hưởng của các bài báo trên các tập san co hơn các bài báo trong hội nghị. Tuy nhiên, để các chuyên gia trong ngành nhận xét xem kết quả của ông này có gì sai không.

NVT

0 nhận xét:

Đăng nhận xét